全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111487809.8 (22)申请日 2021.12.08 (71)申请人 北京广通优云科技股份有限公司 地址 100089 北京市海淀区紫竹院路69号 中国兵器大厦901室 申请人 杭州优云软件 有限公司 (72)发明人 刘东海 徐育毅 庞辉富  (74)专利代理 机构 杭州九洲专利事务所有限公 司 33101 代理人 陈继亮 (51)Int.Cl. G06F 9/50(2006.01) G06F 9/455(2006.01) G06N 5/04(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于模糊推理与强化学习结合的容器 内存弹性伸缩方法 (57)摘要 本发明提出了一种基于模糊推理与强化学 习结合的容器内存弹性伸缩 方法, 通过模糊推理 系统FIS将服务性能与资源使用情况变量表示的 连续高维状态空间映射成为离散低维状态空间; 在云环境中容器服务的运行过程中, 根据监控数 据不断优化自己的学习过程, 做出最佳决策, 输 出弹性系数至负载预测算法中, 引导容器获取更 加合适的资源配置。 如此形成一个闭环, 解决了 云环境中弹性伸缩动态优化问题。 权利要求书2页 说明书7页 附图1页 CN 113886095 A 2022.01.04 CN 113886095 A 1.一种基于模糊推理与强化学习结合的容器内存弹性伸缩方法, 其特征在于: 包括如 下步骤: (1) 、 基于模糊推理系 统的高维连续状态空间映射: 通过模糊推理系 统FIS将服务性能 与资源使用情况变量表示的连续高维状态空间映射成为离散低维状态空间; 具体构建容器 的状态空间时, 通过检测不同负载情况下 的容器服务质量表现, 再结合资源使用情况作出 弹性伸缩; (2) 、 基于强化学习的弹性伸缩动态优化: 随着云环境中容器服务的不断运行, 产生的 监控数据用作强化学习算法的训练数据集, 强化学习算法根据监控到的数据不断优化自己 的学习过程, 做出最佳决策, 输出弹性系数至负载预测算法中, 引导容器获取更加合适的资 源配置。 2.根据权利要求1所述的基于模糊推理与强化学习结合的容器内存弹性伸缩方法, 其 特征在于: 选择GC时长作为服务性能指标, 基于检测到的服务质量与预期服务质量做比较, 通过对比检测到的服务质量和预期服务质量的差值e, 也就是选取不同的GC差值大小作为 系统状态空间的定义标准; 使用模糊推理系统构建规则, 这个差值有正有负, 则以零为中心 状态, 向两边延伸至负无穷和正无穷, 以零 点为对称中心, 划分不同的状态空间。 3.根据权利要求1所述的基于模糊推理与强化学习结合的容器内存弹性伸缩方法, 其 特征在于: 在云计算资源分配场景中使用强化学习算法进行垂直弹性伸缩决策, 具体学习 过程为: (1) 、 首先定义好状态和动作空间, 然后根据状态和动作空间初始化一张Q值表, 并将Q 值都初始化为0, 检测并选定智能体处于系统中的某种状态 s, 根据动作选择策略, 选择对应 动作a并执行, 也就是选择一个优化后的弹性系数 pole, 并输出至预测算法中; 执行结束后 智能体收到反馈回报 r, 再根据反馈回报更新Q值, 循环多 次后, 收敛至最佳Q值表; Q值更新 公式为: 其中, 代表在状态 时选择执行动作 的系统价值, t表示第几个, 表示学 习率, 即最近动作之后学习到的奖励值在这个Q值中的占比; 为奖励衰变系数, 即未来奖 励对于现在的影响因子, 这个公式表示会根据下一个状态中选取 的最大Q值乘上衰变系 数 再加上真实回报奖励更新 Q值; (2) 、 构建智能体的动作空间: 选用不同的弹性系数组成系统动作空间, 通过强化学习 算法计算 不同状态下 各个动作即不同弹性系数的Q 值效益, 进 而得出最优弹性系数; (3) 、 设计系统的奖励函数, 首先以一个目标函数作为标准来衡量资源分配效益, 将目 标函数定义 为: 其中 表示服务质量, 表示资源成本, 和 用来表示 和 的权重;权 利 要 求 书 1/2 页 2 CN 113886095 A 2使用程序运行过程中的垃圾 回收时长GC作为具体衡量阶段性服务质量的指标, 资源成 本 则表示为其分配的内存资源, 则目标函数 更新为: 目标函数 表示当前时刻系统状态价值, 将奖励函数定义为在执行完一个动作 之后 的系统价 值与前一时刻t的系统状态价 值的差值: 如果执行某个动作之后, 系统状态价值增加了, 则奖励为正, 那么更新Q值增加, 表示这 个动作带来了正收益, 在之后遇到这种状态 时, 选择这种动作的概率会增大; 反之, 执行某 个动作之后系统价值减少 了, 表示这个动作带来了负收益, 之后选择这种动作的概率就会 减少; (4) 、 确定动作策略, 启动学习过程: 使用 策略, 首先定义一个 , 在 每次实验开始时, 随机一个大于0小于1的 值, 如果该值小于 , 则随机选择动作; 如果 大于, 选择当前平均收益 最高的那个动作 a, 公式表示如下: 。权 利 要 求 书 2/2 页 3 CN 113886095 A 3

.PDF文档 专利 一种基于模糊推理与强化学习结合的容器内存弹性伸缩方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于模糊推理与强化学习结合的容器内存弹性伸缩方法 第 1 页 专利 一种基于模糊推理与强化学习结合的容器内存弹性伸缩方法 第 2 页 专利 一种基于模糊推理与强化学习结合的容器内存弹性伸缩方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。