全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111471856.3 (22)申请日 2021.11.30 (71)申请人 南京大学 地址 210093 江苏省南京市 鼓楼区汉口路 22号南京大学软件学院9 25 (72)发明人 房春荣 顾明政 刘佳玮 何云  孙浩峰 陈振宇  (51)Int.Cl. G06F 11/36(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于强化学习的深度学习算子测试数 据生成方法 (57)摘要 一种基于强化学习的深度学习算子测试数 据生成方法, 其特征是基于提前定义的基本变异 方法组构造一个基于变异方法及跳转的QTable, 进行带关联的强化学习训练, 并最终在复杂场景 下采用变异方法链生成深度学习算子测试数据。 数据变异方法 组合可灵活进行增、 删、 改, 本方法 提供的基本变异方法包括: 字节、 多项式和高斯 变异。 其中, 字节变异是对测试数据的浮点数二 进制编码进行字节操作的变异, 包括二进制编码 各字节的增加、 删除、 取反、 移位、 随机重置; 高斯 变异指利用以测试数据为均值的高斯分布采样 得到新的测试数据; 多项式变异指 对测试数据到 边界的距离进行不同比例的放缩。 上述变异基于 不同的基 本思想, 兼顾有效性与多样性。 权利要求书2页 说明书5页 附图2页 CN 114265765 A 2022.04.01 CN 114265765 A 1.一种基于强化学习的深度学习算子测试数据生成方法, 其特征是基于被提前定义的 基本变异方法组定义一个变异方法组, 构造一个以方法组中的所有方法为状态集合、 跳转 至方法组中的所有方法为动作集合的QTable, 进行带关联的强化学习训练, 并最终达到在 复杂的算子场景下采用变异方法链生成深度学习算子测试数据的目的。 该方法分为以下几 个步骤: 1)变异方法定义: 本发明预定义了几种变异方法作为基本变异组, 实 际使用时可根据 需要添加、 减少、 修改变异方法, 定义该次实践专属的变异方法组, 上述变异方法均属于张 量变异方法, 区别于传统标量变异; 2)构造QTable: 定义状态s为将某种变异方法施加于当前张量, 定义动作a为选择某个 变异方法 并跳转至该方法对应的状态, 以当前变异方法组的全部变异方法按 上述方式构造 强化学习算法Q ‑Learning的QTable; 3)强化学习训练: 初始化上述 QTable, 进行 带关联的强化学习训练; 4)链式采样: 迭代生成随机种子张量和随机起始变异方法, 并按QTable对张量链式地 施加变异方法, 直至张量成功触发准确性问题或迭代至最大迭代次数。 2.根据权利要求1所述的变异方法定义子过程, 其特 征在于: 1)预定义了一组基本的变异方法组, 该方法组包括: 字节变异、 高斯变异和多项式变 异。 其中, 字节变异是指对测试数据的浮点数二进制编 码进行字节操作的变异, 操作包括二 进制编码各字节的增加、 删除、 取反、 移位、 随机重置, 支持float32和float16格式编码; 高 斯变异是指在以测试数据为均值的、 至少99.7%处于有效数值区间的高斯分布中进 行采样 得到新的测试数据; 多项式变异是指对测试数据到边界的距离进 行不同比例缩放并以此对 数据进行线性变换; 2)上述预定义的基本变异方法基于不同的基本思想, 如: 边界数据更容易引发异常、 均 匀采样对于小于1的数不利等, 经过大量实验证明兼顾有效性与多样性, 且目标为张量变 异, 变异操作较标量变异更复杂、 更 具统计学 特征; 3)基于基本变异方法组, 可根据实际需要对其进行扩增、 削减和修改, 形成新的变异方 法组, 但需要保证 变异方法适用于张量且同时适用于fl oat32和fl oat16格式编码。 3.根据权利要求1所述的构造QTable子过程, 其特 征在于: 1)定义状态s为将某种变异方法施加于当前张量, 定义动作a为选择某个变异方法并跳 转至该方法对应的状态, 从而状态s和动作a的集 合大小与变异方法组大小相同; 2)以当前变异方法组的全部变异方法按上述方式分别构造状态集合和动作集合, 并构 造强化学习算法Q ‑Learning的QTable, 该表格大小为变异方法组大小*变异方法组大小。 4.根据权利要求1所述的强化学习训练子过程, 其特 征在于: 1)初始化 QTable, 配置强化学习训练参数, 并通过随机均匀采样生成种子张量; 2)均匀随机采样每次训练的起始变异方法, 然后以Q ‑Learning算法对QTable进行训 练, 训练过程中, 每跳转至一个状态都会将当前状态代表的变异方法施加于 当前张量, 被修 改过的张量将作为下一状态的被 变异张量, 除非当前 结果已触发准确性问题; 3)对于某一次迭代, 在规定次数内成功生成触发准确性问题的张量即可获得奖赏, 且 施加变异方法次数越短奖赏越高, 反 之, 将不会获得负奖赏, 即被抑制; 4)强化学习算法将迭代至最大迭代次数或直至QTable变化程度小于某个阈值, 上述基权 利 要 求 书 1/2 页 2 CN 114265765 A 2于强化学习的链式训练方式非常适 合用于复杂、 难预测、 生成困难的张量 生成应用场景。 5.根据权利要求1所述的链式采样子过程, 其特 征在于: 1)多次迭代, 且在每次迭代中均匀随机采样每次训练的起始变异方法及种子张量; 2)在每次迭代中, 根据 QTable探索变异方法施加路径, 随着跳转改变张量并进行测试, 若在最大路径长度之内成功 生成触发准确性问题的测试数据, 则视为成功 生成一条测试数 据, 反之, 则视为触发 失败; 3)通过上述采样方式, 既可以学习到有效的变异方法短路径组合, 也可以学习到极为 有效的单个变异方法 并倾向于使用该方法, 因此, 这种方式能够生成更为有效的测试数据, 能够应对更加复杂的场景。权 利 要 求 书 2/2 页 3 CN 114265765 A 3

.PDF文档 专利 一种基于强化学习的深度学习算子测试数据生成方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的深度学习算子测试数据生成方法 第 1 页 专利 一种基于强化学习的深度学习算子测试数据生成方法 第 2 页 专利 一种基于强化学习的深度学习算子测试数据生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。