专利一种基于强化学习的深度学习算子测试数据生成方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111471856.3 (22)申请日 2021.11.30 (71)申请人南京大学地址 210093 江苏省南京市鼓楼区汉口路 22号南京大学软件学院9 25 (72)发明人房春荣　顾明政　刘佳玮　何云　孙浩峰　陈振宇　 (51)Int.Cl. G06F 11/36(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于强化学习的深度学习算子测试数据生成方法 (57)摘要一种基于强化学习的深度学习算子测试数据生成方法，其特征是基于提前定义的基本变异方法组构造一个基于变异方法及跳转的QTable，进行带关联的强化学习训练，并最终在复杂场景下采用变异方法链生成深度学习算子测试数据。数据变异方法组合可灵活进行增、删、改，本方法提供的基本变异方法包括：字节、多项式和高斯变异。其中，字节变异是对测试数据的浮点数二进制编码进行字节操作的变异，包括二进制编码各字节的增加、删除、取反、移位、随机重置；高斯变异指利用以测试数据为均值的高斯分布采样得到新的测试数据；多项式变异指对测试数据到边界的距离进行不同比例的放缩。上述变异基于不同的基本思想，兼顾有效性与多样性。权利要求书2页说明书5页附图2页 CN 114265765 A 2022.04.01 CN 114265765 A 1.一种基于强化学习的深度学习算子测试数据生成方法，其特征是基于被提前定义的基本变异方法组定义一个变异方法组，构造一个以方法组中的所有方法为状态集合、跳转至方法组中的所有方法为动作集合的QTable，进行带关联的强化学习训练，并最终达到在复杂的算子场景下采用变异方法链生成深度学习算子测试数据的目的。该方法分为以下几个步骤： 1)变异方法定义：本发明预定义了几种变异方法作为基本变异组，实际使用时可根据需要添加、减少、修改变异方法，定义该次实践专属的变异方法组，上述变异方法均属于张量变异方法，区别于传统标量变异； 2)构造QTable：定义状态s为将某种变异方法施加于当前张量，定义动作a为选择某个变异方法并跳转至该方法对应的状态，以当前变异方法组的全部变异方法按上述方式构造强化学习算法Q ‑Learning的QTable； 3)强化学习训练：初始化上述 QTable，进行带关联的强化学习训练； 4)链式采样：迭代生成随机种子张量和随机起始变异方法，并按QTable对张量链式地施加变异方法，直至张量成功触发准确性问题或迭代至最大迭代次数。 2.根据权利要求1所述的变异方法定义子过程，其特征在于： 1)预定义了一组基本的变异方法组，该方法组包括：字节变异、高斯变异和多项式变异。其中，字节变异是指对测试数据的浮点数二进制编码进行字节操作的变异，操作包括二进制编码各字节的增加、删除、取反、移位、随机重置，支持float32和float16格式编码；高斯变异是指在以测试数据为均值的、至少99.7％处于有效数值区间的高斯分布中进行采样得到新的测试数据；多项式变异是指对测试数据到边界的距离进行不同比例缩放并以此对数据进行线性变换； 2)上述预定义的基本变异方法基于不同的基本思想，如：边界数据更容易引发异常、均匀采样对于小于1的数不利等，经过大量实验证明兼顾有效性与多样性，且目标为张量变异，变异操作较标量变异更复杂、更具统计学特征； 3)基于基本变异方法组，可根据实际需要对其进行扩增、削减和修改，形成新的变异方法组，但需要保证变异方法适用于张量且同时适用于fl oat32和fl oat16格式编码。 3.根据权利要求1所述的构造QTable子过程，其特征在于： 1)定义状态s为将某种变异方法施加于当前张量，定义动作a为选择某个变异方法并跳转至该方法对应的状态，从而状态s和动作a的集合大小与变异方法组大小相同； 2)以当前变异方法组的全部变异方法按上述方式分别构造状态集合和动作集合，并构造强化学习算法Q ‑Learning的QTable，该表格大小为变异方法组大小*变异方法组大小。 4.根据权利要求1所述的强化学习训练子过程，其特征在于： 1)初始化 QTable，配置强化学习训练参数，并通过随机均匀采样生成种子张量； 2)均匀随机采样每次训练的起始变异方法，然后以Q ‑Learning算法对QTable进行训练，训练过程中，每跳转至一个状态都会将当前状态代表的变异方法施加于当前张量，被修改过的张量将作为下一状态的被变异张量，除非当前结果已触发准确性问题； 3)对于某一次迭代，在规定次数内成功生成触发准确性问题的张量即可获得奖赏，且施加变异方法次数越短奖赏越高，反之，将不会获得负奖赏，即被抑制； 4)强化学习算法将迭代至最大迭代次数或直至QTable变化程度小于某个阈值，上述基权　利　要　求　书 1/2 页 2 CN 114265765 A 2于强化学习的链式训练方式非常适合用于复杂、难预测、生成困难的张量生成应用场景。 5.根据权利要求1所述的链式采样子过程，其特征在于： 1)多次迭代，且在每次迭代中均匀随机采样每次训练的起始变异方法及种子张量； 2)在每次迭代中，根据 QTable探索变异方法施加路径，随着跳转改变张量并进行测试，若在最大路径长度之内成功生成触发准确性问题的测试数据，则视为成功生成一条测试数据，反之，则视为触发失败； 3)通过上述采样方式，既可以学习到有效的变异方法短路径组合，也可以学习到极为有效的单个变异方法并倾向于使用该方法，因此，这种方式能够生成更为有效的测试数据，能够应对更加复杂的场景。权　利　要　求　书 2/2 页 3 CN 114265765 A 3

专利 一种基于强化学习的深度学习算子测试数据生成方法

专利一种基于强化学习的深度学习算子测试数据生成方法