专利 一种基于解耦表征学习的链路预测方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210773347.4 (22)申请日 2022.07.01 (71)申请人南京航空航天大学地址 210016 江苏省南京市江宁区将军路 29号 (72)发明人关东海　郑昊　袁伟伟　 (74)专利代理机构北京高沃律师事务所 1 1569 专利代理师杜阳阳 (51)Int.Cl. G06F 30/27(2020.01) G06F 16/36(2019.01) G06F 119/02(2020.01) (54)发明名称一种基于解耦表征学习的链路预测方法及系统 (57)摘要本发明涉及一种基于解耦表征学习的链路预测方法及系统，该方法包括：获取目标数据集，将其中包含的三元组实体替换为已编号的实体 ID，将关系替换为已编号的关系ID，得到替换后的三元组；对替换后的三元组的实体数据和关系数据进行低维嵌入向量的初始化，将初始化后三元组标记为正确三元组，根据正确三元组生成错误三元组，将两种三元组作为训练数据并制作对应标签；构建卷积神经网络模型，采用训练数据对卷积神经网络模型进行训练得到三元组预测模型；包括第一子网络模型、第二子网络模型和最终得分确定模型；第一子网络模型包括解耦层、卷积层和拼接层；通过三元组预测模型预测所述三元组的得分。本发明能够提升对三元组的预测能力。权利要求书3页说明书11页附图2页 CN 115130383 A 2022.09.30 CN 115130383 A 1.一种基于解耦表征学习的链路预测方法，其特征在于，所述方法包括：获取目标数据集，并将所述目标数据集中包含的三元组中的实体替换为已经编号的实体ID，将关系替换为已经编号的关系 ID，得到替换后的三元组；所述三元组包括头实体、关系和尾实体；对所述替换后的三元组中的实体数据和关系数据进行低维嵌入向量的初始化，得到初始化后的三元组；所述初始化后的三元组包括实体向量和关系向量；将初始化后的三元组标记为正确的三元组，根据所述正确的三元组生成错误的三元组，将所述正确的三元组和所述错误的三元组作为训练数据并制作对应的标签；构建卷积神经网络模型，并采用所述训练数据对所述卷积神经网络模型进行训练，得到三元组预测模型；所述三元组预测模型包括第一子网络模型、第二子网络模型和最终得分确定模型；所述第一子网络模型包括解耦层、卷积层和拼接层；通过所述三元组预测模型预测所述三元组的得分，所述得分表征所述三元组的真实性。 2.根据权利要求1所述的基于解耦表征学习的链路预测方法，其特征在于，所述采用所述训练数据对所述卷积神经网络模型进行训练，得到三元组预测模型，具体包括：采用Adam优化器对所述卷积神经网络模型进行超参数优化，直至损失函数收敛，停止训练；若损失函数未收敛，且当前训练轮次超过设定阈值，则将当前训练轮次对应的超参数作为最优超参数，并停止训练。 3.根据权利要求1所述的基于解耦表征学习的链路预测方法，其特征在于，所述对所述替换后的三元组中的实体数据和关系数据进行低维嵌入向量的初始化，得到初始化后的三元组，具体包括：设置初始化超参数；所述初始化超参数包括第一初始化超参数、第二初始化超参数和第三初始化超参数；所述第一初始化超参数为是否使用已训练好的嵌入向量，所述第二初始化超参数为实体与关系的初始嵌入向量维度，所述第三初始化超参数为实体的解耦模块数；当所述第一初始化超参数为使用已训练好的嵌入向量时，所述第一初始化超参数为1，根据预先设定的路径导入已经训练好的低维嵌入向量对所述替换后的三元组中的实体数据和关系数据进行初始化，并根据第三初始化超参数的值对实体向量维度进行调整，关系向量的维度不变，得到初始化后的三元组；当所述第一初始化超参数为不使用已训练好的嵌入向量时，所述第一初始化超参数为 0，根据第二初始化超参数的值和第三初始化超参数的值随机初始化实体向量，根据第二初始化超参数的值随机初始化关系向量，得到初始化后的三元组。 4.根据权利要求1所述的基于解耦表征学习的链路预测方法，其特征在于，所述根据所述正确的三元组生成错误的三元组，具体包括：设置第四超参数，根据所述第四超参数确定生成的错误的三元组的数目；所述第四超参数为错误的三元组与所述正确的三元组的比值；随机替换正确的三元组中的任一实体，生成错误的三元组。 5.根据权利要求1所述的基于解耦表征学习的链路预测方法，其特征在于，所述通过所权　利　要　求　书 1/3 页 2 CN 115130383 A 2述三元组预测模型预测所述三元组的得分，具体包括：通过所述解耦层将三元组中的头实体与尾实体分别解耦，将解耦后的头实体向量、尾实体向量分别与关系向量连结，得到连结后的头实体 ‑关系向量和关系 ‑尾实体向量；通过所述卷积层对连结后的头实体 ‑关系向量、关系 ‑尾实体向量进行特征提取；通过所述拼接层对提取的头实体 ‑关系向量特征信息和关系 ‑尾实体向量特征信息进行特征融合和内积操作，得到第一三元组得分；根据解耦前的三元组通过所述第二子网络模型，得到第二三元组得分；根据所述第一三元组得分和所述第二三元组得分，通过所述最终得分确定模型确定最终三元组得分；所述最终三元组得分用于表征三元组的真实性。 6.根据权利要求2所述的基于解耦表征学习的链路预测方法，其特征在于，所述损失函数的表达式为：其中， (s,r,o)表示三元组， ψ(s， r， o)代表最终三元组得分，代表生成的错误三元组的集合，代表正确三元组的集合，代表对三元组的标签。 7.根据权利要求1所述的基于解耦表征学习的链路预测方法，其特征在于，所述方法还包括：将所述目标数据集中的测试集中的三元组输入至所述三元组预测模型，计算三元组预测模型的性能指标；所述性能指标包括MR指标、 MR R指标和Hit@n指标；其中，所述MR指标表示对每个最终三元组得分排名的平均排名；所述MRR指标表示对每个最终三元组得分排名的倒数的平均；所述Hit@n指标表示链接预测中排名小于设定数值的三元组的平均占比。 8.一种基于解耦表征学习的链路预测系统，其特征在于，所述系统包括：目标数据集获取和三元组替换单元，用于获取目标数据集，并将所述目标数据集中包含的三元组中的实体替换为已经编号的实体ID，将关系替换为已经编号的关系ID，得到替换后的三元组；所述三元组包括头实体、关系和尾实体；初始化单元，用于对所述替换后的三元组中的实体数据和关系数据进行低维嵌入向量的初始化，得到初始化后的三元组；所述初始化后的三元组包括实体向量和关系向量；训练数据确定单元，用于将初始化后的三元组标记为正确的三元组，根据所述正确的三元组生成错误的三元组，将所述正确的三元组和所述错误的三元组作为训练数据并制作对应的标签；模型构建单元，用于构建卷积神经网络模型，并采用所述训练数据对所述卷积神经网络模型进行训练，得到三元组预测模型；所述三元组预测模型包括第一子网络模型、第二子网络模型和最终得分确定模型；所述第一子网络模型包括解耦层、卷积层和拼接层；预测单元，用于通过所述三元组预测模型预测所述三元组的得分，所述得分表征所述三元组的真实性。 9.根据权利要求8所述的基于解耦表征学习的链路预测系统，其特征在于，所述初始化单元，具体包括：权　利　要　求　书 2/3 页 3 CN 115130383 A 3

专利 一种基于解耦表征学习的链路预测方法及系统

专利一种基于解耦表征学习的链路预测方法及系统