(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210605957.3
(22)申请日 2022.05.31
(65)同一申请的已公布的文献号
申请公布号 CN 114691896 A
(43)申请公布日 2022.07.01
(73)专利权人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 高云君 陈璐 汪鹏飞 葛丛丛
曾晓灿
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 邱启旺
(51)Int.Cl.
G06F 16/36(2019.01)G06F 16/35(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 112182245 A,2021.01.0 5
饶官军等.基 于相似性负采样的知识图谱嵌
入. 《智能系统学报》 .2020,第15卷(第2期),
杜文倩等.融合实体描述及类型的知识图谱
表示学习方法. 《中文信息学报》 .2020,第34卷
(第7期),
审查员 李亚萍
(54)发明名称
一种知识图谱数据清洗方法及装置
(57)摘要
本发明公开了一种知识图谱数据清洗方法
及装置, 该方法包括: 获取待清洗知 识图谱, 所述
待清洗知识图谱包括若干实体和关系, 其中两个
实体和它们之间的关系组成一个三元组; 根据所
述待清洗知识 图谱和所述待清洗知识图谱中的
所有三元 组, 训练一个知识图谱嵌入模型和一个
三元组分类模 型, 其中所述知识图谱嵌入模型和
所述三元 组分类模型能相互促进; 使用训练后的
三元组分类模型对知识 图谱中的三元组进行分
类, 得到错误的三元组; 将所述错误的三元组输
入训练后的知识图谱嵌入模型, 得到所述错误的
三元组的全局置信度; 通过所述全局置信度对错
误的三元组进行修复, 以得到清洗后的知识图
谱。
权利要求书2页 说明书8页 附图4页
CN 114691896 B
2022.09.13
CN 114691896 B
1.一种知识图谱数据清洗方法, 其特 征在于, 包括:
获取待清洗知识图谱, 所述待清洗知识图谱包括若干实体和关系, 其中两个实体和它
们之间的关系组成一条三元组;
根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组, 训练一个知识图谱
嵌入模型和一个三元 组分类模型, 其中所述知识图谱嵌入模型和所述三元组分类模型能相
互促进;
使用训练后的三元组分类模型对知识图谱中的三元组进行分类, 得到错 误的三元组;
将所述错误的三元组输入训练后的知识图谱嵌入模型, 得到所述错误的三元组 的全局
置信度;
通过所述全局置信度对错 误的三元组进行修复, 以得到清洗后的知识图谱;
其中, 根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组, 训练一个知
识图谱嵌入 模型和一个三元组分类模型, 包括:
S21: 将所述待清洗知识图谱中的每一条三元组的置信度初始化 为1;
S22: 将所有三元组输入所述知识图谱嵌入模型, 使用随机负采样训练噪声感知的知识
图谱嵌入 模型;
S23: 根据训练后的知识图谱嵌入 模型的得分函数, 计算每一条三元组的得分;
S24: 选取若干得分最高的三元组作为正确的三元组, 对所述正确的三元组的实体或关
系进行随机替换, 得到错 误的三元组;
S25: 使用所述正确的三元组和错误的三元组对三元组分类模型进行训练, 训练完成后
更新每一条三元组的置信度;
S26: 根据更新后的置信度, 训练所述知识图谱嵌入 模型;
S27: 将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模
型, 重复步骤S22 ‑S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭
代训练, 直至所述知识图谱嵌入 模型和所述 三元组分类模型均完全收敛。
2.根据权利要求1所述的方法, 其特征在于, 使用训练后的三元组分类模型对知识图谱
中的三元组进行分类, 包括:
输入给定三元组, 通过训练后的三元组分类模型 得到所述 三元组的置信度;
若所述三元组的置信度大于等于预定阈值, 则所述 三元组是正确的;
若所述三元组的置信度小于预定阈值, 则所述 三元组是错 误的。
3.根据权利要求1所述的方法, 其特征在于, 将所述错误的三元组输入训练后的知识图
谱嵌入模型, 得到所述 错误的三元组的全局置信度, 包括:
将所述错误的三元组输入训练后的知识图谱嵌入模型, 根据所述知识图谱嵌入模型的
得分函数计算得到所述 错误的三元组的局部 置信度;
计算流入头实体和从尾实体流出的三元组 的置信度, 对所有置信度加权求平均 得到所
述错误的三元组的路径置信度;
融合所述错误的三元组 的所述局部置信度和所述路径置信度, 得到所述错误的三元组
的全局置信度。
4.根据权利要求1所述的方法, 其特征在于, 通过所述全局置信度对错误的三元组进行
修复, 以得到清洗后的知识图谱, 包括:权 利 要 求 书 1/2 页
2
CN 114691896 B
2根据所述错误的三元组 的全局置信度, 将所述错误的三元组修复成全局置信度最高的
三元组。
5.一种知识图谱数据清洗装置, 其特 征在于, 包括:
获取模块, 用于获取待清洗知识图谱, 所述待清洗知识图谱包括若干实体和关系, 其中
两个实体和它 们之间的关系组成一个三元组;
训练模块, 用于根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组, 训
练一个知识图谱嵌入模型和一个三元组分类模型, 其中所述知识图谱嵌入模型和所述三元
组分类模型能相互促进;
分类模块, 用于使用训练后的三元组分类模型对知识图谱中的三元组进行分类, 得到
错误的三元组;
输入模块, 用于将所述错误的三元组输入训练后的知识图谱嵌入模型, 得到所述错误
的三元组的全局置信度;
修复模块, 用于通过所述全局置信度对错误的三元组进行修复, 以得到清洗后的知识
图谱;
其中, 根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组, 训练一个知
识图谱嵌入 模型和一个三元组分类模型, 包括:
S21: 将所述待清洗知识图谱中的每一条三元组的置信度初始化 为1;
S22: 将所有三元组输入所述知识图谱嵌入模型, 使用随机负采样训练噪声感知的知识
图谱嵌入 模型;
S23: 根据训练后的知识图谱嵌入 模型的得分函数, 计算每一条三元组的得分;
S24: 选取若干得分最高的三元组作为正确的三元组, 对所述正确的三元组的实体或关
系进行随机替换, 得到错 误的三元组;
S25: 使用所述正确的三元组和错误的三元组对三元组分类模型进行训练, 训练完成后
更新每一条三元组的置信度;
S26: 根据更新后的置信度, 训练所述知识图谱嵌入 模型;
S27: 将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模
型, 重复步骤S22 ‑S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭
代训练, 直至所述知识图谱嵌入 模型和所述 三元组分类模型均完全收敛。
6.一种电子设备, 其特 征在于, 包括:
一个或多个处 理器;
存储器, 用于存 储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实
现如权利要求1 ‑4任一项所述的知识图谱数据清洗方法。
7.一种计算机可读存储介质, 其上存储有计算机指令, 其特征在于, 该指令被处理器执
行时实现如权利要求1 ‑4中任一项所述的知识图谱数据清洗方法的步骤。权 利 要 求 书 2/2 页
3
CN 114691896 B
3
专利 一种知识图谱数据清洗方法及装置
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:55:48上传分享