(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210844545.5
(22)申请日 2022.07.19
(71)申请人 中国石油大 学 (华东)
地址 266580 山东省青岛市黄岛区长江西
路66号
(72)发明人 徐九韵 张文洁
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/31(2019.01)
(54)发明名称
一种基于高阶邻居属性传播的知识图谱节
点属性补全方法
(57)摘要
本发明公开了一种基于高阶邻居属性传播
的知识图谱节 点属性补全 方法, 涉及知识图谱补
全领域, 针对知识图谱中存在的数字属性值缺失
问题, 该方法在多关系知识图谱 上聚合来自节点
高阶邻居的属性信息, 利用回归函数计算不同关
系下每对属性之间的相互影 响, 并在传播及迭代
更新过程中调整模型参数, 使用预测误差优化模
型损失, 直至取得最优预测 效果。 在两个通用数
据集上的实验 结果表明, 由于考虑了知识图谱中
所包含的实体的高阶邻居信息, 该 发明能更加准
确、 有效地预测节点属性的缺失值, 补全效果 好。
权利要求书2页 说明书5页 附图1页
CN 115269867 A
2022.11.01
CN 115269867 A
1.一种基于高阶邻居属性传播的知识图谱节点属性补全方法, 包括如下步骤:
步骤1: 具有n个实体的数字属性知识图谱可以表示为G=(E,R,P,A), 其中E={ei|i=
1,…n}表示实体 集合,R={ri,j}表示节点ei和ej之间的多关系边, 其中ei,ej∈E,P={pi|i=
1,…,k}和A={ai|i=1,…,m}分别表示关系路径和 属性。 因此, 实体e的属性可以定义 为Ae。
步骤2: 实体e∈E的邻居集 合可以定义 为
其中i表示邻居的阶数。
步骤3: 对于实体 e,Ae表示其属性集合,对于e的邻居,我们使用
定义其属性,其中i
与上述一致, 表示邻居的阶数。
步骤4: 模型预测属性值的来源主要可以分为三大部分, 包括实体内部属性信息、 实体
周围一阶邻居信息以及实体周围二 阶邻居信息。 对于实体内部属 性信息, 我们将该部分的
贡献设置为对节点自身其 他属性的线性回归:
yv=fy|x(xv)= ηy|xxv+γy|x+ ε0
其中, 误差 ε0服从标准差为σy|x的正态分布, 即ε0~N(0,( σy|x)2)。 则方差( σy|x)2可利用如
下方式计算: ( σy|x)2=mean({(yv‑ηy|xxv‑γy|x)2|v∈ εy|x})
εy|x为节点属性 集合。 对于参数 ηy|x和γy|x估计方式如下:
γy|x=mean({(yv‑ηy|xxn)|v∈ ε(y,x)})
其中, μx, μy分别为属性x和y的均值。
步骤2: 与节点自身信 息的表示类似, 一阶邻居信息的贡献为一阶邻居中所包含属性的
线性回归, 不同的是, 在一阶邻居的线性回归中, 结合图的多关系结构对节点之 间不同的连
接关系进行了加权区分。
步骤3: 为了尽可能多的利用图中所包含的有用信息, 本发明提出了一种新的二阶邻居
信息的利用方法。 通过图2我们 可以发现, 随着阶数的增加, 节点的邻居数量将呈指数型增
长, 因此, 不同于实体的一阶邻居, 我们采用相似度对二阶邻居与节点之 间的相关性进行度
量, 从而筛选出对实体缺失属 性预测最有价值的二阶邻居实体, 以确保在提升信息利用率
的同时, 最大程度的减小计算 开支。 具体步骤为:
(1)查找目标节点ei的一阶邻居集 合
(2)查找
中包含的所有节点的邻居节点集
且满足
通过相似度度量
指标计算ei和
之间的相似度
(3)根据相似度度量指标计算出的值对实体进行排序, 选 择前T个最大的实体
作为二
阶邻居;
(4)为
和ei建立新的连接, 权 重设为
所包含一阶邻居的权 重最小值。
步骤4: 经过二阶邻居发现方法筛选后, 原始图结构得到了有效简化。 则二阶邻居信息权 利 要 求 书 1/2 页
2
CN 115269867 A
2可以表示如下:
步骤5: 计算损失函数。 模型的学习目标是为了最小化缺失的属性值与从内部和外部信
息源收集的预测之间的距离 。 具体定义如下:
步骤6: 当距离函数d( ·)简单的取做平方差时, 该问题的解可以通过对ye求导得到。 在
聚合周围邻居对节点e的属性 值贡献时, 通过k次迭代获得达 到收敛域 值的e的预测如下:
其中,
为归一化因子。
步骤7: 为了保证收敛, 新的预测将通过阻尼因子进行如下处 理:
步骤8: 经过反复迭代, 模型最终获得了一个稳定的状态, 以最小化相邻节点之间标签
的不一致性。
步骤9: 从知识图谱任意选取残缺数值属性的三元组(e,a,? ), 其中? 表示待补全的实
体,遍历实体集合, 计算步骤6中的值,选取最小预测误差对应的预测值作为当前属 性三元
组补全结果, 得到补全的三元组(e,a,v);
步骤10: 遍历知识图谱中所有的残缺属性三元组, 重复执行步骤6、 7、 8, 得到补全完整
的数值属性知识图谱。权 利 要 求 书 2/2 页
3
CN 115269867 A
3
专利 一种基于高阶邻居属性传播的知识图谱节点属性补全方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:41上传分享