(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210660275.2
(22)申请日 2022.06.13
(71)申请人 四川大学
地址 610000 四川省成 都市一环路南 一段
24号
(72)发明人 于中华 陈黎 卢永美 孙川
叶子铭 于晓欣 何东 李洲
李沛东
(74)专利代理 机构 成都正煜知识产权代理事务
所(普通合伙) 51312
专利代理师 袁宇霞
(51)Int.Cl.
G06F 16/36(2019.01)
G06K 9/62(2022.01)
G06F 40/30(2020.01)
(54)发明名称
一种材料基因工程无模式数据转换为知识
图谱的方法
(57)摘要
本发明涉及无模式数据处理领域, 具体的提
供了一种材料基因工程无模式数据转换为知识
图谱的方法。 解决无模式的材料数据之间无法跨
模板查询与检索的问题, 主要方案包括, 将单个
无模式数据的本体节点、 属性节点与data部分的
每个实体的真实数据值根据关系属性进行映射,
得到知识图谱 数据; 将当前无模式数据的本体节
点与关联视图的本体节点通过语义相似度进行
融合, 将当前待关联的属性节点与关联视图的属
性节点通过语义相似度进行关联, 得到新的关联
视图; 将关联视图的融合本体节 点或关联属性节
点对应知识 图谱数据与待融合的知识图谱数据
根据相似度进行融合, 得到融合后的知识图谱数
据与关联视图的融合本体节点或关联属性节点
关联得到融合视图。
权利要求书4页 说明书9页 附图2页
CN 115017333 A
2022.09.06
CN 115017333 A
1.一种材 料基因工程无模式数据转换为知识图谱的方法, 其特 征在于, 包括以下步骤:
单个无模式数据包含template和data两个部分, 其中template部分描述了由实体组成
的数据结构, data部分 的数据包含若干条记录数据, 每一条数据使用template规定的格式
描述了每 个实体对应的真实数据值,
其特征在于:
步骤s0.初始化关联视图, 初始化融合视图;
步骤s1.执行步骤s2 ‑步骤s5逐一对待融合的单个无模式数据进行以下处理, 直至所有
无模式数据全部更新进入关联视图和融合视图;
步骤s2.对单个无模式数据中本体节点、 属性节点和关系属性申明:
根据单个无模式数据中的template部分的各个实体的层次关系, 将各个实体定义为本
体节点或属 性节点, 根据本体节点与本体节点之间的层次关系、 本体节点和属 性节点之间
的层次关系得到关系属性;
步骤s3.对单个无模式数据中本体节点、 属性节点对应的知识图谱数据申明:
将步骤S2申明的单个无模式数据的本体节点、 属性节点与单个无模式数据中的data部
分的每个实体的真实数据值根据关系属 性进行映射, 得到本体节点、 属 性节点对应的知识
图谱数据, 即得到单个无模式数据的知识图谱数据;
步骤s4.将当前无模式数据的本体节点与关联视图的本体节点通过语义相似度进行融
合, 将当前待关联的属 性节点与关联视图的属 性节点通过语义相似度进行关联, 得到新的
关联视图;
步骤s5.将关联视图的融合本体节点或关联属性节点对应知识图谱数据与待融合的单
个无模式数据的知识图谱数据根据相似度进行融合, 得到融合后的知识图谱数据, 将关联
视图的融合本体节点或关联属性节点与对应的融合后的知识图谱数据关联 得到融合视图。
2.根据权利要求1所述的一种材料基因工程无模式数据转换为知识图谱的方法, 其特
征在于, 所述 步骤S2包括以下步骤:
步骤S2‑1: 获取单个无模式数据, 得到单个无模式数据中所有实体;
步骤S2‑2: 在单个无模式数据的所有实体中, 通过单个无模式数据的每个实体的 “_
type”值, 申明单个无模式数据中的本体节点和 属性节点;
步骤S2‑3: 如果“_type=a aa”, aaa取值包含容器型、 表格型, 则当前实体为本体节点;
步骤S2‑4: 如果“_type=bbb ”, bbb取值包含字符串型、 数值型、 范围型、 候选型、 文件、
图片型, 则当前实体为属性节点;
步骤S2‑5: 在单个无模式数据中所有申明的本体节点和属性节点中, 通过每个实体的
路径申明本体节点与本体节点、 本体节点与属性节点之间的关系属性。
3.根据权利要求1所述的一种材料基因工程无模式数据转换为知识图谱的方法, 其特
征在于, 所述 步骤S3包括以下步骤:
步骤S3‑1: 获取单个无模式数据, 得到单个无模式数据的本体节点、 属性节点和关系属
性以及单个无模式数据中data部分的若干条记录数据, 即若干条知识图谱数据;
步骤S3‑2: 根据关系属性对单个无模式数据中所有的记录数据, 映射到对应的无模式
数据本体节点、 属性节点;
步骤S3‑3: 对每条记录数据, 经 过步骤S3 ‑2映射得到包 含属性节点 值的本体节点。权 利 要 求 书 1/4 页
2
CN 115017333 A
24.根据权利要求1所述的一种材料基因工程无模式数据转换为知识图谱的方法, 其特
征在于, 所述 步骤S4包括以下步骤:
步骤S4‑1: 加载单个无模式数据, 根据步骤S2得到单个无模式数据的本体节点、 属性节
点和关系属性, 得到待融合的单个无模式数据;
步骤S4‑2: 加载最新的关联视图, 如果最新的关联视图为空, 则执行步骤S4 ‑3; 如果最
新的关联视图不 为空, 则执 行步骤S4 ‑4;
步骤S4‑3: 将当前单个无模式数据的本体节点之间的关系、 本体节点与属性节点之间
的关系更新进入关联视图, 得到最 新的关联视图;
步骤S4‑4: 加载最 新的关联视图得到最 新的关联视图中所有的本体节点和 属性节点;
步骤S4‑5: 利用BERT计算步骤S4 ‑1获得的当前待融合的单个无模式数据的本体节点与
最新的关联视图的本体节点两两节点之 间的相似度, 即本体相似度, 获得本体相似度列 表,
具体的:
单个无模式数据的本体节点列表O=[o1, ..., oi, ..., om], 其中本体节点oi=[c1, ...,
cl]是由l个字组成;
最新的关联视图本体节点X=[x1, ..., xi, ..., xn], 其中本体节点xi=[w1, ..., wk]是由
k个字组成;
对于包含m个本体节点的O和包含n个本体节点的X, 利用BERT语言模型两两计算本体节
点之间的相似度, 共执 行m×n次, 具体为:
对于本体节点 oi和本体节点xi:
本体节点oi中的每个字ci, 其对应的初始化嵌入 向量为
本体节点xi中的每个字wi对
应的初始化嵌入向量为
将oi和xi进行拼接, 形式如[C LS]c1, ..., cl[SEP]w1, ..., wk, 送入
BERT语言模型进行相似度计算, 即BERT(oi, xi), 获得oi和xi的相似度大小;
最终获得长度为m ×n的本体节点相似度列表:
S1=[[o1, x1, BERT(o1, x1)], ..., [oi, xi, BERT(oi, xi)], ..., [om, xn, BERT(om, xn)]]
步骤S4‑6: 利用BERT计算步骤S4 ‑1获得的待融合的单个无模式数据的属性节点与最新
的关联视图的属性节点两 两节点之间的相似度, 即属性相似度, 具体的:
单个无模式数据的属性节点列表A=[a1, ..., ai, ..., au], 其中属性节点ai=[c1, ...,
cl]是由l个字组成;
最新的视图1属性节点Y=[y1, ..., yi, ..., yv], 其中属性节点yi=[w1, ..., wk]是由k个
字组成, 对于包含u个属性节点的A和包含v个属性节点的Y, 利用BERT语言模型两两计算属
性节点之间的相似度, 共执 行u×v次, 具体为:
对于属性节点ai和属性节点yi:
给定属性节点ai中的每个字ci, 其对应的初始化嵌入向量为
属性节点yi中的每个字
wi对应的初始化嵌入向量为
将ai和yi进行拼接, 形式如[CLS]c1, ..., cl[SEP]w1, ..., wk,
送入BERT语言模型进行相似度计算, 即BERT(ai, yi), 获得ai和yi的相似度大小;
最终获得长度为u ×v的属性节点相似度列表:
S2=[[a1, y1, BERT(a1, y1)], ..., [ai, yi, BERT(ai, yi)], ..., [au, yv, BERT(au, yv)]]权 利 要 求 书 2/4 页
3
CN 115017333 A
3
专利 一种材料基因工程无模式数据转换为知识图谱的方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:55:19上传分享