(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210611454.7
(22)申请日 2022.05.31
(71)申请人 北京科技大 学
地址 100083 北京市海淀区学院路3 0号
(72)发明人 付冬梅 陈东辉 宋广轩 张达威
马菱薇
(74)专利代理 机构 北京高沃 律师事务所 1 1569
专利代理师 褚海英
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/36(2019.01)
G06N 5/02(2006.01)
G06N 5/04(2006.01)
(54)发明名称
一种基于钢材知识图谱的钢材潜在知识推
理方法及系统
(57)摘要
本发明涉及一种基于钢材知识图谱的钢材
潜在知识 推理方法及系统, 属于知识图谱与钢铁
材料领域。 方法包括: 抽取现有钢材数据中的结
构化钢材知识三元组数据集; 构建钢材知识图谱
并存储; 利用钢材知识图谱中的钢材知识三元组
训练知识表 示模型; 基于钢材知识图谱和训练好
的知识表示模型来训练基于潜在关系的推理模
型; 利用训练好的推理模型进行潜在知识推理。
本发明方法利用知识 图谱整合钢材领域知识并
对其进行形式化的描述, 之后 在知识表示模型的
基础上, 能够以端到端的学习方式学习钢材知识
图谱中的实体 关系的嵌入表示, 从而进一步对已
知的钢材之间关系进行建模, 解决了难以挖掘钢
材牌号潜在知识的问题。
权利要求书3页 说明书11页 附图4页
CN 114860889 A
2022.08.05
CN 114860889 A
1.一种基于钢材知识图谱的钢材潜在 知识推理方法, 其特 征在于, 包括:
获取钢材领域现有钢材数据并抽取所述现有钢材数据中的结构化钢材知识三元组数
据集;
利用所述结构化钢材知识三元组数据集构建钢材知识图谱并存 储;
利用所述钢材知识图谱中的钢材知识三元组训练知识表示模型, 得到训练好的知识表
示模型;
基于所述钢材知识图谱和所述训练好的知识表示模型来训练基于潜在关系的推理模
型, 得到训练好的推理模型;
利用所述训练好的推理模型进行潜在知识推理, 推理出钢材潜在知识; 所述钢材潜在
知识包括钢材替代牌 号、 力学性能或化学成分。
2.根据权利要求1所述的方法, 其特征在于, 所述获取钢材领域现有钢材数据并抽取所
述现有钢材 数据中的结构化钢材知识三元组数据集, 具体包括:
从互联网上和文献手册中收集钢材领域有关钢材牌号数据, 并按照 其结构化程度划分
为结构化数据及非结构化数据, 将结构化数据以二维表单形式, 非结构化数据以文本形式
存储在本地钢材 数据库中, 作为现有钢材 数据;
将钢材数据库中以二维表单形式存储的结构化数据按照数据的行名为头实体, 列名为
关系, 数据本身为尾实体的规则映射成行名 ‑列名‑数据三元组;
将钢材数据库中的非结构化数据通过采用实体属性抽取模型提取其中对应的实体 ‑属
性‑属性值三元组;
对所述行名 ‑列名‑数据三元组和实体 ‑属性‑属性值三元组进行数据清洗, 得到对应的
结构化钢材知识三元组构成所述结构化钢材知识三元组数据集。
3.根据权利要求1所述的方法, 其特征在于, 所述利用所述结构化钢材知识三元组数据
集构建钢材知识图谱并存 储, 具体包括:
基于所述结构化钢材知识三元组数据集中的实体与关系, 利用文本相似性度量方法进
行实体对齐以消除歧义, 得到用于构造钢材知识图谱的钢材知识三元组数据集;
以所述钢材知识三元组数据集中各个钢材知识三元组的头尾实体作为知识图谱中的
节点, 以所述钢材知识三元组数据集中头尾实体间关系作为知识图谱中的边, 构建出所述
钢材知识图谱;
将所述钢材知识图谱 存储到图数据库中。
4.根据权利要求1所述的方法, 其特征在于, 所述利用所述钢材知识图谱中的钢材知识
三元组训练知识 表示模型, 得到训练好的知识 表示模型, 具体包括:
所述钢材知识图谱中的钢材知识三元组为已存在的事实三元组, 对所述事实三元组按
照预设概 率分别替换其头尾实体, 生成对应的负例三元组;
利用所述事实三元组和生成的负例三元组构建并训练知识表示模型, 知识表示模型根
据损失函数进行梯度更新, 达 到规定的训练轮次后得到所述训练好的知识 表示模型。
5.根据权利要求1所述的方法, 其特征在于, 所述基于所述钢材知识图谱和所述训练好
的知识表示模型来训练基于潜在关系的推理模型, 得到训练好的推理模型, 具体包括:
将所述钢材知识图谱中所有关系路径分解成三元组数据作为模型数据集, 并将所述模
型数据集中存在潜在关系的三元组数据按照比例划分出验证集, 所述模型数据集中其余三权 利 要 求 书 1/3 页
2
CN 114860889 A
2元组数据作为训练集;
利用所述训练好的知识表示模型得到所述模型数据集中的实体与关系在低维空间的
初始化向量表示;
将所述训练集中实体与关系的初始化向量表示拼接成矩阵, 利用所述矩阵来训练推理
模型, 利用所述验证集调整所述推理模型的超参数, 从而得到训练好的推理模型。
6.根据权利要求1所述的方法, 其特征在于, 所述利用所述训练好的推理模型进行潜在
知识推理, 推理出钢材潜在 知识, 具体包括:
基于待推理的目标潜在 关系和目标钢材牌号构 成的待推理三元组, 利用所述训练好的
推理模型对所述钢材知识图谱中所有实体进 行打分, 根据得分大小识别出与所述目标钢材
牌号具有目标潜在关系的最优实体。
7.一种基于钢材知识图谱的钢材潜在 知识推理系统, 其特 征在于, 包括:
三元组数据获取模块, 用于获取钢材领域现有钢材数据并抽取所述现有钢材数据中的
结构化钢材知识三元组数据集;
钢材知识图谱构建模块, 用于利用所述结构化钢材知识三元组数据集构建钢材知识图
谱并存储;
知识表示模型训练模块, 用于利用所述钢材知识图谱中的钢材知识三元组训练知识表
示模型, 得到训练好的知识 表示模型;
推理模型训练模块, 用于基于所述钢材知识图谱和所述训练好的知识表示模型来训练
基于潜在关系的推理模型, 得到训练好的推理模型;
潜在知识推理模块, 用于利用所述训练好的推理模型进行潜在知识推理, 推理出钢材
潜在知识; 所述钢材潜在 知识包括钢材替代牌 号、 力学性能或化学成分。
8.根据权利要求7 所述的系统, 其特 征在于, 所述 三元组数据获取模块具体包括:
钢材数据获取单元, 用于从互联网上和文献手册中收集钢材领域有关钢材牌号数据,
并按照其结构化程度划分为结构化数据及非结构化数据, 将结构化数据以二维表单形式,
非结构化数据以文本形式存 储在本地钢材 数据库中, 作为现有钢材 数据;
规则映射单元, 用于将钢材数据库中以二维表单形式存储的结构化数据按照数据的行
名为头实体, 列名为关系, 数据本身为尾实体的规则映射成行名 ‑列名‑数据三元组;
实体属性抽取单元, 用于将钢材数据库中的非结构化数据通过采用实体属性抽取模型
提取其中对应的实体 ‑属性‑属性值三元组;
数据清洗单元, 用于对所述行名 ‑列名‑数据三元组和实体 ‑属性‑属性值三元组进行数
据清洗, 得到对应的结构化钢材知识三元组构成所述结构化钢材知识三元组数据集。
9.根据权利要求7 所述的系统, 其特 征在于, 所述钢材知识图谱构建模块具体包括:
实体对齐单元, 用于基于所述结构化钢材知识三元组数据集中的实体与关系, 利用文
本相似性度量方法进 行实体对齐以消除歧义, 得到用于构 造钢材知识图谱的钢材知识三元
组数据集;
图谱构建单元, 用于以所述钢材知识三元组数据集中各个钢材知识三元组的头尾实体
作为知识图谱中的节 点, 以所述钢材知识三元组数据集中头尾实体间关系作为知识图谱中
的边, 构建出 所述钢材知识图谱;
图谱存储单元, 用于将所述钢材知识图谱 存储到图数据库中。权 利 要 求 书 2/3 页
3
CN 114860889 A
3
专利 一种基于钢材知识图谱的钢材潜在知识推理方法及系统
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:38上传分享