(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210432716.3
(22)申请日 2022.04.24
(71)申请人 山东省科院易达科技咨询有限公司
地址 250000 山东省济南市中国 (山 东) 自
由贸易试验区济南片区新泺大街2008
号银荷大厦B座3 03
(72)发明人 张伟 郝爽 臧利利 羊晋
赵鲲驰 刘光远 孙真真 马凤春
(74)专利代理 机构 江苏长德知识产权代理有限
公司 32478
专利代理师 刘传玉
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/33(2019.01)
G06F 16/35(2019.01)G06V 10/764(2022.01)
G06V 10/56(2022.01)
G06V 10/26(2022.01)
G06F 40/279(2020.01)
G06N 5/02(2006.01)
(54)发明名称
一种多源异构的知识图谱构建方法及系统
(57)摘要
本发明公开了一种多源异构的知识图谱构
建方法及系统, 其包括数据获取模块、 知识抽取
模块、 知识融合模块及知识图谱模块; 其中, 所述
知识抽取模块, 用于从所述数据获取模块获取的
数据信息抽取出的实体数据; 所述知识融合模
块, 用于将所述知识抽取模块抽取出的实体数据
融合到本体模式, 并基于知识匹配融合规则, 利
用融合脚本将植物品种融合并生成标准化格式
的数据; 所述知识图谱模块, 用于获得新的数据
化结构生 成对应的知识图谱, 并将知识图谱进行
存储。 发明的方法及系统方便对植物知识进行录
入以结合现在知识生成新的知识图谱, 从而 方便
对知识的传播和交流。
权利要求书2页 说明书5页 附图4页
CN 114840683 A
2022.08.02
CN 114840683 A
1.一种多源异构的知识图谱构建系统, 其包括数据获取模块、 知识抽取模块、 知识融合
模块及知识图谱 模块, 其特 征在于,
所述数据获取模块, 基于采集配置项和解析规则从图书馆、 博物馆、 互联网采集结构化
和非结构化的原始文献数据, 原始的结构化数据包括标本样品格式数据和非结构化数据包
括文本格式、 视频格式及图片格式数据;
所述知识抽取模块, 用于从所述数据获取模块获取的数据信息抽取 出的实体数据;
所述知识融合模块, 用于将所述知识抽取模块抽取出的实体数据融合到本体模式, 并
基于知识匹配融合 规则, 利用融合脚本将植物品种融合并生成标准 化格式的数据;
所述知识图谱模块, 用于获得新的数据化结构生成对应的知识图谱, 并将知识图谱进
行存储。
2.根据权利要求1所述的多源异构的知识图谱构建系统, 其特征在于, 所述知识抽取模
块包括概念分割单 元和分类分析 单元;
所述概念分割单元利用SATI软件统计得出文献电子数据库关于植物品种的关键词, 再
通过Ucinet软件, 采用NetDraw工具进行高频关键词共现网络分析, 从中揭示出不同关键词
之间的相互联系, 找出紧密相连的关键词, 根据关键词进行物种属性分割, 而后输入至所述
分类分析 单元;
所述分类分析 单元先将关键测相异 矩阵导入S PSS利川多维 J度分析。
3.根据权利要求1所述的多源异构的知识图谱构建系统, 其特征在于, 数据获取模的数
据获取来源至少包括文献电子数据库、 网络 视频及网络图库。
4.根据权利要求1所述的多源异构的知识图谱构建系统, 其特征在于, 所述知识融合模
块包括实体消歧单 元、 实体对齐单 元及知识合并单 元。
5.根据权利要求4所述的多源异构的知识图谱构建系统, 其特征在于, 所述实体消歧单
元, 用于解决同名实体歧义问题, 同时基于维基百科作为背景知识, 来衡量实体间的相似
性。
6.根据权利要求4所述的多源异构的知识图谱构建系统, 其特征在于, 所述实体对齐单
元, 用于解决同义异名的问题, 可基于候选实体生成器、 选择器和清理器的全自动的实体对
齐框架, 利用使用者的查询 信息及查询后的点击记录, 计算出实体间的相似度, 完成实体对
齐。
7.根据权利要求4所述的多源异构的知识图谱构建系统, 其特征在于, 所述知识合并单
元, 是在知识图谱层面上进行知识融合, 利用现有的知识库来扩大知识图谱的规模, 丰富其
中的知识。
8.根据权利要求1所述的多源异构的知识图谱构建系统, 其特征在于, 还包括知识加工
单元, 用于将知识抽取模块 从网络视频、 抽取出的实体数据信息, 在实体识别单元中按照植
物科属进行识别, 将识别结果输入到实体关系构建单元按照 实体关系进行融合, 生成新的
数据化结构, 再送至本体单元中, 后利用关系模板对实体之间关系进行构建并生成相 应的
知识, 再输入所述知识融合模块, 或者 直接输入至所述知识图谱 模块。
9.根据权利要求1 ‑7任一所述的多源异构的知识图谱构建构建方法, 其特征在于, 包括
如下步骤:
S100, 从文献电子数据库、 网络 视频、 网络图库获取实体信息, 形成知识数据源;权 利 要 求 书 1/2 页
2
CN 114840683 A
2S200, 根据实体的不同类别按照预设识别方式从所述网络安全领域数据集中的非结构
化数据集中识别与植物品种知识本体定义的实体相匹配的实体, 其中非结构化数据集中的
数据为文本数据、 视频 数据、 图片数据;
S300, 将文本数据、 视频数据、 图片数据输入概念分割单元中, 从非结构化数据集中获
得的各实体的词向量; 再输入到分类分析 单元中, 以获取植物属性;
S400, 根据从非结构化数据集中获取的实体属性, 选择相同属性最多的数据集知识融
合模块中, 在实体消歧单 元、 实体对齐单 元及知识合并单 元进行结构化融合;
S500, 根据结构化构建在 知识图谱 模块中生成知识图谱。
10.根据权利要求8所述的多源异构的知识图谱构建构建方法, 其特征在于, 包括如下
步骤: S110, 从网络 视频、 网络图库获取实体信息, 形成知识数据源;
S210, 根据实体的不同类别按照预设识别方式从所述网络安全领域数据集中的非结构
化数据集中识别与植物品种知识本体定义的实体相匹配的实体, 其中非结构化数据集中的
数据为视频 数据、 图片数据;
S310, 将视频数据、 图片数据输入概念分割单元中, 从非结构化数据集中获得的各实体
的形状、 色彩; 再输入到分类分析 单元中按形状、 色彩进行分类;
S410, 将分类结果输入实体识别单元中, 获取的实体特征属性, 选择相同特征属性最多
的数据集输入到实体关系构建单 元中, 后再本体单 元中加工、 融合;
S510, 在知识图谱 模块中生成知识图谱。权 利 要 求 书 2/2 页
3
CN 114840683 A
3
专利 一种多源异构的知识图谱构建方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:44上传分享