(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210865767.5
(22)申请日 2022.07.21
(71)申请人 东北大学
地址 110819 辽宁省沈阳市和平区文化路
三巷11号
(72)发明人 何璇 袁文轩 郭子健 李雨芮
李培宁 刘云霞
(74)专利代理 机构 北京易捷胜知识产权代理有
限公司 1 1613
专利代理师 韩国胜
(51)Int.Cl.
G16H 50/70(2018.01)
G16H 50/20(2018.01)
G06F 16/36(2019.01)
G06F 40/295(2020.01)G06F 16/951(2019.01)
(54)发明名称
一种用于医学的知识图谱系统及其决策辅
助方法
(57)摘要
本发明涉及一种用于医学的知识图谱系统
及其决策辅助方法, 该知识图谱系统包括: 数据
获取层, 其被配置为通过爬虫爬取索引数据库中
不存在的增量索引, 并爬取与增量索引对应的增
量内容; 自然语言处理层, 其被配置为利用自然
语言处理工具对增量内容进行实体抽取及关系
抽取, 得到增量内容的三元组信息; 持久化层, 其
被配置为利用增量内容的三元 组信息, 构建知识
图谱, 并存储知 识图谱; 医学应用层, 其被配置为
基于知识图谱向用户提供服务; 其中, 医学应用
层包括被配置为用户提供决策辅助方案的决策
辅助模块。 借助于上述技术方案, 本申请可以实
时监控最新的文献信息, 并自动化更新知识图
谱。
权利要求书2页 说明书9页 附图3页
CN 115295165 A
2022.11.04
CN 115295165 A
1.一种用于医学的知识图谱系统, 其特 征在于, 包括:
数据获取层, 其被配置为通过爬虫爬取索引数据库中不存在的增量索引, 并爬取与所
述增量索引对应的增量内容;
自然语言处理层, 其被配置为利用自然语言处理工具对所述增量内容进行实体抽取及
关系抽取, 得到所述增量内容的三元组信息;
持久化层, 其被配置为利用所述增量内容的三元组信息, 构建知识图谱, 并存储所述知
识图谱;
医学应用层, 其被配置为基于所述知识图谱向用户提供服务; 其中, 所述医学应用层包
括被配置为所述用户提供决策辅助方案的决策辅助模块。
2.根据权利要求1所述的知识图谱系统, 其特 征在于, 所述数据获取层包括;
爬虫调度器, 其被配置为基于预设的医学关键词, 爬取得到与所述医学关键词相关的
索引, 并基于所述索引数据库对爬取到的所有索引进 行去重, 得到所述增量索引, 以及将所
述增量索引存储到所述索引数据库中, 同时更新所述增量索引的状态; 其中, 所述增量索引
的状态包括未爬取、 爬取中、 爬取完成和爬取超时;
多个爬取器, 其被配置为向所述爬虫调度器请求所述增量索引, 并基于所述增量索引,
爬取所述增量内容。
3.根据权利要求2所述的知识图谱系统, 其特征在于, 所述数据获取层进一步包括数据
整合器, 其被配置为收集当前爬取器爬取 的增量内容, 并向所述爬虫调度器发送爬取完成
的第一消息;
所述爬虫调度器, 其进一步被配置为基于所述第一消息, 查询所述当前爬取器爬取的
增量内容对应的增量索引的状态, 以及若确定所述状态为所述爬取完成, 则向所述数据整
合器反馈 爬取失败的第二消息;
所述数据整合器, 其进一步被配置为基于所述第二消息, 丢弃所述当前爬取器爬取的
增量内容。
4.根据权利要求2所述的知识图谱系统, 其特 征在于, 所述数据获取层进一 步包括;
数据清洗模块, 其被配置为对所述增量内容进行格式清洗, 并对所述增量内容进行有
效性验证, 若所述增量内容具有有效性, 则向所述自然语言处理层发送所述增量内容, 否
则, 删除所述增量内容。
5.根据权利要求2所述的知识图谱系统, 其特征在于, 所述爬虫调度器, 其进一步被配
置为确定所述增量内容的爬取时间, 若所述爬取时间超过预设时间, 则将所述增量索引标
记为所述爬取超时, 并将所述增量索引添加到未爬取队列中。
6.根据权利要求1所述的知识图谱系统, 其特 征在于, 所述持久化层包括:
分层归档模块, 其被配置为将所述知识图谱存储到 图数据库中, 并将所述增量内容和
与所述知识图谱相关的特征信息存储到关系 数据库中; 其中, 所述特征信息包括节点列表
和关系列表。
7.根据权利要求2所述的知识图谱系统, 其特征在于, 爬虫调度器, 其进一步被配置为
基于预设的医学关键词, 从公共医学中心PM C数据库中爬取与所述医学关键词相关的索引。
8.一种基于医学的知识图谱系统的决策辅助方法, 其特征在于, 所述知识图谱系统为
权利要求1至7任一所述的基于医学的知识图谱系统, 所述决策辅助方法包括:权 利 要 求 书 1/2 页
2
CN 115295165 A
2步骤S1, 将查询请求中包含的所有实体加入到初始根节点队列中, 并对所述初始根节
点队列中的所有节点的权重进行初始化操作; 其中, 所述初始根节点队列是通过持久化层
从图数据库中查询到的与所述所有实体对应的最小数据体;
步骤S2, 对所述初始根节点队列中每个节点的所有未被标记过的第 一相邻节点的权重
进行更新, 得到中间根节点队列;
步骤S3, 对所述中间根节点队列进行 更新;
步骤S4, 遍历所述步骤S1至所述步骤S3出现的所有节点, 并对所述步骤S1至所述步骤
S3出现的所有节点的权重进行更新; 其中, 所述步骤S1至所述步骤S3出现 的所有节点中每
个节点的权 重是根据当前节点的权 重和与所述当前节点相连的关系数量确定的;
步骤S5, 再次重复执行所述步骤S1至所述S4, 并确定所述查询请求中包含的所有实体
中任意两个实体之间的所有路径, 并统计所述所有路径的权重和, 以及输出 由路径权重和
排序前N条的路径构成的子图; 其中, N 为正整数。
9.根据权利要求8所述的决策辅助方法, 其特 征在于, 所述 步骤S2包括:
步骤S21, 获取第 一节点的所有第一相邻节点, 并且所述第一节点为所述初始根节点队
列中任意 一个节点, 以及对所述所有第一相邻节点中每 个第一相邻节点执 行如下步骤:
步骤S211, 检查当前第一相邻节点是否被遍历过, 若所述当前第一相邻节点未被遍历
过, 则对所述当前第一相邻节点进行 标记, 否则, 跳过 所述步骤S211;
步骤S212, 对所述当前第一相邻节点的权重进行更新; 若所述当前第一相邻节点的权
重为0, 则计算所述当前第一相 邻节点对应的第一节点的权重和权重衰减率的第一商值, 并
将所述第一商值作为所述当前第一相邻节点的权重, 否则, 计算所述当前第一相邻节点的
权重和所述第一商值的乘积值, 并将所述乘积值作为所述当前第一相邻节点的权 重;
步骤S213, 将所述当前第一相邻节点作为起始节点, 并重复所述步骤S21, 直至通过所
述当前第一相邻节点的权 重和所述权 重衰减率计算得到的商值小于等于1, 则停止循环;
步骤S22, 清 理所述初始根节点队列中所有节点的标记信息, 并将所述初始根节点队列
中所有节点标记为未遍历。
10.根据权利要求8所述的决策辅助方法, 其特 征在于, 所述 步骤S3包括:
步骤S31, 从所述中间根节点队列中移除第二节点; 其中, 所述第二节点为所述中间根
节点队列中任意 一个节点;
步骤S32, 获取所述第二节点的所有第二相邻节点, 并对所述所有第二相邻节点中每个
第二相邻节点执 行如下步骤:
步骤S321, 若确定所述当前第二相邻节点的权重大于等于通过所述第 二节点的权重和
权重衰减率计算得到的第二商值, 则将所述当前第二相邻节点的权重更新为所述第二商
值, 以及将所述当前第二相邻节点加入到所述中间根节点队列中;
步骤S322, 若确定所述当前第二相邻节点的权重小于所述第二商值, 并且确定所述当
前第二相邻节点未被标记过, 则将所述当前第二相邻节点加入到所述中间根节点队列中;
步骤S323, 将所述所述当前第二相邻节点标记为已遍历过。权 利 要 求 书 2/2 页
3
CN 115295165 A
3
专利 一种用于医学的知识图谱系统及其决策辅助方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:55:32上传分享