说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210485938.1 (22)申请日 2022.05.06 (71)申请人 东南大学 地址 211189 江苏省南京市玄武区四牌楼 2 号 (72)发明人 杨鹏 王超余 谢亮亮 马卫东  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 叶涓涓 (51)Int.Cl. G16H 50/20(2018.01) G16H 50/70(2018.01) G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 16/951(2019.01)G06F 40/295(2020.01) G06N 5/02(2006.01) (54)发明名称 一种基于知识图谱与注意力机制的心血管 疾病预测方法 (57)摘要 本发明公开了一种基于知识图谱与注意力 机制的心血管疾病预测方法, 该方法首先构建心 血管疾病语料库; 接着构建心血管疾病领域知识 图谱, 对心血管疾病语料库中的原始文章, 提取 心血管疾病属性信息, 构建知识图谱关系网; 然 后提取心血管疾病描述文本特征向量, 根据知识 图谱中心血管疾病和症状的关系, 获取文本中症 状实体, 利用Tran sR知识表示模型对症状进行向 量表示, 通过基于注意力机制的LS TM(A‑LSTM)提 取描述文本特征向量; 最后通过softmax分类器 进行心血管疾病识别。 相比其他方法, 本发明方 法结合心血管疾病知识图谱和注 意力机制, 能够 挖掘更深层的疾病特征, 从而达到了更准确的预 测效果。 权利要求书2页 说明书5页 附图2页 CN 115171871 A 2022.10.11 CN 115171871 A 1.一种基于知识图谱与注意力机制的心血管疾病预测方法, 其特征在于, 包括以下步 骤: 步骤1, 构建心血管疾病语料库, 通过分布式网络爬虫定时采集心血管疾病的知识文 章, 通过包 装器进行初步过 滤, 构建原 始语料库; 步骤2, 构建心血管疾病领域知识图谱, 对心血管疾病语料库中的原始文章, 分别利用 规则集、 命名实体识别、 关键词提取 方法提取心血 管疾病属性信息, 构建知识图谱关系网; 步骤3, 提取心血管疾病描述文本特征向量: 根据知识图谱中心血管疾病和症状的关 系, 获取文本中症状实体, 利用TransR知识表 示模型对症状进 行向量表示, 通过基于注意力 机制的LSTM提取描述文本特 征向量; 步骤4, 、 通过softmax分类 器进行心血 管疾病识别。 2.根据权利要求1所述的基于知识图谱与注意力机制的心血管疾病预测方法, 其特征 在于, 所述 步骤1具体包括如下步骤: 利用网络爬虫定时采集相关心血管疾病网站的原始数据, 使用数据挖掘技术对基础知 识库中知识数据的总 数进行统计, 并计算最小支持度计数; 依 次判断每条知识数据的计数 是否满足最小支持度, 并将满足最小支持度的知识数据输出, 得到若干频繁1项集; 读取频 繁k‑1项集, 根据剪枝算法产生频繁k项集, 并计算频繁k项集的计数, k≥2; 判断频繁k项集 的计数是否满足最小支持度, 若是, 则令k的计数值加1, 并返回上一步, 若否, 则输出频繁k 项集; 遍历所有频繁1项集, 获取若干频繁k项集, 并使用基于词典的黑白名单机制过滤部 分 噪声数据; 采集用户提供的心血管疾病相关数据; 利用规则集对采集的数据进 行初步过滤, 并以文件库形式进行存 储。 3.根据权利要求1所述的基于知识图谱与注意力机制的心血管疾病预测方法, 其特征 在于, 所述 步骤2具体包括如下步骤: 利用页面属性信息对原始语料库进行属性提取; 针对复杂的文章采用BiLSTM ‑CRF模型 进行命名实体识别; 针对心血管疾病发病特征描述, 采用基于TF ‑IDF的关键词 提取方法进 行心血管疾病 特征实体进行提取; 采用三元组方式表示提取 的属性、 属性名以及他们之间 的关系; 使用Neo4j进行知识图谱的存储和管 理; 采用基于T F‑IDF的关键词提取方法进行心 血管疾病特 征实体进行提取, 特 征权重计划算 术公式如下: 其中, tfik为特征项tk在文档dt中出现的次数, nk为包含特征项tk的文档数, N为文本总 数; 采用三元组方式表示提取的属性、 属性名以及他们之间的关系; 使用Neo4j进行知识图 谱的存储和管理。 4.根据权利要求1所述的基于知识图谱与注意力机制的心血管疾病预测方法, 其特征 在于, 所述 步骤3具体包括如下步骤: 利用TransR知识表示模型对知识图谱的数据进行训练, 根据知识图谱提取描述文本的 心血管疾病实体, 经过Trans R知识表示模型得到实体矩阵Em×k, 其中, k为实体向量的维度, m 为描述文 本中实体的个数; 将描述文 本的实体矩阵Em×k作为BiLST M网络的输入, 利用基于注 意力机制的LSTM进行文本特征提取, 并选择最后一个LSTM单元的输出向量 作为描述文本权 利 要 求 书 1/2 页 2 CN 115171871 A 2特征向量, 其中 表示LSTM隐层的特 征向量, 其公式如下: 5.根据权利要求4所述的基于知识图谱与注意力机制的心血管疾病预测方法, 其特征 在于, TransR知识 表示模型训练时, 优化器采用鲸鱼优化 算法。 6.根据权利要求1所述的基于知识图谱与注意力机制的心血管疾病预测方法, 其特征 在于, 所述 步骤4具体包括如下步骤: 将最终的患者表示向量连接到softmax层, 利用softmax分类器获得心血管疾病的预测 结果如下: 其中, yi是第i例患者心血管疾病的高危指标, 是由该模型计算出的第i个患者的风险 评分。 7.根据权利要求6所述的基于知识图谱与注意力机制的心血管疾病预测方法, 其特征 在于, 如果yi等于1则表示高风险病例, 如果yi等于0, 则表示 为正常病例。权 利 要 求 书 2/2 页 3 CN 115171871 A 3

.PDF文档 专利 一种基于知识图谱与注意力机制的心血管疾病预测方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱与注意力机制的心血管疾病预测方法 第 1 页 专利 一种基于知识图谱与注意力机制的心血管疾病预测方法 第 2 页 专利 一种基于知识图谱与注意力机制的心血管疾病预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:53:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。