说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210541065.1 (22)申请日 2022.05.17 (71)申请人 哈尔滨工程大 学 地址 150001 黑龙江省哈尔滨市南岗区南 通大街145号哈尔滨工程大学科技处 知识产权办公室 (72)发明人 申林山 安家庆 李思照 刘开南  (51)Int.Cl. G06F 16/36(2019.01) G06F 40/242(2020.01) G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种知识图谱自动补全和更新的方法 (57)摘要 本发明公开了一种知识图谱自动补全和更 新的方法, 涉及了人工智能以及自然语 言处理领 域。 本发明通过处理原始数据构建知识图谱和用 于文本生 成的神经网络模型, 将知识图谱中相近 的实体和关系或者知识 图谱中缺失的三元组作 为模型的输入, 利用神经网络模 型的输出更新存 储到图数据库中达到知识 图谱自动补全和更新 的目的。 本发 明实现了智能问答领域的知识图谱 中的三元 组信息的补全和自动更新, 可以为应用 知识图谱的后续分析提供支撑 。 权利要求书2页 说明书5页 附图1页 CN 115033706 A 2022.09.09 CN 115033706 A 1.一种知识图谱自动补全和更新的方法, 其特 征在于: 步骤1: 构建知识图谱; 获取医药相关领域的历史数据通过爬虫, 进行数据清洗、 信 息抽取、 信息整合及构建图 数据库, 通过以上步骤构建知识图谱; 步骤2: 根据获取到的数据信息, 通过数据预处理建立字典和索引, 选择不同的模型对 数据进行训练, 得到达到预定指标的模型, 同时确定评价指标, 评估不同模型下的预测结 果; 步骤3: 根据步骤1构建知识图谱, 自动选取残缺的三元组相关联的实体和关系, 经过数 据处理得到模型的原 始输入, 放入步骤2训练完成的神经网络模型中, 得到 输出结果; 步骤4: 将步骤3中的输出结果通过信 息抽取、 信息整合的步骤导入图数据库中, 达到自 动补全和更新知识图谱的效果。 2.根据权利要求1中所述的一种知识图谱自动补全和更新的方法, 其特征在于: 步骤1 具体包括以下步骤: 步骤1.1: 通过网络 爬虫、 公开数据集及专 家建的方式获取医药 领域的原 始数据; 步骤1.2: 对原 始数据进行 数据清洗, 删除无效数据; 步骤1.3: 利用信息抽取技术从清洗完成的数据中抽取构建知识图谱所需的实体信息、 关系信息、 属性信息、 属性 值信息以及实体之间的相互关系; 步骤1.4: 通过信息整合方法, 对步骤1.3中抽取 得到的各种信息进行整合; 步骤1.5: 构建数据库, 将信息整合完成的三元组存放到图数据库中, 完成知识图谱的 构建; 如果构建完成的知识图谱中出现三元组信息缺失, 对三元组信息进行补全和更新。 3.根据权利要求1中所述的一种知识图谱自动补全和更新的方法, 其特征在于: 步骤2 具体包括以下步骤: 步骤2.1: 对获取的原 始数据进行 数据清洗, 得到所需的语料; 步骤2.2: 对语料进行预处理, 包括格式化、 分词、 稀疏词处理、 构建词典、 建立索引、 词 向量训练; 其中建立索引时, 在 数据处理阶段采用Word2Vector模型, 将每个词语映射成定长的向 量, 并通过向量间的距离表征不同词之间的相关程度; 步骤2.3: 对步骤2.2中建立完成索引的数据进行划分和验证, 构建数据集; 步骤2.4: 定义损失函数, 构建神经网络模型; 在训练过程中, 通过定义损 失函数评估预测结果和正确值之间的差距; 模型训练时选 择词粒度作为单 元特征, 在对句子进行分词时, 采用jieba进行分词; 使用负采样确定需要输出的词语作为正样本, 最终需要保留, 模型在除了正样本外的 剩余词语中选取少量词作为负样本; 在对负样本进行采样时采用的分布为噪声分布, 写作 Pn(w), 在此 过程中生成新词wo的损失为公式: 其中, wo为正样本, 为正样本对 应参数, s为解码器的隐藏状态, Wneg为负样本的集合, 生成新句子的整个损失 公式为:权 利 要 求 书 1/2 页 2 CN 115033706 A 2构建神经网络模型时采用LSTM网络, LSTM通过增加遗忘机制与保存机制, 将长期记忆 聚焦于工作记忆, 不再始终保存 全部长期记忆; 步骤2.5: 训练模型, 对算法训练进行网络层调参直到达到预期的效果, 获得有泛化能 力的模型; 步骤2.6: 使用训练完成的模型进行预测, 通过在步骤2.3中的测试集中选取相应的数 据作为输入得到对应的输出, 并通过测试集评价该模型 预测的准确率。权 利 要 求 书 2/2 页 3 CN 115033706 A 3

.PDF文档 专利 一种知识图谱自动补全和更新的方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种知识图谱自动补全和更新的方法 第 1 页 专利 一种知识图谱自动补全和更新的方法 第 2 页 专利 一种知识图谱自动补全和更新的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:55:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。