说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210541065.1 (22)申请日 2022.05.17 (71)申请人 哈尔滨工程大 学 地址 150001 黑龙江省哈尔滨市南岗区南 通大街145号哈尔滨工程大学科技处 知识产权办公室 (72)发明人 申林山 安家庆 李思照 刘开南 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/242(2020.01) G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种知识图谱自动补全和更新的方法 (57)摘要 本发明公开了一种知识图谱自动补全和更 新的方法, 涉及了人工智能以及自然语 言处理领 域。 本发明通过处理原始数据构建知识图谱和用 于文本生 成的神经网络模型, 将知识图谱中相近 的实体和关系或者知识 图谱中缺失的三元组作 为模型的输入, 利用神经网络模 型的输出更新存 储到图数据库中达到知识 图谱自动补全和更新 的目的。 本发 明实现了智能问答领域的知识图谱 中的三元 组信息的补全和自动更新, 可以为应用 知识图谱的后续分析提供支撑 。 权利要求书2页 说明书5页 附图1页 CN 115033706 A 2022.09.09 CN 115033706 A 1.一种知识图谱自动补全和更新的方法, 其特 征在于: 步骤1: 构建知识图谱; 获取医药相关领域的历史数据通过爬虫, 进行数据清洗、 信 息抽取、 信息整合及构建图 数据库, 通过以上步骤构建知识图谱; 步骤2: 根据获取到的数据信息, 通过数据预处理建立字典和索引, 选择不同的模型对 数据进行训练, 得到达到预定指标的模型, 同时确定评价指标, 评估不同模型下的预测结 果; 步骤3: 根据步骤1构建知识图谱, 自动选取残缺的三元组相关联的实体和关系, 经过数 据处理得到模型的原 始输入, 放入步骤2训练完成的神经网络模型中, 得到 输出结果; 步骤4: 将步骤3中的输出结果通过信 息抽取、 信息整合的步骤导入图数据库中, 达到自 动补全和更新知识图谱的效果。 2.根据权利要求1中所述的一种知识图谱自动补全和更新的方法, 其特征在于: 步骤1 具体包括以下步骤: 步骤1.1: 通过网络 爬虫、 公开数据集及专 家建的方式获取医药 领域的原 始数据; 步骤1.2: 对原 始数据进行 数据清洗, 删除无效数据; 步骤1.3: 利用信息抽取技术从清洗完成的数据中抽取构建知识图谱所需的实体信息、 关系信息、 属性信息、 属性 值信息以及实体之间的相互关系; 步骤1.4: 通过信息整合方法, 对步骤1.3中抽取 得到的各种信息进行整合; 步骤1.5: 构建数据库, 将信息整合完成的三元组存放到图数据库中, 完成知识图谱的 构建; 如果构建完成的知识图谱中出现三元组信息缺失, 对三元组信息进行补全和更新。 3.根据权利要求1中所述的一种知识图谱自动补全和更新的方法, 其特征在于: 步骤2 具体包括以下步骤: 步骤2.1: 对获取的原 始数据进行 数据清洗, 得到所需的语料; 步骤2.2: 对语料进行预处理, 包括格式化、 分词、 稀疏词处理、 构建词典、 建立索引、 词 向量训练; 其中建立索引时, 在 数据处理阶段采用Word2Vector模型, 将每个词语映射成定长的向 量, 并通过向量间的距离表征不同词之间的相关程度; 步骤2.3: 对步骤2.2中建立完成索引的数据进行划分和验证, 构建数据集; 步骤2.4: 定义损失函数, 构建神经网络模型; 在训练过程中, 通过定义损 失函数评估预测结果和正确值之间的差距; 模型训练时选 择词粒度作为单 元特征, 在对句子进行分词时, 采用jieba进行分词; 使用负采样确定需要输出的词语作为正样本, 最终需要保留, 模型在除了正样本外的 剩余词语中选取少量词作为负样本; 在对负样本进行采样时采用的分布为噪声分布, 写作 Pn(w), 在此 过程中生成新词wo的损失为公式: 其中, wo为正样本, 为正样本对 应参数, s为解码器的隐藏状态, Wneg为负样本的集合, 生成新句子的整个损失 公式为:权 利 要 求 书 1/2 页 2 CN 115033706 A 2构建神经网络模型时采用LSTM网络, LSTM通过增加遗忘机制与保存机制, 将长期记忆 聚焦于工作记忆, 不再始终保存 全部长期记忆; 步骤2.5: 训练模型, 对算法训练进行网络层调参直到达到预期的效果, 获得有泛化能 力的模型; 步骤2.6: 使用训练完成的模型进行预测, 通过在步骤2.3中的测试集中选取相应的数 据作为输入得到对应的输出, 并通过测试集评价该模型 预测的准确率。权 利 要 求 书 2/2 页 3 CN 115033706 A 3
专利 一种知识图谱自动补全和更新的方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 10:55:52
上传分享
举报
下载
原文档
(459.5 KB)
分享
友情链接
GB-T 15731-2015 内河旅游船星级的划分与评定.pdf
DB41-T 2214-2022 城市书房建设与服务规范 河南省.pdf
DB14-T 2255—2021 《机关事务标准体系总体框架》 山西省.pdf
GB-T 42570-2023 信息安全技术 区块链技术安全框架.pdf
GM-T 0056-2018 多应用载体密码应用接口规范.pdf
GB-T 25181-2019 预拌砂浆.pdf
GB-T 41680-2022 起重机 抗震设计通则.pdf
GB-T 10051.15-2010 起重吊钩 第15部分:叠片式单钩.pdf
YD-T 3763.3-2021 研发运营一体化(DevOps)能力成熟度模型 第3部分:持续交付.pdf
GB-T 1420-2015 海绵钯.pdf
GM T 0131-2023 电子签章应用接口规范.pdf
T-CI 046—2021 医用锗[68Ge]镓[68Ga]发生器及医用镓[68Ga]放射性药物的质量标准.pdf
GB-T 38318-2019 电力监控系统网络安全评估指南.pdf
XF 869-2010 消防员灭火防护头套.pdf
GB-T 29246-2017 信息安全管理体系 概述与词汇.pdf
T-CPUMT 006—2022 工业数据安全事件应急预案编制指南.pdf
GB-T 33321-2016 黄磷生产技术规范.pdf
T-GDTL 002—2018 建筑地坪涂装工程施工及验收规程.pdf
CSA 云应用安全技术标准(征求意见表).pdf
NY-T 3544-2020 烟粉虱测报技术规范 露地蔬菜.pdf
1
/
3
9
评价文档
赞助2.5元 点击下载(459.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。