说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210729506.0 (22)申请日 2022.06.24 (71)申请人 北京大学 地址 100871 北京市海淀区颐和园路5号北 京大学 (72)发明人 赵东岩 王晨朔 夏松江 贾爱霞  张诗玉  (74)专利代理 机构 北京君尚知识产权代理有限 公司 11200 专利代理师 司立彬 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/194(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种知识图谱的构建方法 (57)摘要 本发明公开了一种知识图谱的构建方法, 其 步骤包括: 1)在没有标注的政治理论语料文本上 自动抽取政治理论知 识; 2)对政治理论知识进行 筛选和标注; 3)利用训练文本训练政治知识抽取 模型; 4)使用训练后的政治知识抽取模 型对语料 库进行知识抽取, 得到政治理论知识; 5)对于任 意两个政治理论知识, 计算二者在所述语料库的 共现度和语义相似度, 如果共现度或语义相似度 不为零, 则在该两个政治理论知识之间连接一条 边, 从而得到语料库对应的知识图谱; 6)将专家 标注的带上下位结构的知识体系与步骤5)所生 成的知识图谱进行知识对齐, 将知识 体系中专家 标注的主题词之间的上下位关系融入所述知识 图谱。 本发明解决了无法抽取较 长概念的问题。 权利要求书2页 说明书7页 附图1页 CN 115221335 A 2022.10.21 CN 115221335 A 1.一种知识图谱的构建方法, 其 步骤包括: 1)在没有标注的政治理论语料文本上自动抽取政治理论知识; 2)对步骤1)所抽取的政治理论知识进行筛选, 并对筛选出的政治理论知识进行标注, 作为训练政治知识抽取模型的训练文本; 3)利用所述训练文本训练所述政治知识抽取模型; 4)使用训练后的政治知识抽取模型对语料库进行知识抽取, 得到政治理论知识; 5)对于步骤4)所得政治理论知识中的任意两个政治理论知识, 计算该两个政治理论知 识在所述语料库的共现度和语义相似度, 如果共现度或语义相似度不为零, 则在该两个政 治理论知识之 间连接一条边, 并基于共现度和语义相似度计算该两个政治理论知识之 间的 关联分数作为该边的权 重, 从而得到所述语料库对应的知识图谱; 6)将专家标注的带上下位结构的知识体系与步骤5)所生成的知识图谱进行知识对齐, 将所述知识体系中专 家标注的主题词之间的上 下位关系融入所述知识图谱。 2.根据权利要求1所述的方法, 其特征在于, 在 没有标注的政治理论语料文本上自动抽 取政治理论知识的方法包括: 11)对所述语料库内一政治理论语料文本A中的每一句子S进行分词, 得到一分词列表w ={w1,w2,...,wn}及对应的词性列表t={t1,t2,...,tn}; wn为句子S中的第 n个分词, tn为wn 的词性; 12)将分词列表w中的相邻k个分词进行组合, 得到多个备选词组k ‑gram; 计算k取不 同 值时, 各k ‑gram在政治理论语料文本A中的tf ‑idf分数; 13)将每一备选词组k ‑gram在所述语料库内各政治理论语料文本中的tf ‑idf分数相 加, 得到该备选词组k ‑gram的最终tf ‑idf分数, 取最终tf ‑idf分数最大的若干备选词组作 为自动抽取的政治理论知识。 3.根据权利要求1所述的方法, 其特征在于, 所述关联分数包括两个政治理论知识的共 现度分数、 两个政治理论知识之 间的语义相似度分数以及专家标注分数; 其中, 对于两个政 治理论知识i、 j, 如果二者在所述语料库内各政治理论语料文本的n1个句子中共现、 在n2个 段落中共现、 在n3篇文本中共现, 则二者的共现度分数为Cij=(a*n1+b*n2+c*n3)p, a、 b、 c是 句子共现、 段落共现、 文本共现对应的权重, p为所述语料库的文本总数; 通过语义相似度模 型计算得到两个政治理论知识i、 j之间的语 义相似度分数Sij; 如果两个政治理论知识i、 j被 专家在同一句中共现标注l次, 则二者的专家标注分数为Zij=z*l; 最终两个政治理论知识 i、 j的关联分数为: Rij=c*Cij+s*Sij+z*Zij。 4.根据权利要求1或2或3所述的方法, 其特征在于, 基于大规模语言模型训练所述政治 知识抽取模型时所采用的优化 函数为最大似然优化 函数。 5.根据权利要求1或2或3所述的方法, 其特征在于, 所述政治知识抽取模型包括大规模 预训练语 言模型BERT和条件随机场模型; 将政治理论语料文本输入 大规模预训练语 言模型 BERT, 得到每个字的字编码并将其作为条件随机场模型的输入, 条件随机场模型输出句子 序列被标注为不同标签的概率; 选择概率最大的标签序列解码得到对应句子中包含的政治 理论知识。 6.根据权利要求1所述的方法, 其特征在于, 将所述知识体系中专家标注的主题词之间 的上下位关系融入所述知识图谱的方法包括:权 利 要 求 书 1/2 页 2 CN 115221335 A 261)知识的对齐: 如果专家标注的主题词与抽取的主题词字符一致, 则认为这两个词为 同一个政治理论知识; 否则认为专家标注的主题词是新的政治理论知识并将其合并到抽取 的知识库中; 62)知识之间关联的聚合: 将步骤5)所 得知识图谱中的关联和专 家标注的关联聚合; 63)主题词与知识之间的关联分数: 根据专家标注的主题词wtheme对应的各相关词与抽 取的政治理论知识wrobot之间的关联关系分数之和加权得到wtheme和wrobot之间的关联分数; 其中, 专家为每个主题词 标注了相关的关键词集合; 最后融合后的所述知识图谱中包含具 有关联分数的边、 具有上 下位关系的边和具有专 家关联分数的边。 7.根据权利要求1或6所述的方法, 其特征在于, 所述知识体系为三级知识体系, 包括一 级知识主题词、 二级知识主题词和三级知识主题词。 8.一种服务器, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所述 计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求1至7任一 所述方法中各步骤的指令 。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被 处理器执行时实现权利要求1至7任一所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115221335 A 3

.PDF文档 专利 一种知识图谱的构建方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种知识图谱的构建方法 第 1 页 专利 一种知识图谱的构建方法 第 2 页 专利 一种知识图谱的构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:55:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。