(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210729506.0
(22)申请日 2022.06.24
(71)申请人 北京大学
地址 100871 北京市海淀区颐和园路5号北
京大学
(72)发明人 赵东岩 王晨朔 夏松江 贾爱霞
张诗玉
(74)专利代理 机构 北京君尚知识产权代理有限
公司 11200
专利代理师 司立彬
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/194(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种知识图谱的构建方法
(57)摘要
本发明公开了一种知识图谱的构建方法, 其
步骤包括: 1)在没有标注的政治理论语料文本上
自动抽取政治理论知 识; 2)对政治理论知识进行
筛选和标注; 3)利用训练文本训练政治知识抽取
模型; 4)使用训练后的政治知识抽取模 型对语料
库进行知识抽取, 得到政治理论知识; 5)对于任
意两个政治理论知识, 计算二者在所述语料库的
共现度和语义相似度, 如果共现度或语义相似度
不为零, 则在该两个政治理论知识之间连接一条
边, 从而得到语料库对应的知识图谱; 6)将专家
标注的带上下位结构的知识体系与步骤5)所生
成的知识图谱进行知识对齐, 将知识 体系中专家
标注的主题词之间的上下位关系融入所述知识
图谱。 本发明解决了无法抽取较 长概念的问题。
权利要求书2页 说明书7页 附图1页
CN 115221335 A
2022.10.21
CN 115221335 A
1.一种知识图谱的构建方法, 其 步骤包括:
1)在没有标注的政治理论语料文本上自动抽取政治理论知识;
2)对步骤1)所抽取的政治理论知识进行筛选, 并对筛选出的政治理论知识进行标注,
作为训练政治知识抽取模型的训练文本;
3)利用所述训练文本训练所述政治知识抽取模型;
4)使用训练后的政治知识抽取模型对语料库进行知识抽取, 得到政治理论知识;
5)对于步骤4)所得政治理论知识中的任意两个政治理论知识, 计算该两个政治理论知
识在所述语料库的共现度和语义相似度, 如果共现度或语义相似度不为零, 则在该两个政
治理论知识之 间连接一条边, 并基于共现度和语义相似度计算该两个政治理论知识之 间的
关联分数作为该边的权 重, 从而得到所述语料库对应的知识图谱;
6)将专家标注的带上下位结构的知识体系与步骤5)所生成的知识图谱进行知识对齐,
将所述知识体系中专 家标注的主题词之间的上 下位关系融入所述知识图谱。
2.根据权利要求1所述的方法, 其特征在于, 在 没有标注的政治理论语料文本上自动抽
取政治理论知识的方法包括:
11)对所述语料库内一政治理论语料文本A中的每一句子S进行分词, 得到一分词列表w
={w1,w2,...,wn}及对应的词性列表t={t1,t2,...,tn}; wn为句子S中的第 n个分词, tn为wn
的词性;
12)将分词列表w中的相邻k个分词进行组合, 得到多个备选词组k ‑gram; 计算k取不 同
值时, 各k ‑gram在政治理论语料文本A中的tf ‑idf分数;
13)将每一备选词组k ‑gram在所述语料库内各政治理论语料文本中的tf ‑idf分数相
加, 得到该备选词组k ‑gram的最终tf ‑idf分数, 取最终tf ‑idf分数最大的若干备选词组作
为自动抽取的政治理论知识。
3.根据权利要求1所述的方法, 其特征在于, 所述关联分数包括两个政治理论知识的共
现度分数、 两个政治理论知识之 间的语义相似度分数以及专家标注分数; 其中, 对于两个政
治理论知识i、 j, 如果二者在所述语料库内各政治理论语料文本的n1个句子中共现、 在n2个
段落中共现、 在n3篇文本中共现, 则二者的共现度分数为Cij=(a*n1+b*n2+c*n3)p, a、 b、 c是
句子共现、 段落共现、 文本共现对应的权重, p为所述语料库的文本总数; 通过语义相似度模
型计算得到两个政治理论知识i、 j之间的语 义相似度分数Sij; 如果两个政治理论知识i、 j被
专家在同一句中共现标注l次, 则二者的专家标注分数为Zij=z*l; 最终两个政治理论知识
i、 j的关联分数为: Rij=c*Cij+s*Sij+z*Zij。
4.根据权利要求1或2或3所述的方法, 其特征在于, 基于大规模语言模型训练所述政治
知识抽取模型时所采用的优化 函数为最大似然优化 函数。
5.根据权利要求1或2或3所述的方法, 其特征在于, 所述政治知识抽取模型包括大规模
预训练语 言模型BERT和条件随机场模型; 将政治理论语料文本输入 大规模预训练语 言模型
BERT, 得到每个字的字编码并将其作为条件随机场模型的输入, 条件随机场模型输出句子
序列被标注为不同标签的概率; 选择概率最大的标签序列解码得到对应句子中包含的政治
理论知识。
6.根据权利要求1所述的方法, 其特征在于, 将所述知识体系中专家标注的主题词之间
的上下位关系融入所述知识图谱的方法包括:权 利 要 求 书 1/2 页
2
CN 115221335 A
261)知识的对齐: 如果专家标注的主题词与抽取的主题词字符一致, 则认为这两个词为
同一个政治理论知识; 否则认为专家标注的主题词是新的政治理论知识并将其合并到抽取
的知识库中;
62)知识之间关联的聚合: 将步骤5)所 得知识图谱中的关联和专 家标注的关联聚合;
63)主题词与知识之间的关联分数: 根据专家标注的主题词wtheme对应的各相关词与抽
取的政治理论知识wrobot之间的关联关系分数之和加权得到wtheme和wrobot之间的关联分数;
其中, 专家为每个主题词 标注了相关的关键词集合; 最后融合后的所述知识图谱中包含具
有关联分数的边、 具有上 下位关系的边和具有专 家关联分数的边。
7.根据权利要求1或6所述的方法, 其特征在于, 所述知识体系为三级知识体系, 包括一
级知识主题词、 二级知识主题词和三级知识主题词。
8.一种服务器, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所述
计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求1至7任一
所述方法中各步骤的指令 。
9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被
处理器执行时实现权利要求1至7任一所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 115221335 A
3
专利 一种知识图谱的构建方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:55:51上传分享