(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210474138.X
(22)申请日 2022.04.29
(71)申请人 清华大学
地址 100084 北京市海淀区清华园
申请人 华中科技大 学
中国工程院战略咨询中心
(72)发明人 周源 胡晨阳 刘宇飞 陈吉红
(74)专利代理 机构 武汉臻诚专利代理事务所
(普通合伙) 42233
专利代理师 宋业斌
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06F 40/216(2020.01)G06F 40/295(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于知识图谱的技术清单生成方法和
系统
(57)摘要
本发明公开了一种基于知识图谱的技术清
单生成方法, 包括: 获取专利数据, 将专利数据输
入预先构建的知识图谱嵌入神经网络模型中, 以
得到专利数据的嵌入结果, 即专利数据的嵌入向
量; 使用Canopy聚类算法对专利数据的嵌入向量
进行处理, 以得到K个聚类中心点, 以K个聚类中
心点为初始中心点, 使用K ‑means算法对实体嵌
入向量进行聚类处理, 以得到 K个聚类结果作为K
个技术领域, 对于K个技术领域中的每一个技术
领域而言, 从专利数据库中获取每一个技术领域
中的所有专利文本。 本发明能够解决现有技术清
单生成方法存在的涉及专家多、 耗时长、 需要消
耗大量精力、 严重依赖专家的知识和经验、 缺少
定量分析和数据支持的技 术问题。
权利要求书3页 说明书10页 附图2页
CN 114817472 A
2022.07.29
CN 114817472 A
1.一种基于知识图谱的技 术清单生成方法, 其特 征在于, 包括以下步骤:
(1)获取专利数据, 将专利数据输入预先构建的知识图谱嵌入神经网络模型中, 以得到
专利数据的嵌入结果, 即专利数据的嵌入向量;
(2)使用Canopy聚类算法对步骤(1)得到 的专利数据的嵌入向量进行处理, 以得到K个
聚类中心点;
(3)以步骤(2)中得到的K个聚类中心点为初始中心点, 使用K ‑means算法对步骤(1)得
到的实体嵌入向量进行聚类处 理, 以得到K个聚类结果作为K个技 术领域。
(4)对于步骤(3)中得到的K个技术领域中的每一个技术领域而言, 从专利数据库(例如
德温特专利数据库)中获取每一个技术领域中的所有专利文本, 并使用词频 ‑逆文本频率指
数TF‑IDF算法对每一个技术领域中的所有专利文本进 行处理, 以获取该技术领域对应的多
个关键技 术词。
(5)针对步骤(3)中得到的K个技术领域中的每一个技术领域而言, 获取其对应的技术
研究热度评价指标和/或技术前沿性评价指标, 以及与技术研究热度评价指标和/或技术前
沿性评价指标相对应的值, 然后根据所有 K个技术领域对应的技术研究热度评价指标和/或
技术前沿性评价指标相对应的值、 并以降序的方式对所有K个技术领域进 行排序, 最 终生成
包括技术研究热度评价指标和/或技术前沿性评价指标、 排序后的K个技术领域、 以及每个
技术领域在步骤(4)中对应的关键技 术词三者之间的映射关系, 从而构成技 术清单并输出。
2.根据权利要求1所述的基于知识图谱的技术清单生成方法, 其特征在于, 知识图谱嵌
入神经网络模型 是ConvE模型, 并且是通过以下步骤构建得到的:
(1‑1)从专利数据库获取专利数据集;
(1‑2)根据步骤(1 ‑1)得到的专利数据集生成多个三元组, 所有三元组构成知识图谱数
据集, 该知识图谱数据集中的每个知识图谱数据就是一个 三元组(em1, rmr, em2), 其中em1表示
知识图谱数据集中第m个 三元组中头实体的嵌入向量、 rmr表示知识图谱数据集中第m个 三元
组中关系的嵌入向量, em2表示知识图谱数据集中第m个三元组中尾实体的嵌入向量, 且有m
∈[1, 知识图谱数据集中的三元组总数]。
(1‑3)将步骤(1 ‑2)得到的知识图谱数据集划分为训练集、 验证集和测试集, 训练集中
的所有知识图谱数据中的所有实体构成集合E, 训练集中的所有知识图谱数据中的所有关
系构成集 合R;
(1‑4)对步骤(1 ‑3)得到的训练集对应的实体集合E和训练集对应的关系集合R进行随
机初始化, 以获得其中每一个实体的嵌入向量和每一个关系的嵌入向量;
(1‑5)将步骤(1 ‑4)得到的训练集中所有实体的嵌入向量和关系的嵌入向量输入到知
识图谱嵌入神经网络模型Co nvE中, 以得到多个预测分数;
(1‑6)将步骤(1 ‑5)得到的所有预测分数输入损失函数中, 使得损失函数L最小化, 从而
得到初步训练好的知识图谱嵌入神经网络模型;
(1‑7)根据步骤(1‑3)得到的验证集对步骤(1 ‑6)初步训练好的知识图谱嵌入神经网络
模型进行验证, 直到得到的损失函数L最优为止, 从而得到训练好的知识图谱嵌入神经网络
模型。
3.根据权利要求1或2所述的基于知识图谱的技 术清单生成方法, 其特 征在于,
步骤(1‑2)中的三元组是由头实体 ‑关系‑尾实体组成;权 利 要 求 书 1/3 页
2
CN 114817472 A
2实体包括专利名称、 发明人、 申请单位、 IPC分类号、 以及国家;
关系包括申请单位 ‑专利名称、 专利名称 ‑IPC分类号、 发明人 ‑申请单位、 发明人 ‑专利
名称、 以及申请单位 ‑国家;
步骤(1‑2)中生成的三元组包括(申请单位 ‑申请‑专利名称)、 (专利名称 ‑属于‑IPC分
类号)、 (发明人 ‑属于‑申请单位)、 (发明人 ‑申请‑专利名称)、 以及(申请单位 ‑属于‑国家)。
4.根据权利要求1至3中任意一项所述的基于知识图谱的技术清单生成方法, 其特征在
于,
步骤(1‑4)中嵌入向量的取值范围为1~1024, 优选为20 0;
每一个嵌入向量均满足均值 为0的正态分布。
5.根据权利要求1所述的基于知识图谱的技术清单生成方法, 其特征在于, 步骤(1 ‑5)
包括以下子步骤:
(1‑5‑1)针对训练集中的每一个三元组(ek1, rkr, ek2)而言, 通过2Dreshape操作将该三
元组中(ek1, rkr, ek2)的头实体的嵌入向量ek1和关系的嵌入向量rkr转换成矩阵并进行拼接,
以得到该三元组(ek1, rkr, ek2)对应的拼接矩阵, 其中k∈[1, 训练集中的三元组总数]。
(1‑5‑2)对于训练集中的每一个三元组(ek1, rkr, ek2)而言, 将步骤(1 ‑5‑1)得到的该三
元组(ek1, rkr, ek2)对应的拼接矩阵输入ConvE模型中带滤波器ω的二维卷积层, 以得到该三
元组对应的张量。
(1‑5‑3)对于训练集中 的每一个三元组(ek1, rkr, ek2)而言, 将该三元组对应的张量拉平
为一维向量后输入到ConvE模型中参数矩 阵为W的全连接层中, 以得到该三元组(ek1, rkr,
ek2)对应的输出向量。
(1‑5‑4)对于训练集 中的每一个三元组而言, 将步骤(1 ‑5‑3)得到的该三元组对应的向
量与该三元组中的尾实体的嵌入向量ek2进行内积运算, 并使用logistic sigmoid函数对内
积计算结果进行处 理, 以得到 输出结果作为该三元组(e1, rr, e2)的预测分数。
6.根据权利要求5所述的基于知识图谱的技术清单生成方法, 其特征在于, 步骤(1 ‑5‑
4)中的预测分数 是采用以下公式计算:
其中ek1、 ek2和rkr分别表示第k个三元 组中头实体、 尾实体和关系的嵌入向量,
和
分别表示ek1和rkr分别通过步骤(1 ‑5‑1)的2D reshape操作后得到的矩阵, *表示卷积操作,
f为relu函数, W为全连接层的参数矩阵, σ 为logistic sigmoid函数, p(ek1, rkr, ek2)表示训
练集中第k个三元组的预测分数。
7.根据权利要求5所述的基于知识图谱的技术清单生成方法, 其特征在于, 步骤(1 ‑6)
中的损失函数L具体为:
其中K表示训练集中所有三元组的数量, tk表示训练集中的第k个三元组中的头实体和
尾实体之间是否存在关系, 如果 二者存在关系, 则tk为1, 否则为0 。
8.根据权利要求1所述的基于知识图谱的技术清单生成方法, 其特征在于, 步骤(4)具
体为, 首先是计算第i个技术领域中第j 个词条出现的频率tfi, j, 其采用如下计算公 式, 其中权 利 要 求 书 2/3 页
3
CN 114817472 A
3
专利 一种基于知识图谱的技术清单生成方法和系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:53:56上传分享