(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210481721.3
(22)申请日 2022.05.05
(71)申请人 国网福建省电力有限公司
地址 350003 福建省福州市 鼓楼区五四路
257号
(72)发明人 翁非 林衍 林小雨 张望华
黄云飞 陈璐
(74)专利代理 机构 福州科扬专利事务所(普通
合伙) 35001
专利代理师 何小星
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/36(2019.01)
G06F 40/216(2020.01)
G06F 40/295(2020.01)G06N 5/04(2006.01)
G10L 15/26(2006.01)
G10L 17/02(2013.01)
(54)发明名称
一种基于知识图谱的语音档案检索方法、 设
备和存储介质
(57)摘要
本发明涉及一种基于知识图谱的语音档案
检索方法, 包括以下步骤: 建立知 识图谱, 基于历
史档案构建档案中的实体, 并建立实体 之间的关
联关系; 获取用户输入的语音数据, 对语音数据
进行声纹提取, 得到声纹特征数据; 将声纹特征
数据输入预训练的语音识别模型, 通过语音识别
模型识别声纹特征数据得到若干文本词汇; 在知
识图谱中基于各文本词汇分别进行关联评价, 建
立评价标签以度量各文本词汇与知识图谱中各
实体在文本中的距离以及共现的频率, 并基于生
成的若干评价标签得到与输入的语音数据关联
的实体分支; 基于所述关联的实体 分支在档案检
索系统中进行条件查询, 查询获得对应的档案内
容作为展示结果反馈给用户。
权利要求书2页 说明书6页 附图2页
CN 114741478 A
2022.07.12
CN 114741478 A
1.一种基于知识图谱的语音档案检索方法, 其特 征在于, 包括以下步骤:
建立知识图谱, 基于历史档案构建档案中的实体, 并建立实体之间的关联关系;
获取用户输入的语音数据, 对语音数据进行声纹提取, 得到声纹特 征数据;
将声纹特征数据输入预训练 的语音识别模型, 通过语音识别模型识别声纹特征数据得
到若干文本词汇;
在知识图谱中基于各文本词汇分别进行关联评价, 建立评价标签以度量各文本词汇与
知识图谱中各实体在文本中的距离以及 共现的频率, 并基于生成的若干评价标签得到与输
入的语音数据关联的实体分支;
基于所述关联的实体分支在档案检索系统中进行条件查询, 查询获得对应的档案 内容
作为展示结果反馈给用户。
2.根据权利要求1所述的一种基于知识图谱的语音档案检索方法, 其特征在于, 在所述
基于历史档案构建档案中的实体, 并建立实体之间的关联关系步骤中:
所述实体包括: 档案题名、 档案类型、 保管信息、 卷盒信息、 归档信息、 承办部门、 成文信
息、 甲方/乙方、 第三方;
所述实体之间的关联关系包括: 档案题名与档案类型之间的规范关系, 档案题名与保
管信息之间的编写关系, 档案题名与保管信息之间的制 定关系, 档案题名与归档信息之间
的关联关系, 档案题名与成文信息之间的发布关系, 归档信息与承办部门之 间的指向关系,
承办部门与甲方/乙方之间的签约关系, 甲方/乙方与第三方之间的承办 关系。
3.根据权利要求1所述的一种基于知识图谱的语音档案检索方法, 其特征在于: 所述预
训练的语音识别模型, 预 先使用包括档案中专业词汇的声纹特 征数据进行训练。
4.根据权利要求1所述的一种基于知识图谱的语音档案检索方法, 其特征在于, 所述在
知识图谱中基于各文本词汇分别进行关联评价, 建立评价标签以度量各文本词汇与知识图
谱中各实体在文本中的距离以及共现的频率的方法具体为:
建立如下 所示的评价标签CA(eij):
CA(eij)=I(ei,ej)*D(ei,ej)*Max(ei,ej);
式中, ei和ej分别为文本词汇i和实体j, I(ei,ej)为文本词汇i和实体j共现的概率, D
(ei,ej)为文本词汇i和实体j 的距离, Max(ei,ej)为文本词汇i和实体j两者共同出现的峰
值;
其中:
式中, P(ei,ej)为文本词汇i和实体j同时出现在一句子中的频率, P(ei)为文本词汇i单
独出现在对应句子中的频率, P(ej)为实体j单独出现在对应句子中的频率;
其中:
式中, sent(ei)为包含了文本词汇i的句子的索引号, sent(ej)为包含了实体j的句子的
索引号, WS为句子的搜索窗口大小。权 利 要 求 书 1/2 页
2
CN 114741478 A
25.根据权利要求4所述的一种基于知识图谱的语音档案检索方法, 其特征在于, 所述基
于所述关联的实体分支在档案检索系统中进 行条件查询, 查询获得对应的档案内容作为展
示结果反馈给用户的步骤具体为:
在用户输入语音数据时, 根据实时语音数据在知识图谱进行关联评价, 反馈在知识图
谱中评价标签得分最高的实体分支给用户;
由用户确认是否采纳反馈的实体分支, 若采纳, 则依据采纳的实体分支作为条件查询
获得对应的档案内容; 若不采纳, 则继续进行关联评价; 同时, 根据采纳结果对得出的实体
分支与实时语音 数据中的文本词汇进 行关联度评分, 作为历史检索依据为后续检索提供评
分依据;
当从实时语音数据识别到结束词汇时, 结束关联评价, 将得到的所有实体分支作为组
合条件输入至检索系统中, 根据组合条件查询对应的档案内容。
6.一种基于知识图谱的语音档案检索系统, 其特征在于, 包括: 知识图谱构建模块、 语
音提取模块、 语音识别模块、 评价模块和检索模块;
所述知识图谱构建模块, 用于建立知识图谱, 基于历史档案构建档案中的实体, 并建立
实体之间的关联关系;
所述语音提取模块, 用于获取用户输入的语音数据, 对语音数据进行声纹提取, 得到声
纹特征数据;
所述语音识别模块, 用于将声纹特征数据输入预训练的语音识别模型, 通过语音识别
模型识别声纹特 征数据得到若干文本词汇;
所述评价模块, 用于在知识图谱中基于各文本词汇分别进行关联评价, 建立评价标签
以度量各文本词汇与知识图谱中各实体在文本中的距离以及共现的频率, 并基于生成的若
干评价标签得到与输入的语音数据关联的实体分支;
所述检索模块, 用于基于所述关联的实体分支在档案检索系统中进行条件查询, 查询
获得对应的档案内容作为展示结果反馈给用户。
7.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算
机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至5任一权利要求所述
的基于知识图谱的语音档案检索方法。
8.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执
行时实现如权利要求1至 5任一权利要求所述的基于知识图谱的语音档案检索方法。权 利 要 求 书 2/2 页
3
CN 114741478 A
3
专利 一种基于知识图谱的语音档案检索方法、设备和存储介质
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:13上传分享