专利 一种基于知识图谱的语音档案检索方法、设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210481721.3 (22)申请日 2022.05.05 (71)申请人国网福建省电力有限公司地址 350003 福建省福州市鼓楼区五四路 257号 (72)发明人翁非　林衍　林小雨　张望华　黄云飞　陈璐　 (74)专利代理机构福州科扬专利事务所(普通合伙) 35001 专利代理师何小星 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06F 40/295(2020.01)G06N 5/04(2006.01) G10L 15/26(2006.01) G10L 17/02(2013.01) (54)发明名称一种基于知识图谱的语音档案检索方法、设备和存储介质 (57)摘要本发明涉及一种基于知识图谱的语音档案检索方法，包括以下步骤：建立知识图谱，基于历史档案构建档案中的实体，并建立实体之间的关联关系；获取用户输入的语音数据，对语音数据进行声纹提取，得到声纹特征数据；将声纹特征数据输入预训练的语音识别模型，通过语音识别模型识别声纹特征数据得到若干文本词汇；在知识图谱中基于各文本词汇分别进行关联评价，建立评价标签以度量各文本词汇与知识图谱中各实体在文本中的距离以及共现的频率，并基于生成的若干评价标签得到与输入的语音数据关联的实体分支；基于所述关联的实体分支在档案检索系统中进行条件查询，查询获得对应的档案内容作为展示结果反馈给用户。权利要求书2页说明书6页附图2页 CN 114741478 A 2022.07.12 CN 114741478 A 1.一种基于知识图谱的语音档案检索方法，其特征在于，包括以下步骤：建立知识图谱，基于历史档案构建档案中的实体，并建立实体之间的关联关系；获取用户输入的语音数据，对语音数据进行声纹提取，得到声纹特征数据；将声纹特征数据输入预训练的语音识别模型，通过语音识别模型识别声纹特征数据得到若干文本词汇；在知识图谱中基于各文本词汇分别进行关联评价，建立评价标签以度量各文本词汇与知识图谱中各实体在文本中的距离以及共现的频率，并基于生成的若干评价标签得到与输入的语音数据关联的实体分支；基于所述关联的实体分支在档案检索系统中进行条件查询，查询获得对应的档案内容作为展示结果反馈给用户。 2.根据权利要求1所述的一种基于知识图谱的语音档案检索方法，其特征在于，在所述基于历史档案构建档案中的实体，并建立实体之间的关联关系步骤中：所述实体包括：档案题名、档案类型、保管信息、卷盒信息、归档信息、承办部门、成文信息、甲方/乙方、第三方；所述实体之间的关联关系包括：档案题名与档案类型之间的规范关系，档案题名与保管信息之间的编写关系，档案题名与保管信息之间的制定关系，档案题名与归档信息之间的关联关系，档案题名与成文信息之间的发布关系，归档信息与承办部门之间的指向关系，承办部门与甲方/乙方之间的签约关系，甲方/乙方与第三方之间的承办关系。 3.根据权利要求1所述的一种基于知识图谱的语音档案检索方法，其特征在于：所述预训练的语音识别模型，预先使用包括档案中专业词汇的声纹特征数据进行训练。 4.根据权利要求1所述的一种基于知识图谱的语音档案检索方法，其特征在于，所述在知识图谱中基于各文本词汇分别进行关联评价，建立评价标签以度量各文本词汇与知识图谱中各实体在文本中的距离以及共现的频率的方法具体为：建立如下所示的评价标签CA(eij)： CA(eij)＝I(ei,ej)*D(ei,ej)*Max(ei,ej)；式中， ei和ej分别为文本词汇i和实体j， I(ei,ej)为文本词汇i和实体j共现的概率， D (ei,ej)为文本词汇i和实体j 的距离， Max(ei,ej)为文本词汇i和实体j两者共同出现的峰值；其中：式中， P(ei,ej)为文本词汇i和实体j同时出现在一句子中的频率， P(ei)为文本词汇i单独出现在对应句子中的频率， P(ej)为实体j单独出现在对应句子中的频率；其中：式中， sent(ei)为包含了文本词汇i的句子的索引号， sent(ej)为包含了实体j的句子的索引号， WS为句子的搜索窗口大小。权　利　要　求　书 1/2 页 2 CN 114741478 A 25.根据权利要求4所述的一种基于知识图谱的语音档案检索方法，其特征在于，所述基于所述关联的实体分支在档案检索系统中进行条件查询，查询获得对应的档案内容作为展示结果反馈给用户的步骤具体为：在用户输入语音数据时，根据实时语音数据在知识图谱进行关联评价，反馈在知识图谱中评价标签得分最高的实体分支给用户；由用户确认是否采纳反馈的实体分支，若采纳，则依据采纳的实体分支作为条件查询获得对应的档案内容；若不采纳，则继续进行关联评价；同时，根据采纳结果对得出的实体分支与实时语音数据中的文本词汇进行关联度评分，作为历史检索依据为后续检索提供评分依据；当从实时语音数据识别到结束词汇时，结束关联评价，将得到的所有实体分支作为组合条件输入至检索系统中，根据组合条件查询对应的档案内容。 6.一种基于知识图谱的语音档案检索系统，其特征在于，包括：知识图谱构建模块、语音提取模块、语音识别模块、评价模块和检索模块；所述知识图谱构建模块，用于建立知识图谱，基于历史档案构建档案中的实体，并建立实体之间的关联关系；所述语音提取模块，用于获取用户输入的语音数据，对语音数据进行声纹提取，得到声纹特征数据；所述语音识别模块，用于将声纹特征数据输入预训练的语音识别模型，通过语音识别模型识别声纹特征数据得到若干文本词汇；所述评价模块，用于在知识图谱中基于各文本词汇分别进行关联评价，建立评价标签以度量各文本词汇与知识图谱中各实体在文本中的距离以及共现的频率，并基于生成的若干评价标签得到与输入的语音数据关联的实体分支；所述检索模块，用于基于所述关联的实体分支在档案检索系统中进行条件查询，查询获得对应的档案内容作为展示结果反馈给用户。 7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一权利要求所述的基于知识图谱的语音档案检索方法。 8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至 5任一权利要求所述的基于知识图谱的语音档案检索方法。权　利　要　求　书 2/2 页 3 CN 114741478 A 3

专利 一种基于知识图谱的语音档案检索方法、设备和存储介质

专利一种基于知识图谱的语音档案检索方法、设备和存储介质