(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210498589.7
(22)申请日 2022.05.09
(71)申请人 上海隆恒贝 瑞科技有限公司
地址 200120 上海市浦东 新区中国(上海)
自由贸易试验区临港新片区云汉路
979号2楼
(72)发明人 赵伟霖 周佳威 冀红超 潘飞
颜艳艳 黄玉辉 杨兴武 徐涛
彭又寒 陈怡璇 杨继先 王峰
刘颖 何佳 黄鑫 罗淑芳 吉娇
甘晓洁
(74)专利代理 机构 南京禹为知识产权代理事务
所(特殊普通 合伙) 32272
专利代理师 沈鑫(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/33(2019.01)
G06F 40/242(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06Q 10/00(2012.01)
G06Q 50/06(2012.01)
(54)发明名称
一种智能调度检修识别库构建方法
(57)摘要
本发明公开了一种智能调度检修识别库构
建方法, 包括建立基于BERT的电网调度语音识别
语言模型; 结合语音识别和自然语 言处理技术对
调度文本进行特征提取、 语义解析; 构建专业词
汇词向量库。 本发明本发明通过将语音识别与自
然语言处理技术结合, 将之引入配网调度领域,
辅助调度业务开展, 从而减轻基层班组工作负
荷, 降低调度工作出错率, 提高调度工作效率, 对
保证电网安全、 稳定、 高效运行 具有重要意 义。
权利要求书3页 说明书16页 附图4页
CN 114996470 A
2022.09.02
CN 114996470 A
1.一种智能调度检修识别库构建方法, 其特 征在于: 包括,
采集数据, 建立基于BERT的电网调度语音识别语言模型;
结合语音识别和自然语言处 理技术对调度文本进行 特征提取、 语义 解析;
构建专业词汇词向量库。
2.如权利要求1所述的智能调度检修识别库构建方法, 其特征在于: 所述建立基于BERT
的电网调度语音识别语言模型包括,
将一段经过切分的文本 输入BERT, 其中文本包 含u个切分单 元;
把每个切分单 元按照其每一类特 征表示为一个特征向量, 并求和得到综合特 征向量;
将所有综合特征向量依次输入至两个Transformer编码器中, 由第二个Transformer编
码器输出文本的表示向量。
3.如权利要求2所述的智能调度检修识别库构建方法, 其特征在于: 所述电网调度语音
识别语言模型中, 调度语句的每个输入的切分单元共包含4个类别的特征, 即语义特征、 位
置特征、 关键字特征和命名实体特 征。
4.如权利要求3所述的智能调度检修识别库构建方法, 其特征在于: 所述语义特征反映
每个切分单元本身的语义信息, 其直接以字为粒度对调度语句进行切分, 每个字的语意特
征向量采用word2vec的Skip ‑gram模型生成, 在基于字粒度的分布式表示方式下, 一条包含
a个字的电网调度文本将被转化为a个b维的向量, 其中第p个向量(p=1,2, …,a)表征电网
调度文本第p个字的语义特 征, b为每 个字特征向量的维数。
5.如权利要求4所述的智能调度检修识别库构建方法, 其特征在于: 所述位置特征用于
表示每个切分单 元在句子中的位置, 其按照BERT的方法在模型训练过程中自动学习得到;
所述模型训练过程包括无监督预训练和计算调度语句为合理句子的概率, 所述无监督
预训练包括MLM任务的预训练, 所述调度语句的合理概率计算方法是, 对于一条包含j个字
的调度语句, 依次遮蔽第k个切分单元(k=1,2, …,j)的输入, 并采用经过MLM任务预训练的
语言模型预测其对应输出为该切分单元(词或字)的概率pr ok, 最终可以计算出调度语句为
合理句子的概 率为:
6.如权利要求5所述的智能调度检修识别库构建方法, 其特征在于: 提取所述关键字特
征, 包括,
将调度信息 中的每个字, 将其拼音拆分为声母、 韵母和声调三部分, 其中零声母或轻声
的字分别将声母或声调记为空值, 然后计算调度信息中每个字与各个关键字的相似度, 计
算公式如下:
式中: simsheng在两个字声母相同时取1, 声母不同但分别为对应的平舌和翘舌音时(如
“z”和“zh”)取0.5, 其余情况取0; simyun在两个字韵母相同时取1, 韵母不同但分别为对应的
前鼻和后鼻音时(如 “an”和“ang”)取0.5, 其余情况取0; simdiao在两个字声调相同时取1, 否
则取0;
对于电网调度信息中的每个字, 计算其与各个关键字的相似度, 并记其中最高的相似权 利 要 求 书 1/3 页
2
CN 114996470 A
2度值为msimzi, 再按照下式计算该字的关键 字特征向量:
式中: f1(u1)表示关键字特征向量第u1个维度的值; n为相似度最高的关键字 的编号; N
表示关键 字总数, 即为6; dim1为关键字特征向量的维数。
7.如权利要求6所述的智能调度检修识别库构建方法, 其特征在于: 所述命名实体特征
的构建包括,
利用包含各个电力站点、 设备等名称的电网台账信息, 构建命名实体词典;
统计命名实体词典中最短和最长命名实体的字数, 分别记为c和d;
对于电网调度信息中的每个字, 取包含该字的所有长度为q(q=c,c+1, …,d)的字序
列, 再求每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度, 相似度同
样需要从字的发音方面进行定义, 计算公式为:
式中: simzi(r)表示字序列的第r个字与命名实体第r个字的相似度, 相似度按上式计算;
形成电网调度信息中各个字的命名实体特 征;
对于每一个字, 设其共有e个对应的字序列, 其 中第s个字序列(s=1,2, …,e)与各个命
名实体相似度的最大值记为msimxu(s), 共有e个相似度最大值, 再设这些最大值中的最大者
为msimxu(t)(即第t个字序列的相似度最 大值), 则称第t个字序列为 该字的匹配字序列, 然后
按照下式计算该字的命名实体特 征向量:
式中: f2(u2)表示命名实体特征向量第u2个维度的值; g ·msimxu(t)表示匹配字序列误识
别的概率, 其中g在匹配字序列和命名实体完全相同时为0, 否则为1, os表示该字为匹配字
序列的第几个字; len 为匹配字序列的长度; dim2为命名实体特 征向量的维数。
8.如权利要求7所述的智能调度检修识别库构建方法, 其特征在于: 所述结合语音识别
和自然语言处 理技术对调度文本进行 特征提取、 语义 解析包括,
文本预处 理, 包括语料清洗、 去停用词、 中文分词;
对电网调度事故处置预案进行文本分析, 利用LSTM对调度故障对应的事故处理进行关
键词的提取。
9.如权利要求8所述的智能调度检修识别库构建方法, 其特征在于: 利用LSTM算法进行
关键词提取 具体包括,
输入电网调度事故处置预案, 经过embeddin g层对事故处置预案文本进行词嵌入训练,
生成词向量序列;
LSTM分类模型对词向量序列中的词进行打 分处理;权 利 要 求 书 2/3 页
3
CN 114996470 A
3
专利 一种智能调度检修识别库构建方法
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:55:17上传分享