(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210830349.2
(22)申请日 2022.07.15
(71)申请人 山东外国语职业 技术大学
地址 276825 山 东省日照市山海路9 9号
(72)发明人 刘忠宝 张兴芹
(74)专利代理 机构 武汉诚儒知识产权代理事务
所(普通合伙) 42265
专利代理师 邱琳
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06F 16/36(2019.01)
(54)发明名称
一种知识与数据驱动 的多粒度中文文本情
感分析方法
(57)摘要
本发明提供了一种知识与数据驱动 的多粒
度中文文本情感分析方法, 在对字、 词、 部首、 词
性向量化表示的基础上, 通过双向门控循环单
元、 注意力机制等模型进行特征提取, 得到特征
向量, 通过Tran sE模型将情感知 识图谱表示为情
感知识向量, 通过多头注意力机制将特征向量与
情感知识向量进行特征融合, 获得知识增强的特
征向量, 最后将该特征向量通过全 连接层和分类
函数进行情感倾向识别。 通过对比实验和消融实
验的结果表明, 本发明方法在F1值上较其他模型
有明显提升 。
权利要求书2页 说明书12页 附图3页
CN 115409028 A
2022.11.29
CN 115409028 A
1.一种知识与数据驱动的多粒度中文 文本情感分析 方法, 其特 征在于包括以下步骤:
S1、 将中文文本进行预处理, 形成字级文本、 字级部首文本、 词文本、 词级部首文本和词
性文本这5类输入数据;
S2、 利用词嵌入方法, 将输入数据转换为由字向量、 字级部首向量、 词向量、 词级部首向
量和词性向量 这5类向量各自组成的集 合;
S3、 利用BiGRU模型与点积注意力机制, 将字向量与字级部首向量进行特征融合得到
字‑部首特征向量, 将词向量与词级部首向量进行特征融合得到词 ‑部首特征向量, 将词向
量与词性向量进行 特征融合得到词 ‑词性特征向量;
S4、 利用情感词汇本体库构建情感知识图谱, 将情感知识图谱中的三元组进行分布式
向量表示, 得到情感知识向量; 通过多头注意力机制, 分别将字 ‑部首特征向量、 词 ‑部首特
征向量和词 ‑词性特征向量与情感知识向量进行融合, 得到知识增强后的字 ‑部首特征输出
向量、 知识增强后的词 ‑部首特征向量和知识增强后的词 ‑词性特征向量;
S5、 对增强后的字 ‑部首特征输出向量、 增强后的词 ‑部首特征向量和增强后的词 ‑词性
特征向量进行输出处 理, 生成情感识别结果。
2.根据权利要求1所述的知识与数据驱动的多粒度中文文本情感分析方法, 其特征在
于: 步骤S1具体包括以下 过程:
S1.1、 对于由m个字组成的输入文本T, 其为字级文本Tc={c1,c2,...,cm}, 其中各元素表
示T中的每个字; 利用分词工具将输入文本T切分为n个词, 即词文本Tw={w1,w2,...,wn}, 其
中各元素表示T中的每 个词;
S1.2、 根据新华字 典的部首映射关系对字级文本Tc和词文本Tw处理, 分别得到字级部首
文本Trc={rc1,rc2,...,rcm}和词级部首文本Trw={rw1,rw2,...,rwn}, 字级部首文本Trc中
各元素表 示字级部首, 词级部首文本中各元素表示词级部首; 利用jieba词性标注工具将词
文本Tw转换为词 性文本Tpos={pos1,pos2,...,posn}, 其中各元素表示词对应的词 性, 至此
得到输入数据{Tc,Trc,Tw,Trw,Tpos}。
3.根据权利要求2所述的知识与数据驱动的多粒度中文文本情感分析方法, 其特征在
于: 步骤S2中具体采用词嵌入方法对输入数据进行转换, 得到向量集合{Ec,Erc,Ew,Erw,
Epos}, 其中:
表示字向量 集合, 当中各 元素表示字向量;
表示字级部首向量 集合, 当中各 元素表示字级部首向量;
表示词向量 集合, 当中各 元素表示词向量;
表示词级部首向量 集合, 当中各 元素表示词级部首向量;
表示词性向量 集合, 当中各 元素表示词性向量。
4.根据权利要求3所述的知识与数据驱动的多粒度中文文本情感分析方法, 其特征在
于: 步骤S 3中利用BiGRU模 型与点积注 意力机制, 将 字向量与字级部首向量进 行特征融合得
到字‑部首特征向量, 具体包括以下 过程:
S3.1、 将BiGRUc模型的初始状态均置为0, 将字向量集合Ec输入BiGRUc模型, 通过以下公
式得到字特征向量集合
其中各元素表示字特 征向量, 计算式为:权 利 要 求 书 1/2 页
2
CN 115409028 A
2S3.2、 通过点积注意力机制分别将yc与字级部首向量集合Erc进行特征融合, 得到融合
后的向量
计算式为:
其中αi表示字级部首向量集合Erc中第i个元素
和字特征向量集合yc中第i个元素
点积运算后的权重矩阵, ·表示点积运算, T为矩阵转置操作, softmax( ·)表示softmax归
一化函数;
S3.3、 将
作为BiGRUrc模型的输入向量, 将BiGRUc模型最后时刻的隐层状态传递给
BiGRUrc模型作为初始状态, 进而得到字 ‑部首特征向量集合
其中各元
素表示字 ‑部首特征向量, 计算式为:
5.根据权利要求4所述的知识与数据驱动的多粒度中文文本情感分析方法, 其特征在
于: 步骤S4中知识增强后的字 ‑部首特征输出向量具体通过以下 过程得到:
S4.1、 将情 感词汇本体库中的情感词作为头实体h, 将情感类别作 为尾实体t, 将情感词
的情感强度作为关系r, 构建情感知识图谱;
S4.2、 通过TransE模型将情感知识图谱中的三元组进行分布式向量表示, 得到情感知
识向量Kr_c;
S4.3、 将多头注意力机制将字 ‑部首特征向量集合Vr_c作为Query向量、 将情感知识向量
Kr_c作为对应的Key向量和Value向量进行特征融合, 得到知识增强后的特征输出向量
计
算式为:
Kr_c=TransE(h,r,t)
其中TransE( ·)表示TransE模型, MultiHead( ·)为多头注意力机制。
6.根据权利要求5所述的知识与数据驱动的多粒度中文文本情感分析方法, 其特征在
于: 步骤S5具体包括以下 过程:
S5.1、 对增强后的字 ‑部首特征输出向量
增强后的词 ‑部首特征向量
和增强后的
词‑词性特征向量
进行最大值池化操作, 再通过向量拼接进行特征融合, 得到融合后的
特征向量Vy;
S5.2、 将融合后的特征向量Vy输入全连接神经网络, 利用softmax 函数进行归 一化处理,
得到概率输出P;
S5.3、 选择概 率最大的值作为情感识别结果y。权 利 要 求 书 2/2 页
3
CN 115409028 A
3
专利 一种知识与数据驱动的多粒度中文文本情感分析方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:55:45上传分享