说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210830349.2 (22)申请日 2022.07.15 (71)申请人 山东外国语职业 技术大学 地址 276825 山 东省日照市山海路9 9号 (72)发明人 刘忠宝 张兴芹  (74)专利代理 机构 武汉诚儒知识产权代理事务 所(普通合伙) 42265 专利代理师 邱琳 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06F 16/36(2019.01) (54)发明名称 一种知识与数据驱动 的多粒度中文文本情 感分析方法 (57)摘要 本发明提供了一种知识与数据驱动 的多粒 度中文文本情感分析方法, 在对字、 词、 部首、 词 性向量化表示的基础上, 通过双向门控循环单 元、 注意力机制等模型进行特征提取, 得到特征 向量, 通过Tran sE模型将情感知 识图谱表示为情 感知识向量, 通过多头注意力机制将特征向量与 情感知识向量进行特征融合, 获得知识增强的特 征向量, 最后将该特征向量通过全 连接层和分类 函数进行情感倾向识别。 通过对比实验和消融实 验的结果表明, 本发明方法在F1值上较其他模型 有明显提升 。 权利要求书2页 说明书12页 附图3页 CN 115409028 A 2022.11.29 CN 115409028 A 1.一种知识与数据驱动的多粒度中文 文本情感分析 方法, 其特 征在于包括以下步骤: S1、 将中文文本进行预处理, 形成字级文本、 字级部首文本、 词文本、 词级部首文本和词 性文本这5类输入数据; S2、 利用词嵌入方法, 将输入数据转换为由字向量、 字级部首向量、 词向量、 词级部首向 量和词性向量 这5类向量各自组成的集 合; S3、 利用BiGRU模型与点积注意力机制, 将字向量与字级部首向量进行特征融合得到 字‑部首特征向量, 将词向量与词级部首向量进行特征融合得到词 ‑部首特征向量, 将词向 量与词性向量进行 特征融合得到词 ‑词性特征向量; S4、 利用情感词汇本体库构建情感知识图谱, 将情感知识图谱中的三元组进行分布式 向量表示, 得到情感知识向量; 通过多头注意力机制, 分别将字 ‑部首特征向量、 词 ‑部首特 征向量和词 ‑词性特征向量与情感知识向量进行融合, 得到知识增强后的字 ‑部首特征输出 向量、 知识增强后的词 ‑部首特征向量和知识增强后的词 ‑词性特征向量; S5、 对增强后的字 ‑部首特征输出向量、 增强后的词 ‑部首特征向量和增强后的词 ‑词性 特征向量进行输出处 理, 生成情感识别结果。 2.根据权利要求1所述的知识与数据驱动的多粒度中文文本情感分析方法, 其特征在 于: 步骤S1具体包括以下 过程: S1.1、 对于由m个字组成的输入文本T, 其为字级文本Tc={c1,c2,...,cm}, 其中各元素表 示T中的每个字; 利用分词工具将输入文本T切分为n个词, 即词文本Tw={w1,w2,...,wn}, 其 中各元素表示T中的每 个词; S1.2、 根据新华字 典的部首映射关系对字级文本Tc和词文本Tw处理, 分别得到字级部首 文本Trc={rc1,rc2,...,rcm}和词级部首文本Trw={rw1,rw2,...,rwn}, 字级部首文本Trc中 各元素表 示字级部首, 词级部首文本中各元素表示词级部首; 利用jieba词性标注工具将词 文本Tw转换为词 性文本Tpos={pos1,pos2,...,posn}, 其中各元素表示词对应的词 性, 至此 得到输入数据{Tc,Trc,Tw,Trw,Tpos}。 3.根据权利要求2所述的知识与数据驱动的多粒度中文文本情感分析方法, 其特征在 于: 步骤S2中具体采用词嵌入方法对输入数据进行转换, 得到向量集合{Ec,Erc,Ew,Erw, Epos}, 其中: 表示字向量 集合, 当中各 元素表示字向量; 表示字级部首向量 集合, 当中各 元素表示字级部首向量; 表示词向量 集合, 当中各 元素表示词向量; 表示词级部首向量 集合, 当中各 元素表示词级部首向量; 表示词性向量 集合, 当中各 元素表示词性向量。 4.根据权利要求3所述的知识与数据驱动的多粒度中文文本情感分析方法, 其特征在 于: 步骤S 3中利用BiGRU模 型与点积注 意力机制, 将 字向量与字级部首向量进 行特征融合得 到字‑部首特征向量, 具体包括以下 过程: S3.1、 将BiGRUc模型的初始状态均置为0, 将字向量集合Ec输入BiGRUc模型, 通过以下公 式得到字特征向量集合 其中各元素表示字特 征向量, 计算式为:权 利 要 求 书 1/2 页 2 CN 115409028 A 2S3.2、 通过点积注意力机制分别将yc与字级部首向量集合Erc进行特征融合, 得到融合 后的向量 计算式为: 其中αi表示字级部首向量集合Erc中第i个元素 和字特征向量集合yc中第i个元素 点积运算后的权重矩阵, ·表示点积运算, T为矩阵转置操作, softmax( ·)表示softmax归 一化函数; S3.3、 将 作为BiGRUrc模型的输入向量, 将BiGRUc模型最后时刻的隐层状态传递给 BiGRUrc模型作为初始状态, 进而得到字 ‑部首特征向量集合 其中各元 素表示字 ‑部首特征向量, 计算式为: 5.根据权利要求4所述的知识与数据驱动的多粒度中文文本情感分析方法, 其特征在 于: 步骤S4中知识增强后的字 ‑部首特征输出向量具体通过以下 过程得到: S4.1、 将情 感词汇本体库中的情感词作为头实体h, 将情感类别作 为尾实体t, 将情感词 的情感强度作为关系r, 构建情感知识图谱; S4.2、 通过TransE模型将情感知识图谱中的三元组进行分布式向量表示, 得到情感知 识向量Kr_c; S4.3、 将多头注意力机制将字 ‑部首特征向量集合Vr_c作为Query向量、 将情感知识向量 Kr_c作为对应的Key向量和Value向量进行特征融合, 得到知识增强后的特征输出向量 计 算式为: Kr_c=TransE(h,r,t) 其中TransE( ·)表示TransE模型, MultiHead( ·)为多头注意力机制。 6.根据权利要求5所述的知识与数据驱动的多粒度中文文本情感分析方法, 其特征在 于: 步骤S5具体包括以下 过程: S5.1、 对增强后的字 ‑部首特征输出向量 增强后的词 ‑部首特征向量 和增强后的 词‑词性特征向量 进行最大值池化操作, 再通过向量拼接进行特征融合, 得到融合后的 特征向量Vy; S5.2、 将融合后的特征向量Vy输入全连接神经网络, 利用softmax 函数进行归 一化处理, 得到概率输出P; S5.3、 选择概 率最大的值作为情感识别结果y。权 利 要 求 书 2/2 页 3 CN 115409028 A 3

.PDF文档 专利 一种知识与数据驱动的多粒度中文文本情感分析方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种知识与数据驱动的多粒度中文文本情感分析方法 第 1 页 专利 一种知识与数据驱动的多粒度中文文本情感分析方法 第 2 页 专利 一种知识与数据驱动的多粒度中文文本情感分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:55:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。