(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211031481.3
(22)申请日 2022.08.26
(71)申请人 大连民族大 学
地址 116600 辽宁省大连市经济技 术开发
区辽河西路18号
(72)发明人 张秀峰 齐国斌 张宁 付兴魁
(74)专利代理 机构 大连智高专利事务所(特殊
普通合伙) 2123 5
专利代理师 马庆朝
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 10/40(2022.01)
G06V 10/764(2022.01)
G06V 10/766(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G16H 50/20(2018.01)
(54)发明名称
一种基于深度学习的多特 征表情识别方法
(57)摘要
一种基于深度学习的多 特征表情识别方法,
属于机器学习和深度学习技术领域, 包括如下:
获取包含人体和环境的清晰图像并进行简单的
预处理, 将图片压缩到640*640大小或小于这个
大小的原色RGB图片, 保留颜色通道, 这里使用的
是公开数据集Emotic表情识别数据集; 整体网络
的构成为目标检测网络并联场景信息识别网络,
最后输出到分类网络, 而目标检测网络由主干网
络CSPdarknet53, 特征提取的特征金字塔 结构并
联特征增强网络, 最后输出人体的位置信息和0/
1置信度信息, 再送入分类网络和场景信息一起
进行分类输出最终结果。 本发明使用了多尺度的
上下文信息提取模块, 上下文注 意力模块和内容
注意力模块, 实现了提升图片前景权重的目的,
提升了图片中人的检测比重 。
权利要求书3页 说明书6页 附图5页
CN 115410254 A
2022.11.29
CN 115410254 A
1.一种基于深度 学习的多特征表情识别方法, 其特征在于, 包括如下步骤: 获取包含人
体和环境的清晰图像并进 行预处理, 将图片 压缩到640*640大小或小于所述大小的原色RGB
图片, 保留颜色通道, 使用公开数据集Emotic表情识别数据集;
整体网络的构成为目标检测网络并联场景信息识别网络, 最后输出到分类网络, 而目
标检测网络由主干网络CSPdar knet53构成主干网络, 特征提取的特征金字塔结构并联特征
增强网络, 最后输出人体的位置信息和0/1置信度信息, 再送入分类网络和场景信息一起进
行分类输出最终结果。
2.根据权利要求1所述的基于深度学习的多特征表情识别方法, 其特征在于, 所述主干
网络CSPdarknet53由多个残差结构组成, 保持原生网络的输出不变, 在其中的第三层残差
块、 第四层残差块和第 五层残差块的输出之前, 加入一个对多个尺度信息进行采集的空间
金字塔池化, 空间金字塔池化进行简化网络参数、 融合多尺度信息; 并在三层残差块、 第四
层残差块和第五层残差块输出三张大小分别为80*80, 40*40和20*20的特征图, 使特征提取
网络进行采样整合, 实现后续的特 征提取过程;
CSPdarknet53属于目标检测模型YOLO的主干网络, 针对人体特征提取特性, 在保证主
干网络整体的参数量不额外增加的情况下, 修改主干网络的损失函数为mish函数, 加入全
新的多特征池化分支以增强网络的多尺度感知能力; 输入图像为 RGB彩色图像, 保留了三通
道, 使用缩放、 平移和mosaic作为数据预处理方法; 将CSPdarknet53在MS ‑COCO数据集上的
预训练权值作为初始权值, 对超参数进行微调; 将数据集分为大小不同的三个部分: 训练
集、 测试集和验证集; 最终选取损失最小的训练权值作为 最终的训练结果。
3.根据权利要求2所述的基于深度学习的多特征表情识别方法, 其特征在于, 所述特征
提取网络采用特征金字塔结构, 由之前输出的不同大小的特征图进行自下而 上的上采样过
程, 其中包含不同的语义信息和特征信息; 在特征提取网络中, 由尺寸最大的特征图进行向
上采样, 同时针对输出信息, 使用自上而下的融合方法, 所述语义信息传播到低层特征上,
使得低层特征也包含丰富的语义信息; 使用最邻近插值法, 无需计算在待求像素 的四个邻
近像素中, 将距离待求像素最近的邻近像素值赋 给待求像素。
4.根据权利要求1所述的基于深度学习的多特征表情识别方法, 其特征在于, 所述特征
增强网络使用空洞卷积和注意力机制, 对人体目标进 行多尺度的, 高权重的特征提取, 保证
网络训练过程中能够多注意人体特 征, 突出人物主体;
采用并行多尺度空洞卷积和正采样结构对特征提取网络中经过通道规整后的特征图
进行进一 步特征提取;
多个尺度的空洞卷积将最大化的感知图片上不同大小的区域, 并联上采样和全连接层
后, 最大化 地保留原有的特 征信息。
5.根据权利要求4所述的基于深度学习的多特征表情识别方法, 其特征在于, 所述特征
增强网络是一种模块化的附加网络, 安插在主干网络的输出, 特征金字塔结构的输出和特
征金字塔结构的采样末端, 包含一组全连接和上采样的简单输出网络和一组多个可变尺度
的空洞卷积层, 空洞卷积的大小皆为3 ×3, 扩张率为3到24的可变值, 并进 行堆叠, 扩 大特征
以学习可变的几何特 征建模能力。
6.根据权利要求5所述的基于深度学习的多特征表情识别方法, 其特征在于, 所述特征
增强模块分为上下文信息提取模块, 上下文注意力模块和内容注意力模块, 在获得特征金权 利 要 求 书 1/3 页
2
CN 115410254 A
2字塔提取的特征映射后, 利用丰富的上下文信息, 将其输入到上下文信息提取模块中, 上下
文信息提取模块由不同扩张率的多路径空洞卷积组成, 分离的卷积层在不同的感受野中获
取多个特 征映射。
7.根据权利要求6所述的基于深度学习的多特征表情识别方法, 其特征在于, 在每个路
径中引入可变形的卷积层, 可变形的卷积层确保上下文信息提取模块从给定的数据中学习
转换不变的特 征。
8.根据权利要求7所述的基于深度学习的多特征表情识别方法, 其特征在于, 上下文信
息提取模块中采用密集连接合并多尺度信息, 其中每个扩张层的输出都与输入的特征映射
连接起来, 然后送入 下一个扩张层; 利用密集连接来解决梯度消失的问题, 当深度学习模型
越来越深时增强特征传播; 将空洞卷积组的输出与上采样的输入连接起来, 保持初始输入
的粗粒度信息, 并将它们输入到1 ×1的卷积层中, 以融合粗粒度和细粒度特征; 引入基于自
注意机制的上下文注意力模块主动 捕获子区域之间的语义依赖, 与双路注意力的语义分割
不同的是, 上下文信息提取模块产生的包含多尺度感受野信息的上述特性输入到上下文注
意力模块模块中; 基于这些信息特征, 上下文注意力模块自适应地更加关注相关子区域之
间的关系; 上下文注意力模块的输出特性将具有清晰的语义, 并包含周围对 象中的上下文
依赖关系, 对于给定的特征图像
转化为潜在的卷积网络空间Wq和Wk, 转换后的
特征映射为:
和
且
之后, 将Q,K重新变形为
这时N=H ×W; 为了捕捉每个子区域
之间的关系, 计算 一个相关矩阵为:
且
同时重新变形为
通过sigmoid激活函数和平均池化对R进行归
一化后, 建立 一个注意力矩阵R ′, 且
同时, 利用卷积层Wv将特征映射F转换为另一种表示V:
且
最后对R′和V矩阵进行 元素点积, 可 得到:
Ei=R′ ⊙Vi (4)
其中Ei为第ith个特征图, 通道维度为C;
引入内容注意力模块解决给定图像的几何特性被彻底破坏而导致位置偏移的问题, 以
保持每个物体的精确 位置信息, 与上下文注意力模块类似, 使用卷积层来转换给定的特征
映射, 没有使用特征映射F来产生注意力矩阵, 而是采用特征映射
捕捉每个物体
的精确位置,
应用两个卷积层Wp和Wz得到注意力矩阵, 将F5分别转化为潜在空间:
和
且
将P和Z的维度重新变形为
得到类似于式(2)的相关矩阵:
权 利 要 求 书 2/3 页
3
CN 115410254 A
3
专利 一种基于深度学习的多特征表情识别方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:11:07上传分享