专利 一种基于深度学习的多特征表情识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211031481.3 (22)申请日 2022.08.26 (71)申请人大连民族大学地址 116600 辽宁省大连市经济技术开发区辽河西路18号 (72)发明人张秀峰　齐国斌　张宁　付兴魁　 (74)专利代理机构大连智高专利事务所(特殊普通合伙) 2123 5 专利代理师马庆朝 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/40(2022.01) G06V 10/764(2022.01) G06V 10/766(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G16H 50/20(2018.01) (54)发明名称一种基于深度学习的多特征表情识别方法 (57)摘要一种基于深度学习的多特征表情识别方法，属于机器学习和深度学习技术领域，包括如下：获取包含人体和环境的清晰图像并进行简单的预处理，将图片压缩到640*640大小或小于这个大小的原色RGB图片，保留颜色通道，这里使用的是公开数据集Emotic表情识别数据集；整体网络的构成为目标检测网络并联场景信息识别网络，最后输出到分类网络，而目标检测网络由主干网络CSPdarknet53，特征提取的特征金字塔结构并联特征增强网络，最后输出人体的位置信息和0/ 1置信度信息，再送入分类网络和场景信息一起进行分类输出最终结果。本发明使用了多尺度的上下文信息提取模块，上下文注意力模块和内容注意力模块，实现了提升图片前景权重的目的，提升了图片中人的检测比重。权利要求书3页说明书6页附图5页 CN 115410254 A 2022.11.29 CN 115410254 A 1.一种基于深度学习的多特征表情识别方法，其特征在于，包括如下步骤：获取包含人体和环境的清晰图像并进行预处理，将图片压缩到640*640大小或小于所述大小的原色RGB 图片，保留颜色通道，使用公开数据集Emotic表情识别数据集；整体网络的构成为目标检测网络并联场景信息识别网络，最后输出到分类网络，而目标检测网络由主干网络CSPdar knet53构成主干网络，特征提取的特征金字塔结构并联特征增强网络，最后输出人体的位置信息和0/1置信度信息，再送入分类网络和场景信息一起进行分类输出最终结果。 2.根据权利要求1所述的基于深度学习的多特征表情识别方法，其特征在于，所述主干网络CSPdarknet53由多个残差结构组成，保持原生网络的输出不变，在其中的第三层残差块、第四层残差块和第五层残差块的输出之前，加入一个对多个尺度信息进行采集的空间金字塔池化，空间金字塔池化进行简化网络参数、融合多尺度信息；并在三层残差块、第四层残差块和第五层残差块输出三张大小分别为80*80， 40*40和20*20的特征图，使特征提取网络进行采样整合，实现后续的特征提取过程； CSPdarknet53属于目标检测模型YOLO的主干网络，针对人体特征提取特性，在保证主干网络整体的参数量不额外增加的情况下，修改主干网络的损失函数为mish函数，加入全新的多特征池化分支以增强网络的多尺度感知能力；输入图像为 RGB彩色图像，保留了三通道，使用缩放、平移和mosaic作为数据预处理方法；将CSPdarknet53在MS ‑COCO数据集上的预训练权值作为初始权值，对超参数进行微调；将数据集分为大小不同的三个部分：训练集、测试集和验证集；最终选取损失最小的训练权值作为最终的训练结果。 3.根据权利要求2所述的基于深度学习的多特征表情识别方法，其特征在于，所述特征提取网络采用特征金字塔结构，由之前输出的不同大小的特征图进行自下而上的上采样过程，其中包含不同的语义信息和特征信息；在特征提取网络中，由尺寸最大的特征图进行向上采样，同时针对输出信息，使用自上而下的融合方法，所述语义信息传播到低层特征上，使得低层特征也包含丰富的语义信息；使用最邻近插值法，无需计算在待求像素的四个邻近像素中，将距离待求像素最近的邻近像素值赋给待求像素。 4.根据权利要求1所述的基于深度学习的多特征表情识别方法，其特征在于，所述特征增强网络使用空洞卷积和注意力机制，对人体目标进行多尺度的，高权重的特征提取，保证网络训练过程中能够多注意人体特征，突出人物主体；采用并行多尺度空洞卷积和正采样结构对特征提取网络中经过通道规整后的特征图进行进一步特征提取；多个尺度的空洞卷积将最大化的感知图片上不同大小的区域，并联上采样和全连接层后，最大化地保留原有的特征信息。 5.根据权利要求4所述的基于深度学习的多特征表情识别方法，其特征在于，所述特征增强网络是一种模块化的附加网络，安插在主干网络的输出，特征金字塔结构的输出和特征金字塔结构的采样末端，包含一组全连接和上采样的简单输出网络和一组多个可变尺度的空洞卷积层，空洞卷积的大小皆为3 ×3，扩张率为3到24的可变值，并进行堆叠，扩大特征以学习可变的几何特征建模能力。 6.根据权利要求5所述的基于深度学习的多特征表情识别方法，其特征在于，所述特征增强模块分为上下文信息提取模块，上下文注意力模块和内容注意力模块，在获得特征金权　利　要　求　书 1/3 页 2 CN 115410254 A 2字塔提取的特征映射后，利用丰富的上下文信息，将其输入到上下文信息提取模块中，上下文信息提取模块由不同扩张率的多路径空洞卷积组成，分离的卷积层在不同的感受野中获取多个特征映射。 7.根据权利要求6所述的基于深度学习的多特征表情识别方法，其特征在于，在每个路径中引入可变形的卷积层，可变形的卷积层确保上下文信息提取模块从给定的数据中学习转换不变的特征。 8.根据权利要求7所述的基于深度学习的多特征表情识别方法，其特征在于，上下文信息提取模块中采用密集连接合并多尺度信息，其中每个扩张层的输出都与输入的特征映射连接起来，然后送入下一个扩张层；利用密集连接来解决梯度消失的问题，当深度学习模型越来越深时增强特征传播；将空洞卷积组的输出与上采样的输入连接起来，保持初始输入的粗粒度信息，并将它们输入到1 ×1的卷积层中，以融合粗粒度和细粒度特征；引入基于自注意机制的上下文注意力模块主动捕获子区域之间的语义依赖，与双路注意力的语义分割不同的是，上下文信息提取模块产生的包含多尺度感受野信息的上述特性输入到上下文注意力模块模块中；基于这些信息特征，上下文注意力模块自适应地更加关注相关子区域之间的关系；上下文注意力模块的输出特性将具有清晰的语义，并包含周围对象中的上下文依赖关系，对于给定的特征图像转化为潜在的卷积网络空间Wq和Wk，转换后的特征映射为：和且之后，将Q,K重新变形为这时N＝H ×W；为了捕捉每个子区域之间的关系，计算一个相关矩阵为：且同时重新变形为通过sigmoid激活函数和平均池化对R进行归一化后，建立一个注意力矩阵R ′，且同时，利用卷积层Wv将特征映射F转换为另一种表示V: 且最后对R′和V矩阵进行元素点积，可得到： Ei＝R′ ⊙Vi (4) 其中Ei为第ith个特征图，通道维度为C；引入内容注意力模块解决给定图像的几何特性被彻底破坏而导致位置偏移的问题，以保持每个物体的精确位置信息，与上下文注意力模块类似，使用卷积层来转换给定的特征映射，没有使用特征映射F来产生注意力矩阵，而是采用特征映射捕捉每个物体的精确位置，应用两个卷积层Wp和Wz得到注意力矩阵，将F5分别转化为潜在空间: 和且将P和Z的维度重新变形为得到类似于式(2)的相关矩阵：权　利　要　求　书 2/3 页 3 CN 115410254 A 3

专利 一种基于深度学习的多特征表情识别方法

专利一种基于深度学习的多特征表情识别方法