专利 一种基于多模态融合的动作识别方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210960093.7 (22)申请日 2022.08.11 (71)申请人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫 200号南京理工大学 (72)发明人李泽超　潘礼勇　 (74)专利代理机构北京高沃律师事务所 1 1569 专利代理师韩雪梅 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/40(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 40/70(2022.01) G06K 9/62(2022.01)G06V 10/764(2022.01) G06N 3/04(2006.01) G10L 25/18(2013.01) G10L 25/45(2013.01) (54)发明名称一种基于多模态融合的动作识别方法及系统 (57)摘要本发明公开了一种基于多模态融合的动作识别方法及系统。该方法包括：从动作视频中提取视觉模态数据和听觉模态数据；对视觉模态数据和听觉模态数据进行预处理，得到视觉模态浅层Token序列和听觉模态浅层Token序列；将视觉模态浅层Token序列输入至视觉特征提取网络中，得到视觉模态深度T oken序列；将听觉模态浅层Token序列输入至听觉特征提取网络中，得到听觉模态深度T oken序列；将视觉模态深度T oken 序列和听觉模态深度Token序列合并，得到合并后的Token序列；将合并后的Token序列输入至特征融合网络，得到融合交互后的Token序列；将融合交互后的Token序列输入至全连接层，得到动作分类结果。本发明相比于现有的方法识别准确率更高，而且计算消耗更低。权利要求书2页说明书7页附图2页 CN 115205979 A 2022.10.18 CN 115205979 A 1.一种基于多模态融合的动作识别方法，其特征在于，包括：从动作视频中提取视觉模态数据和听觉模态数据；对所述视觉模态数据和所述听觉模态数据进行预处理，得到视觉模态浅层Token序列和听觉模态浅层To ken序列；将所述视觉模态浅层Token序列输入至视觉特征提取网络中，得到视觉模态深度Token 序列；将所述听觉模态浅层Token序列输入至听觉特征提取网络中，得到听觉模态深度Token 序列；将所述视觉模态深度Token序列和所述听觉模态深度Token序列合并，得到合并后的 Token序列；将所述合并后的To ken序列输入至特征融合网络，得到融合交互后的To ken序列；将所述融合交互后的To ken序列输入至全连接层，得到动作分类结果。 2.根据权利要求1所述的基于多模态融合的动作识别方法，其特征在于，从动作视频中提取视觉模态数据和听觉模态数据，具体包括：将所述动作视频划分为多个部分；从每个部分中随机提取1帧RGB图像，得到视觉模态数据；从每个部分中提取设定长度的音频；从所述音频中提取设定频率维度的频谱图，得到听觉模态数据。 3.根据权利要求1所述的基于多模态融合的动作识别方法，其特征在于，对所述视觉模态数据和所述听觉模态数据进行预处理，具体包括：将所述视觉模态数据和所述听觉模态数据均划分为多个图像块，得到视觉模态图像块和听觉模态图像块；将每个视觉模态图像块和每个听觉模态图像块拉平成为一维向量，得到视觉模态 Token和听觉模态To ken；对所述视觉模态Token和所述听觉模态Token进行一次线性变化，得到视觉模态初始 Token序列和听觉模态初始To ken序列；将可学习的变量作为位置信息分别添加到所述视觉模态初始Token序列和所述听觉模态初始To ken序列中，得到视觉模态浅层To ken序列和听觉模态浅层To ken序列。 4.根据权利要求1所述的基于多模态融合的动作识别方法，其特征在于，在将所述视觉模态浅层 Token序列输入至视觉特征提取网络中，以及将所述听觉模态浅层Token序列输入至听觉特征提取网络中之前，还包括；分别在所述视觉模态浅层Token序列以及所述听觉模态浅层Token序列前设置一个分类向量，并将所述分类向量进行移动。 5.根据权利要求4所述的基于多模态融合的动作识别方法，其特征在于，将所述合并后的Token序列输入至特征融合网络，得到融合交互后的To ken序列，具体包括：将所述视觉模态深度Token序列中的分类向量进行合并以及将所述视觉模态深度 Token序列中分类向量以外的部分进行合并，得到合并后的视觉模态深度To ken序列；将所述听觉模态深度Token序列中的分类向量进行合并以及将所述听觉模态深度 Token序列中分类向量以外的部分进行合并，得到合并后的听觉模态深度To ken序列；权　利　要　求　书 1/2 页 2 CN 115205979 A 2将所述合并后的视觉模态深度Token序列以及所述合并后的听觉模态深度Token序列，进行合并得到合并后的To ken序列。 6.根据权利要求1所述的基于多模态融合的动作识别方法，其特征在于，所述特征融合网络中包括To ken选择模块。 7.一种基于多模态融合的动作识别系统，其特征在于，包括：模态数据提取模块，用于从动作视频中提取视觉模态数据和听觉模态数据；预处理模块，用于对所述视觉模态数据和所述听觉模态数据进行预处理，得到视觉模态浅层To ken序列和听觉模态浅层To ken序列；第一输入模块，用于将所述视觉模态浅层Token序列输入至视觉特征提取网络中，得到视觉模态深度To ken序列；第二输入模块，用于将所述听觉模态浅层Token序列输入至听觉特征提取网络中，得到听觉模态深度To ken序列；合并模块，用于将所述视觉模态深度Token序列和所述听觉模态深度Token序列合并，得到合并后的To ken序列；第三输入模块，用于将所述合并后的Token序列输入至特征融合网络，得到融合交互后的Token序列；第四输入模块，用于将所述融合交互后的Token序列输入至全连接层，得到动作分类结果。 8.根据权利要求7所述的基于多模态融合的动作识别系统，其特征在于，模态数据提取模块，具体包括：第一划分单元，用于将所述动作视频划分为多个部分；第一提取单元，用于从每个部分中随机提取1帧RGB图像，得到视觉模态数据；第二提取单元，用于从每个部分中提取设定长度的音频；第三提取单元，用于从所述音频中提取设定频率维度的频谱图，得到听觉模态数据。 9.根据权利要求7所述的基于多模态融合的动作识别系统，其特征在于，预处理模块，具体包括：第二划分单元，用于将所述视觉模态数据和所述听觉模态数据均划分为多个图像块，得到视觉模态图像块和听觉模态图像块；拉平单元，用于将每个视觉模态图像块和每个听觉模态图像块拉平成为一维向量，得到视觉模态To ken和听觉模态To ken；线性变化单元，用于对所述视觉模态Token和所述听觉模态Token进行一次线性变化，得到视觉模态初始To ken序列和听觉模态初始To ken序列；添加单元，用于将可学习的变量作为位置信息分别添加到所述视觉模态初始Token序列和所述听觉模态初始Token序列中，得到视觉模态浅层Token序列和听觉模态浅层Token 序列。 10.根据权利要求7所述的基于多模态融合的动作识别系统，其特征在于，所述特征融合网络中包括To ken选择模块。权　利　要　求　书 2/2 页 3 CN 115205979 A 3

专利 一种基于多模态融合的动作识别方法及系统

专利一种基于多模态融合的动作识别方法及系统