(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210960093.7
(22)申请日 2022.08.11
(71)申请人 南京理工大 学
地址 210094 江苏省南京市玄武区孝陵卫
200号南京理工大 学
(72)发明人 李泽超 潘礼勇
(74)专利代理 机构 北京高沃 律师事务所 1 1569
专利代理师 韩雪梅
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 10/40(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 40/70(2022.01)
G06K 9/62(2022.01)G06V 10/764(2022.01)
G06N 3/04(2006.01)
G10L 25/18(2013.01)
G10L 25/45(2013.01)
(54)发明名称
一种基于多模态融合的动作识别方法及系
统
(57)摘要
本发明公开了一种基于多模态融合的动作
识别方法及系统。 该方法包括: 从动作视频中提
取视觉模态数据和听觉模态数据; 对视觉模态数
据和听觉模态数据进行预处理, 得到视觉模态浅
层Token序列和听觉模态 浅层Token序列; 将视觉
模态浅层Token序列输入至视觉特征提取网络
中, 得到视觉模态深度T oken序列; 将听觉模态 浅
层Token序列输入至听觉特征提取网络中, 得到
听觉模态深度T oken序列; 将视觉模态深度T oken
序列和听觉模态深度Token序列合并, 得到合并
后的Token序列; 将合并后的Token序列输入至 特
征融合网络, 得到融合交互后的Token序列; 将融
合交互后的Token序列输入至全连接层, 得到动
作分类结果。 本发明相比于 现有的方法识别准确
率更高, 而 且计算消耗更低。
权利要求书2页 说明书7页 附图2页
CN 115205979 A
2022.10.18
CN 115205979 A
1.一种基于多模态融合的动作识别方法, 其特 征在于, 包括:
从动作视频中提取视 觉模态数据和听觉模态数据;
对所述视觉模态数据和所述听觉模态数据进行预处理, 得到视觉模态浅层Token序列
和听觉模态浅层To ken序列;
将所述视觉模态浅层Token序列输入至视觉特征提取网络中, 得到视觉模态深度Token
序列;
将所述听觉模态浅层Token序列输入至听觉特征提取网络中, 得到听觉模态深度Token
序列;
将所述视觉模态深度Token序列和所述听觉模态深度Token序列合并, 得到合并后的
Token序列;
将所述合并后的To ken序列输入至特 征融合网络, 得到融合交 互后的To ken序列;
将所述融合交 互后的To ken序列输入至全连接层, 得到动作分类结果。
2.根据权利要求1所述的基于多模态融合的动作识别方法, 其特征在于, 从动作视频中
提取视觉模态数据和听觉模态数据, 具体包括:
将所述动作视频划分为多个部分;
从每个部分中随机提取1帧RGB图像, 得到 视觉模态数据;
从每个部分中提取设定 长度的音频;
从所述音频中提取设定频率维度的频谱图, 得到听觉模态数据。
3.根据权利要求1所述的基于多模态融合的动作识别方法, 其特征在于, 对所述视觉模
态数据和所述听觉模态数据进行 预处理, 具体包括:
将所述视觉模态数据和所述 听觉模态数据均划分为多个图像块, 得到视觉模态图像块
和听觉模态图像块;
将每个视觉模态图像块和每个听觉模态图像块拉平成为一维向量, 得到视觉模态
Token和听觉模态To ken;
对所述视觉模态Token和所述听觉模态Token进行一次线性变化, 得到视觉模态初始
Token序列和听觉模态初始To ken序列;
将可学习的变量作为位置信息分别添加到所述视觉模态初始Token序列和所述听觉模
态初始To ken序列中, 得到 视觉模态浅层To ken序列和听觉模态浅层To ken序列。
4.根据权利要求1所述的基于多模态融合的动作识别方法, 其特征在于, 在将所述视觉
模态浅层 Token序列输入至视觉特征提取网络中, 以及将所述听觉模态浅层Token序列输入
至听觉特 征提取网络中之前, 还 包括;
分别在所述视觉模态浅层Token序列以及所述听觉模态浅层Token序列前设置一个分
类向量, 并将所述分类向量进行移动。
5.根据权利要求4所述的基于多模态融合的动作识别方法, 其特征在于, 将所述合并后
的Token序列输入至特 征融合网络, 得到融合交 互后的To ken序列, 具体包括:
将所述视觉模态深度Token序列中的分类向量进行合并以及将所述视觉模态深度
Token序列中分类向量以外的部分进行合并, 得到合并后的视 觉模态深度To ken序列;
将所述听觉模态深度Token序列中的分类向量进行合并以及将所述听觉模态深度
Token序列中分类向量以外的部分进行合并, 得到合并后的听觉模态深度To ken序列;权 利 要 求 书 1/2 页
2
CN 115205979 A
2将所述合并后的视觉模态深度Token序列以及 所述合并后的听觉模态深度Token序列,
进行合并得到合并后的To ken序列。
6.根据权利要求1所述的基于多模态融合的动作识别方法, 其特征在于, 所述特征融合
网络中包括To ken选择模块。
7.一种基于多模态融合的动作识别系统, 其特 征在于, 包括:
模态数据提取模块, 用于从动作视频中提取视 觉模态数据和听觉模态数据;
预处理模块, 用于对所述视觉模态数据和所述听觉模态数据进行预处理, 得到视觉模
态浅层To ken序列和听觉模态浅层To ken序列;
第一输入模块, 用于将所述视觉模态浅层Token序列输入至视觉特征提取网络中, 得到
视觉模态深度To ken序列;
第二输入模块, 用于将所述听觉模态浅层Token序列输入至听觉特征提取网络中, 得到
听觉模态深度To ken序列;
合并模块, 用于将所述视觉模态深度Token序列和所述听觉模态深度Token序列合并,
得到合并后的To ken序列;
第三输入模块, 用于将所述合并后的Token序列输入至特征融合网络, 得到融合交互后
的Token序列;
第四输入模块, 用于将所述融合交互后的Token序列输入至全连接层, 得到动作分类结
果。
8.根据权利要求7所述的基于多模态融合的动作识别系统, 其特征在于, 模态数据提取
模块, 具体包括:
第一划分单 元, 用于将所述动作视频划分为多个部分;
第一提取单元, 用于从每 个部分中随机提取1帧RGB图像, 得到 视觉模态数据;
第二提取单元, 用于从每 个部分中提取设定 长度的音频;
第三提取单元, 用于从所述音频中提取设定频率维度的频谱图, 得到听觉模态数据。
9.根据权利要求7所述的基于多模态融合的动作识别系统, 其特征在于, 预处理模块,
具体包括:
第二划分单元, 用于将所述视觉模态数据和所述听觉模态数据均划分为多个图像块,
得到视觉模态图像块和听觉模态图像块;
拉平单元, 用于将每个视觉模态图像块和每个听觉模态图像块拉平成为一维向量, 得
到视觉模态To ken和听觉模态To ken;
线性变化单元, 用于对所述视觉模态Token和所述听觉模态Token进行一次线性变化,
得到视觉模态初始To ken序列和听觉模态初始To ken序列;
添加单元, 用于将可学习的变量作为位置信息分别添加到所述视觉模态初始Token序
列和所述听觉模态初始Token序列中, 得到视觉模态浅层Token序列和听觉模态浅层Token
序列。
10.根据权利要求7所述的基于多模态融合的动作识别系统, 其特征在于, 所述特征融
合网络中包括To ken选择模块。权 利 要 求 书 2/2 页
3
CN 115205979 A
3
专利 一种基于多模态融合的动作识别方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:10:38上传分享