全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210815445.X (22)申请日 2022.07.08 (71)申请人 北方工业大 学 地址 100144 北京市石景山区晋元庄5号 (72)发明人 叶青 梁政豪 张永梅  (74)专利代理 机构 北京科龙寰宇知识产权代理 有限责任公司 1 1139 专利代理师 孙皓晨 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 20/40(2022.01) (54)发明名称 基于时空建模的视频行为识别方法与系统 (57)摘要 本发明公开一种基于时空建模的视频行为 识别方法及系统, 其中方法包 括: S1: 将完整的视 频输入视频图像采样模块, 采用分段随机视频帧 采样方法进行视频图像采样, 得到多个采样帧图 像; S2: 构建基于三元组损失函数的空间注意力 模块, 并对多个采样帧图像的动作部分进行特征 提取, 得到空间特征信息; S3: 构建时间金字塔模 块, 并对得到的空间特征信息以不同帧速率进行 采样, 得到多组特征信息; S4: 采用早期融合的方 式对得到的多组特征信息进行融合, 具体为采用 add操作将多组特征的特征向量进行拼接; S5: 将 融合后的特征信息输入Softmax分类器进行视频 行为分类, 为每个视频行为生成一个概率标签, 并输出识别结果。 权利要求书3页 说明书9页 附图4页 CN 115240271 A 2022.10.25 CN 115240271 A 1.一种基于时空建模的视频 行为识别方法, 其特 征在于, 包括: 步骤S1: 将完整的视频输入视频图像采样模块, 采用分段随机视频帧采样方法进行视 频图像采样, 得到多个采样帧图像; 步骤S2: 构建基于三元组损失函数的空间注意力模块, 并对多个采样帧图像的动作部 分进行特征提取, 得到空间特 征信息; 步骤S3: 构建时间金字塔模块, 并对得到的空间特征信 息以不同帧速率进行采样, 得到 多组特征信息; 步骤S4: 采用早期融合的方式对得到的多组特征信息进行融合, 具体为采用add操作将 多组特征的特征向量进行拼接; 步骤S5: 将融合后的特征信息输入Softmax分类器进行视频行为分类, 为每个视频行为 生成一个概 率标签, 并输出识别结果。 2.根据权利要求1所述的基于时空建模的视频行为识别方法, 其特征在于, 步骤S1的具 体过程包括: 步骤S11: 将输入的完整的视频序列V均匀分为U个片段, 分别为S1、 S2…SU, 其中U为常 数; 步骤S12: 分别对每 个片段进行随机采样得到采样帧图像T1、 T2…TU。 3.根据权利要求1所述的基于时空建模的视频行为识别方法, 其特征在于, 步骤S2中构 建基于三元组损失函数的空间注意力模块具体为: 步骤S201: 在骨干网络中对图像进行空间特征提取的空间模块中插入三元组损失函 数, 用以选择性收集空间域的特 征信息, 所述骨干网络为ResNet网络; 步骤S202: 将多个特征图送入插入三元组损失函数的空间模块进行挑选, 选出合适的 锚示例、 正示例与负示例, 其中锚示例为用正示例的每个元素减去正示例各元素 的平均值 所得到的; 步骤S203: 训练空间模块不断学习, 以使锚示例的特征提取更接近正示例, 即损失函数 最小, 所述损失函数为: 其 中 , 表 示 正 示 例 与 锚 示 例 之 间 的 欧 式 距 离 度 量 , 表示负示例与锚示例之间的欧式距离度量, α 为两个欧式距离度量的 最小间隔。 4.根据权利要求3所述的基于时空建模的视频行为识别方法, 其特征在于, 步骤S2中对 多个采样帧图像的动作部分进行 特征提取, 得到空间特 征信息的具体过程 为: 步骤S211: 对多个采样帧图像进行空间特征提取得到多帧特征图, 每帧特征图的维度 为C×H×W, 其中, C为 通道数, H和W分别为特 征图的高和宽; 步骤S212: 对任一特征 图A的特征进行重塑, 将特征维度转换为C ×N, 其中N为特征图A 的像素数; 步骤S213: 使用Top ‑K排序函数提取出上K个注意图Sp和下K个注意图Sn, 其中, Sp为影响权 利 要 求 书 1/3 页 2 CN 115240271 A 2行为分类的特 征, Sn为与行为识别无关的特 征; 步骤S214: 对Sp进行重塑转换为K ×H×W维度后, 进行平均池化; 步骤S215: 使用Sigmo id函数进行归一 化, 得到强调动作部分的空间注意力权 重; 步骤S216: 将得到的注意力权重与特征图A进行逐元素相乘, 得到空间注意力 模块的输 出A*为: A*=σ(Avgp(Resh(SP)))*A      (2) 其中, A*为强调动作部分的特征图, Resh为维度转换, Avgp为平均池化, σ 为Sigmoid函 数。 5.根据权利要求1所述的基于时空建模的视频行为识别方法, 其特征在于, 步骤S3具体 为: 步骤S301: 将空间注意力模 块提取的同一层的多张特征图作为该层特征并记为Fbase, 其 特征维度为C ×T×H×W, 其中C为 通道数, T为帧数, H和W分别为特 征图的高和宽; 步骤S302: 在维度T上选 定m个不同的采样比例, 分别为: {r1, r2,…, rm; r1<r2<…<rm}    (3); 步骤S303: 根据m个不同的采样比例分别对该层特征Fbase进行采样, 得到多组特征图, 分 别为: 其中, 多组特 征图对应的维度分别为: 6.根据权利要求1所述的基于时空建模的视频行为识别方法, 其特征在于, 步骤S5 中为 每个视频行为生成一个概 率标签的具体过程 为: 步骤S51: 设待分类的特征集{(z(1), g(1)), ..., (z(n), g(n))}有k个分类, g(i)∈{1, 2, 3, ..., k}, 则对应任一输入z的每 个类的概率为p(g=j|z), j=(1, 2, . .., k); 步骤S52: 通过函数hθ(z)输出一个k维的向量表示对应k个分类估计的概 率值为: 其中, θ1, θ2, ..., 为Softmax的模型参数, T为 转置符号。 7.一种基于时空建模的视频行为识别系统, 用于执行权利要求1~6任一项的方法, 其 特征在于, 包括: 一视频图像采样模块, 用于对输入视频进行分段随机 视频帧采样; 一空间注意力模块, 连接所述视频图像采样模块, 所述空间注意力模块为基于三元组 损失函数的空间注意力模块, 用于提取空间特 征信息; 一时间金字塔模块, 连接所述空间注意力模块, 通过在特征维度以不同的帧速率对空 间特征信息进行采样输出多组特 征信息;权 利 要 求 书 2/3 页 3 CN 115240271 A 3

.PDF文档 专利 基于时空建模的视频行为识别方法与系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于时空建模的视频行为识别方法与系统 第 1 页 专利 基于时空建模的视频行为识别方法与系统 第 2 页 专利 基于时空建模的视频行为识别方法与系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:30:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。