专利基于时空建模的视频行为识别方法与系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210815445.X (22)申请日 2022.07.08 (71)申请人北方工业大学地址 100144 北京市石景山区晋元庄5号 (72)发明人叶青　梁政豪　张永梅　 (74)专利代理机构北京科龙寰宇知识产权代理有限责任公司 1 1139 专利代理师孙皓晨 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 20/40(2022.01) (54)发明名称基于时空建模的视频行为识别方法与系统 (57)摘要本发明公开一种基于时空建模的视频行为识别方法及系统，其中方法包括： S1：将完整的视频输入视频图像采样模块，采用分段随机视频帧采样方法进行视频图像采样，得到多个采样帧图像； S2：构建基于三元组损失函数的空间注意力模块，并对多个采样帧图像的动作部分进行特征提取，得到空间特征信息； S3：构建时间金字塔模块，并对得到的空间特征信息以不同帧速率进行采样，得到多组特征信息； S4：采用早期融合的方式对得到的多组特征信息进行融合，具体为采用 add操作将多组特征的特征向量进行拼接； S5：将融合后的特征信息输入Softmax分类器进行视频行为分类，为每个视频行为生成一个概率标签，并输出识别结果。权利要求书3页说明书9页附图4页 CN 115240271 A 2022.10.25 CN 115240271 A 1.一种基于时空建模的视频行为识别方法，其特征在于，包括：步骤S1：将完整的视频输入视频图像采样模块，采用分段随机视频帧采样方法进行视频图像采样，得到多个采样帧图像；步骤S2：构建基于三元组损失函数的空间注意力模块，并对多个采样帧图像的动作部分进行特征提取，得到空间特征信息；步骤S3：构建时间金字塔模块，并对得到的空间特征信息以不同帧速率进行采样，得到多组特征信息；步骤S4：采用早期融合的方式对得到的多组特征信息进行融合，具体为采用add操作将多组特征的特征向量进行拼接；步骤S5：将融合后的特征信息输入Softmax分类器进行视频行为分类，为每个视频行为生成一个概率标签，并输出识别结果。 2.根据权利要求1所述的基于时空建模的视频行为识别方法，其特征在于，步骤S1的具体过程包括：步骤S11：将输入的完整的视频序列V均匀分为U个片段，分别为S1、 S2…SU，其中U为常数；步骤S12：分别对每个片段进行随机采样得到采样帧图像T1、 T2…TU。 3.根据权利要求1所述的基于时空建模的视频行为识别方法，其特征在于，步骤S2中构建基于三元组损失函数的空间注意力模块具体为：步骤S201：在骨干网络中对图像进行空间特征提取的空间模块中插入三元组损失函数，用以选择性收集空间域的特征信息，所述骨干网络为ResNet网络；步骤S202：将多个特征图送入插入三元组损失函数的空间模块进行挑选，选出合适的锚示例、正示例与负示例，其中锚示例为用正示例的每个元素减去正示例各元素的平均值所得到的；步骤S203：训练空间模块不断学习，以使锚示例的特征提取更接近正示例，即损失函数最小，所述损失函数为：其中，表示正示例与锚示例之间的欧式距离度量，表示负示例与锚示例之间的欧式距离度量， α 为两个欧式距离度量的最小间隔。 4.根据权利要求3所述的基于时空建模的视频行为识别方法，其特征在于，步骤S2中对多个采样帧图像的动作部分进行特征提取，得到空间特征信息的具体过程为：步骤S211：对多个采样帧图像进行空间特征提取得到多帧特征图，每帧特征图的维度为C×H×W，其中， C为通道数， H和W分别为特征图的高和宽；步骤S212：对任一特征图A的特征进行重塑，将特征维度转换为C ×N，其中N为特征图A 的像素数；步骤S213：使用Top ‑K排序函数提取出上K个注意图Sp和下K个注意图Sn，其中， Sp为影响权　利　要　求　书 1/3 页 2 CN 115240271 A 2行为分类的特征， Sn为与行为识别无关的特征；步骤S214：对Sp进行重塑转换为K ×H×W维度后，进行平均池化；步骤S215：使用Sigmo id函数进行归一化，得到强调动作部分的空间注意力权重；步骤S216：将得到的注意力权重与特征图A进行逐元素相乘，得到空间注意力模块的输出A*为： A*＝σ(Avgp(Resh(SP)))*A (2) 其中， A*为强调动作部分的特征图， Resh为维度转换， Avgp为平均池化， σ 为Sigmoid函数。 5.根据权利要求1所述的基于时空建模的视频行为识别方法，其特征在于，步骤S3具体为：步骤S301：将空间注意力模块提取的同一层的多张特征图作为该层特征并记为Fbase，其特征维度为C ×T×H×W，其中C为通道数， T为帧数， H和W分别为特征图的高和宽；步骤S302：在维度T上选定m个不同的采样比例，分别为： {r1， r2，…， rm； r1＜r2＜…＜rm} (3)；步骤S303：根据m个不同的采样比例分别对该层特征Fbase进行采样，得到多组特征图，分别为：其中，多组特征图对应的维度分别为： 6.根据权利要求1所述的基于时空建模的视频行为识别方法，其特征在于，步骤S5 中为每个视频行为生成一个概率标签的具体过程为：步骤S51：设待分类的特征集{(z(1)， g(1))， ...， (z(n)， g(n))}有k个分类， g(i)∈{1， 2， 3， ...， k}，则对应任一输入z的每个类的概率为p(g＝j|z)， j＝(1， 2， . ..， k)；步骤S52：通过函数hθ(z)输出一个k维的向量表示对应k个分类估计的概率值为：其中， θ1， θ2， ...，为Softmax的模型参数， T为转置符号。 7.一种基于时空建模的视频行为识别系统，用于执行权利要求1～6任一项的方法，其特征在于，包括：一视频图像采样模块，用于对输入视频进行分段随机视频帧采样；一空间注意力模块，连接所述视频图像采样模块，所述空间注意力模块为基于三元组损失函数的空间注意力模块，用于提取空间特征信息；一时间金字塔模块，连接所述空间注意力模块，通过在特征维度以不同的帧速率对空间特征信息进行采样输出多组特征信息；权　利　要　求　书 2/3 页 3 CN 115240271 A 3

专利 基于时空建模的视频行为识别方法与系统

专利基于时空建模的视频行为识别方法与系统