(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211031412.2
(22)申请日 2022.08.26
(71)申请人 浙江工商大 学
地址 310018 浙江省杭州市钱塘区白杨街
道学正街18号
(72)发明人 王世阔 徐光伟
(74)专利代理 机构 杭州浙科专利事务所(普通
合伙) 33213
专利代理师 陈洁
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 40/20(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06N 3/04(2006.01)
(54)发明名称
一种光照不足下的视频动作识别网络结构
及方法
(57)摘要
本发明属于计算机视觉中的视频动作识别
领域, 公开了一种光照不足下的视频动作识别网
络结构及方法, 包括数据预处理模块、 多流特征
提取模块、 特征交互模块、 分数融合模块; 本发明
的数据预处理模块引入了GIC修正技术, 从而增
加了光照不足的视频帧的清晰度。 使用经过GIC
技术修正过的视频帧可以更好的表现空间和光
流等特征信息, 从而提高光照不足的视频的动作
识别的准确率。 本发明将Spatial Stream和
Temporal Stream两 条流中的特征信息分别送入
GIC Stream中进行乘法交互, 改进了传统双流网
络只在最后才进行双流的交互 融合的特点, 从而
增加了网络整体的交互能力, 提升了最终识别的
准确率。
权利要求书2页 说明书4页 附图3页
CN 115410124 A
2022.11.29
CN 115410124 A
1.一种光照 不足下的视频动作识别网络结构, 其特征在于, 包括数据预处理模块、 多流
特征提取模块、 特 征交互模块、 分数融合模块;
所述数据预处理模块用于在输入的光照不足的视频中提取并采样经过伽马图像校正
技术修正的GIC帧, 同时对GIC修正的视频帧提取并采样光流 帧, 对原始输入视频提取并采
样RGB帧;
所述多流特征提取模块包括GIC Stream、 Temporal Stream和Spatial Stream, 所述
GIC Stream用于提取采样的GIC帧的特征信息; 所述Temporal Stream用于提取采样的光流
帧的特征信息; 所述Spatial Stream用于提取采样的RGB帧的特 征信息;
所述特征交互模块用于将Spatial Stream和Temporal Stream的特征信息分别送入
GIC Stream中进行乘法交 互;
所述分数融合模块用于对Spatial Stream、 Temporal Stream和GIC Stream提取的特
征分数进行融合, 以得到 输入视频的最终动作识别结果。
2.一种利用如权利要求1所述的光照 不足下的视频动作识别网络结构进行视频动作识
别方法, 其特 征在于, 包括如下步骤:
步骤1、 将待识别的光照不足的原 始视频送入数据预处 理模块;
步骤2、 通过伽马图像校正 技术对原始视频进行Gam ma修正, 并对其采样K帧GIC帧;
步骤3、 对于原 始输入视频采样K帧RGB帧;
步骤4、 对经 过GIC修正的原始视频帧提取L帧水平光 流帧和L帧竖直 光流帧;
步骤5、 将步骤2中得到的K帧GIC帧送入GIC Stream中以提取特征; 将步骤3中得到的K
帧RGB帧送入Spatial Stream中以提取特征; 将步骤4中得到的2L帧光流帧送入Temporal
Stream中以提取特征; Spati al Stream、 Temporal Stream和GIC Stream都采用ResNets作
为特征提取网络;
步骤6、 将Spatial Stream中的特征和Temporal Stream中的特征分别送入GIC Stream
中进行乘法交 互;
步骤7、 将上述步骤中得到的三个网络的预测得分进行平均, 以得到输入视频的最终预
测类别。
3.根据权利要求2所述的视频动作识别方法, 其特征在于, 所述步骤2的GIC修正的计算
公式如下:
其中p是像素的值, 其范围是[0,255], pmax是输入像素的最大值, γ表示亮度增加的程
度, 当γ>1时, 随着γ的增大, 图像的灰度值 也会增大。
4.根据权利要求2所述的视频动作识别方法, 其特征在于, 所述步骤4的L取10, 光流提
取方法使用的是TV ‑L1。
5.根据权利要求2所述的视频动作识别方法, 其特征在于, 所述步骤5将步骤2、 3和4得
到的采样帧, 分别进行数据增强并重新调整大小; 将K帧数据增强处理后的GIC帧送入GIC
Stream中以提取特征; 将K帧数据增强处理后的RGB帧送入Spatial Stream中以提取特征;
将2L帧数据增强处 理后的光 流帧送入Temporal Stream中以提取 特征。权 利 要 求 书 1/2 页
2
CN 115410124 A
26.根据权利要求5所述的视频动作识别方法, 其特征在于, 所述数据增强的方法包括:
在左上、 右下、 右上、 左下和中心进 行随机裁剪; 随机水平翻转, 最后所有帧的高和宽都重新
调整为224*224大小。
7.根据权利要求5所述的视频动作识别方法, 其特征在于, 所述步骤5的2L帧光流帧的
叠加方式为 一帧水平光 流帧叠加一帧竖直 光流帧。
8.根据权利要求5所述的视频动作识别方法, 其特征在于, 所述步骤5的Spatial
Stream、 Temporal Stream和GIC Stream都采用ResNet34作为特 征提取网络 。
9.根据权利要求8所述的视频动作识别方法, 其特征在于, 所述步骤5最终输入
ResNet34的数据为B*C*D*H*W, 其中B为batch size大小, C为通道数量, D为采样帧数, H和W
分别代表采样帧的高和宽; Temporal Stream的ResNet34的co nv1层的通道数为2。
10.根据权利要求2所述的视频动作识别方法, 其特征在于, 所述步骤6包括如下具体步
骤:
交互的位置为ResNet34每 个Stage的第二个残差单 元之间;
假设给定Spatial Stream的第l层的输入
给定Temporal Stream的第l层的输入
给定GIC Stream的第l层的输入
得到GIC Stream第l层网络的输出:
其中⊙表示元素级的相乘,
表示GIC Stream第l层的输出,
表示非线性的 映射
函数, f(·)表示非线性的激活函数,
为GIC stream中第l层残差单 元中的卷积核。权 利 要 求 书 2/2 页
3
CN 115410124 A
3
专利 一种光照不足下的视频动作识别网络结构及方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:09:43上传分享