(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210703550.4
(22)申请日 2022.06.21
(71)申请人 南京信息 工程大学
地址 210044 江苏省南京市江北新区宁六
路219号
(72)发明人 胡凯 金俊岚 翁成航 沈超文
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 柏尚春
(51)Int.Cl.
G06T 17/00(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/82(2022.01)
G06V 40/20(2022.01)
(54)发明名称
基于动态局部-全局图卷积神经网络的动作
识别方法
(57)摘要
本发明公开了一种基于动态局部 ‑全局图卷
积神经网络的动作识别方法, 利用注 意力机制为
三个分区策略下的邻接矩阵动态的分配权重, 并
将这三个邻接矩阵加权得到可学习的变换矩阵,
不同的权重参数编码了在空间维度上不同的特
征, 增加了在骨骼图中特征建模的表达能力; 通
过使用改进的Tran sformer自我注意力来融合局
部和全局信息; 引入通道注意力, 使模型更加关
注重要的通道特征, 进一步提高了模型的性能,
使分类预测结果更加准确。 本发 明增加了特征建
模的表达能力, 并通过通道注 意力模块有效地增
强对更重要的特征信息提取能力, 从而大幅提高
了动作识别的准确率。
权利要求书3页 说明书8页 附图6页
CN 114998525 A
2022.09.02
CN 114998525 A
1.一种基于动态局部 ‑全局图卷积神经网络的动作识别方法, 其特征在于, 包括以下步
骤:
(1)使用姿态估计算法将视频数据先处理成人体骨骼结构数据, 原始的骨架序列是用
每帧中所有人体关节点的三维坐标表示;
(2)从步骤(1)获取骨骼信息, 节点信息和邻接矩阵A; 关节信息是由每个关节点的空间
坐标(x, y, z)组成的特征向量; 由于每个骨骼绑定了两个关节, 因此定义靠近骨骼重心的关
节为源关节, 远离重心的关节为 目标关节; 每个骨骼都表示从其源关节指向其目标关节的
向量, 该向量包含长度信息和方向信息; 因为中心关节没有分配给任何骨骼, 使得关节的数
量比骨骼的数量多一个, 因此向中心关节添加一个值为0的空骨骼, 这样骨骼能够和关节使
用相同的网络; 邻接矩阵A是描述点与边有无联系的一个矩阵, 其数值固定; 将本步骤的信
息用于步骤(3);
(3)搭建出 带有通道 注意力的动态局部 ‑全局图卷积神经网络的基本 框架;
(4)搭建带有通道注意力的双流动态局部 ‑全局图卷积神经网络模型, 并训练看其效
果: 将步骤(2)中骨骼信息和节点信息作为时间特征和空间特征输入到步骤(3)所搭建的带
有通道注意力的动态局 部‑全局图卷积神经网络中, 经过softmax分类器得到预测分数, 然
后再将2个分数相加, 得到最终的分类结果; 最终的分类得分为S, 其表达式如公式(9)所示:
S=W1S1+W2S2 (9)
其中S1, S2分别表示2个子网络的预测得分, 范围在 0‑1之间; W1和W2表示它们的权重, W1+
W2=1, 根据结果调整其数值大小; 最终的分类得分S结果 也在0‑1之间;
(5)训练本发明的模型: 首先对数据进行预处理, 将公开数据集NTU ‑RGB+D内的数据结
构进行重新组合, 将步骤(2)的数据输入到步骤(3)中; 采用Nester ov动量为0.9的随机梯度
下降法作为优化策略; 其批量为64, 权重衰减为0.0001, 选择交叉熵作为损失函数来反向传
播梯度, 训练次数为64次; 得到最终准确的分类结果得分S。
2.根据权利要求1所述的一种基于动态局部 ‑全局图卷积神经网络的动作识别方法, 其
特征在于, 所述 步骤(1)具体为:
(1.1)对于一个含有N个节点和T帧的骨架序列, 在骨架序列上构建一个无向图G=(V,
E); 其中V={vti|t=1, 2, …, T, i=1, 2, …, N}代表节点集合, t表示帧数, i表示节点, 每个节
点的特征信息由空间坐标(x, y, z)组成的特征向量表 示, E是Es和Et组成的边集合, Es表示在
相同帧上的关节自然连接, 是帧内连接; Et表示同一个关节点在相邻帧上的连接, 是帧间连
接;
(1.2)用NTU+RCB+D数据 集将人体定义为25个关键关节点的三维坐标, 在 得到时空图的
同时, 还得到每 个关节点的坐标及其置信度, 将这些 数据存储到文本文件中供后续使用。
3.根据权利要求1所述的一种基于动态局部 ‑全局图卷积神经网络的动作识别方法, 其
特征在于, 所述 步骤(3)具体为:
(3.1)搭建动态局部 ‑全局图卷积层: 以端到端 的学习方式, 将网络地拓扑结构与网络
地其他参数一起优化, 骨架图对于不同的层和样本是唯一的, 由此增加模型的灵活性; 如公
式(1)所示:
权 利 要 求 书 1/3 页
2
CN 114998525 A
2其中fDynamic GCN(·)表示动态局部 ‑全局图卷积输出特征图, fin(·)表示输入特征图,
表示动态邻接矩阵, B表示全局自注意力矩阵, C表示局部自注意力矩阵; ||表示concat操
作, S(·)将动态邻接矩阵
重新排列和重塑; WV1和WV2为1×1卷积核权重; 上述的3种分区
策略为: 1、 顶 点本身; 2、 向心子集, 它包含接近重心的相 邻顶点; 3、 离心子集, 它包含离重心
较远的相邻顶点;
是维度为B ×N×N的动态邻接矩阵; 它从输入特征图中动 态学习到3种分区策略中两
个顶点的之间的连接强度, 增 加了图结构的灵活性和个性 化; 具体来说, 假设输入的特 征图
首先分别使用自适应平均池化和自适应最大池化并行操作将输入特征图
的维度转化为B ×Cin; 接着经过一个全连接层压缩其通道数为Cin/4, 再通过一个激活函数
和全连接层得到一个fd∈RB×3的特征图, 并经过一个归一化函数softmax进行归一化为0 ‑1,
作为权重动态的与邻接矩阵匹配; 之后将其与物理邻接矩阵(A)3 ×N×N进行矩阵相乘, 得
到B×N×N的动态邻接矩阵Ad; 通过上述操作, 为不同的骨骼图动态的分配3个权重, 用以自
适应的融合3种分 区的邻接矩阵; 此外为了联系多级语义特征, 将Ad和上一层的动态邻接矩
阵
相加再平均得到最终的动态邻接矩阵
根据公式3可以计算出
fd=softmax(φ( θ(fin))) (2)
其中, φ(·)表示线性变化, θ( ·)执行了自适应池化和压缩操作; A代表了3种分区策
略下的3个物理邻接矩阵, 它与特 征图fd以加权求和的方式进行融合;
B是全局自注意力矩阵, 它能帮助模型更好地针对每个样本进行动态建模; 具体来说,
给定一个输入特征图
首先分别使用2个二维卷积层将fin映射并重新排列
重塑为
和
的矩阵, 然后相乘经过一个归一化函数得到B ×N×N的相似
矩阵B:
B=softmax( (finWQ1)(finWK1)T) (4)
其中WQ1、 WK1是2个卷积层的卷积核权 重;
C是局部自注意力矩阵; 本发明提出了两种将人体骨骼划分为多个身体部位的组合方
案, 来提取其不同的局 部特征: (1)人体在做一些动作时, 躯干到四肢幅度是不同的, 因此,
将骨骼图分为三个部 分; (2)将人体 分为五个部分, 包括两臂, 两腿和躯干; 有 些动作是由身
体的几个部位完成的; 将N个骨骼节点按照上述两种方案 分成α 块, 关注每块中的N/α 个节 点
之间的空间关系, 捕捉更加细微的联系; 给定一个输入特征图
使用1×1卷
积将其重塑为
和
的矩阵; T维度被移到通道维度内, 沿时间维
度有效地实现参数共享, 并在每帧上分别进行计算:
C=softmax( (finWQ2)(finWK2)T) (5)
其中WQ2, WK2是2个卷积层的卷积核权 重;
(3.2)搭建动态局部 ‑全局图卷积模块: 经过动态局部 ‑全局图卷积层之后是一个批处
理标准化层, 一个激活函数层和一个附加的随机丢弃处理层, Dr opout率设置为0.5, 将 输出
的特征图用于步骤(3.3);
(3.3)搭建时间卷积模块: 将步骤(3.2)的输出通过一个标准的2D卷积处理时间维度上权 利 要 求 书 2/3 页
3
CN 114998525 A
3
专利 基于动态局部-全局图卷积神经网络的动作识别方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 05:40:27上传分享