专利 基于动态局部-全局图卷积神经网络的动作识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210703550.4 (22)申请日 2022.06.21 (71)申请人南京信息工程大学地址 210044 江苏省南京市江北新区宁六路219号 (72)发明人胡凯　金俊岚　翁成航　沈超文　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师柏尚春 (51)Int.Cl. G06T 17/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/82(2022.01) G06V 40/20(2022.01) (54)发明名称基于动态局部-全局图卷积神经网络的动作识别方法 (57)摘要本发明公开了一种基于动态局部 ‑全局图卷积神经网络的动作识别方法，利用注意力机制为三个分区策略下的邻接矩阵动态的分配权重，并将这三个邻接矩阵加权得到可学习的变换矩阵，不同的权重参数编码了在空间维度上不同的特征，增加了在骨骼图中特征建模的表达能力；通过使用改进的Tran sformer自我注意力来融合局部和全局信息；引入通道注意力，使模型更加关注重要的通道特征，进一步提高了模型的性能，使分类预测结果更加准确。本发明增加了特征建模的表达能力，并通过通道注意力模块有效地增强对更重要的特征信息提取能力，从而大幅提高了动作识别的准确率。权利要求书3页说明书8页附图6页 CN 114998525 A 2022.09.02 CN 114998525 A 1.一种基于动态局部 ‑全局图卷积神经网络的动作识别方法，其特征在于，包括以下步骤： (1)使用姿态估计算法将视频数据先处理成人体骨骼结构数据，原始的骨架序列是用每帧中所有人体关节点的三维坐标表示； (2)从步骤(1)获取骨骼信息，节点信息和邻接矩阵A；关节信息是由每个关节点的空间坐标(x， y， z)组成的特征向量；由于每个骨骼绑定了两个关节，因此定义靠近骨骼重心的关节为源关节，远离重心的关节为目标关节；每个骨骼都表示从其源关节指向其目标关节的向量，该向量包含长度信息和方向信息；因为中心关节没有分配给任何骨骼，使得关节的数量比骨骼的数量多一个，因此向中心关节添加一个值为0的空骨骼，这样骨骼能够和关节使用相同的网络；邻接矩阵A是描述点与边有无联系的一个矩阵，其数值固定；将本步骤的信息用于步骤(3)； (3)搭建出带有通道注意力的动态局部 ‑全局图卷积神经网络的基本框架； (4)搭建带有通道注意力的双流动态局部 ‑全局图卷积神经网络模型，并训练看其效果：将步骤(2)中骨骼信息和节点信息作为时间特征和空间特征输入到步骤(3)所搭建的带有通道注意力的动态局部‑全局图卷积神经网络中，经过softmax分类器得到预测分数，然后再将2个分数相加，得到最终的分类结果；最终的分类得分为S，其表达式如公式(9)所示： S＝W1S1+W2S2 (9) 其中S1， S2分别表示2个子网络的预测得分，范围在 0‑1之间； W1和W2表示它们的权重， W1+ W2＝1，根据结果调整其数值大小；最终的分类得分S结果也在0‑1之间； (5)训练本发明的模型：首先对数据进行预处理，将公开数据集NTU ‑RGB+D内的数据结构进行重新组合，将步骤(2)的数据输入到步骤(3)中；采用Nester ov动量为0.9的随机梯度下降法作为优化策略；其批量为64，权重衰减为0.0001，选择交叉熵作为损失函数来反向传播梯度，训练次数为64次；得到最终准确的分类结果得分S。 2.根据权利要求1所述的一种基于动态局部 ‑全局图卷积神经网络的动作识别方法，其特征在于，所述步骤(1)具体为： (1.1)对于一个含有N个节点和T帧的骨架序列，在骨架序列上构建一个无向图G＝(V， E)；其中V＝{vti|t＝1， 2， …， T， i＝1， 2， …， N}代表节点集合， t表示帧数， i表示节点，每个节点的特征信息由空间坐标(x， y， z)组成的特征向量表示， E是Es和Et组成的边集合， Es表示在相同帧上的关节自然连接，是帧内连接； Et表示同一个关节点在相邻帧上的连接，是帧间连接； (1.2)用NTU+RCB+D数据集将人体定义为25个关键关节点的三维坐标，在得到时空图的同时，还得到每个关节点的坐标及其置信度，将这些数据存储到文本文件中供后续使用。 3.根据权利要求1所述的一种基于动态局部 ‑全局图卷积神经网络的动作识别方法，其特征在于，所述步骤(3)具体为： (3.1)搭建动态局部 ‑全局图卷积层：以端到端的学习方式，将网络地拓扑结构与网络地其他参数一起优化，骨架图对于不同的层和样本是唯一的，由此增加模型的灵活性；如公式(1)所示：权　利　要　求　书 1/3 页 2 CN 114998525 A 2其中fDynamic GCN(·)表示动态局部 ‑全局图卷积输出特征图， fin(·)表示输入特征图，表示动态邻接矩阵， B表示全局自注意力矩阵， C表示局部自注意力矩阵； ||表示concat操作， S(·)将动态邻接矩阵重新排列和重塑； WV1和WV2为1×1卷积核权重；上述的3种分区策略为： 1、顶点本身； 2、向心子集，它包含接近重心的相邻顶点； 3、离心子集，它包含离重心较远的相邻顶点；是维度为B ×N×N的动态邻接矩阵；它从输入特征图中动态学习到3种分区策略中两个顶点的之间的连接强度，增加了图结构的灵活性和个性化；具体来说，假设输入的特征图首先分别使用自适应平均池化和自适应最大池化并行操作将输入特征图的维度转化为B ×Cin；接着经过一个全连接层压缩其通道数为Cin/4，再通过一个激活函数和全连接层得到一个fd∈RB×3的特征图，并经过一个归一化函数softmax进行归一化为0 ‑1，作为权重动态的与邻接矩阵匹配；之后将其与物理邻接矩阵(A)3 ×N×N进行矩阵相乘，得到B×N×N的动态邻接矩阵Ad；通过上述操作，为不同的骨骼图动态的分配3个权重，用以自适应的融合3种分区的邻接矩阵；此外为了联系多级语义特征，将Ad和上一层的动态邻接矩阵相加再平均得到最终的动态邻接矩阵根据公式3可以计算出 fd＝softmax(φ( θ(fin))) (2) 其中， φ(·)表示线性变化， θ( ·)执行了自适应池化和压缩操作； A代表了3种分区策略下的3个物理邻接矩阵，它与特征图fd以加权求和的方式进行融合； B是全局自注意力矩阵，它能帮助模型更好地针对每个样本进行动态建模；具体来说，给定一个输入特征图首先分别使用2个二维卷积层将fin映射并重新排列重塑为和的矩阵，然后相乘经过一个归一化函数得到B ×N×N的相似矩阵B： B＝softmax( (finWQ1)(finWK1)T) (4) 其中WQ1、 WK1是2个卷积层的卷积核权重； C是局部自注意力矩阵；本发明提出了两种将人体骨骼划分为多个身体部位的组合方案，来提取其不同的局部特征： (1)人体在做一些动作时，躯干到四肢幅度是不同的，因此，将骨骼图分为三个部分； (2)将人体分为五个部分，包括两臂，两腿和躯干；有些动作是由身体的几个部位完成的；将N个骨骼节点按照上述两种方案分成α 块，关注每块中的N/α 个节点之间的空间关系，捕捉更加细微的联系；给定一个输入特征图使用1×1卷积将其重塑为和的矩阵； T维度被移到通道维度内，沿时间维度有效地实现参数共享，并在每帧上分别进行计算： C＝softmax( (finWQ2)(finWK2)T) (5) 其中WQ2， WK2是2个卷积层的卷积核权重； (3.2)搭建动态局部 ‑全局图卷积模块：经过动态局部 ‑全局图卷积层之后是一个批处理标准化层，一个激活函数层和一个附加的随机丢弃处理层， Dr opout率设置为0.5，将输出的特征图用于步骤(3.3)； (3.3)搭建时间卷积模块：将步骤(3.2)的输出通过一个标准的2D卷积处理时间维度上权　利　要　求　书 2/3 页 3 CN 114998525 A 3

专利 基于动态局部-全局图卷积神经网络的动作识别方法

专利基于动态局部-全局图卷积神经网络的动作识别方法