基于多尺度特征融合的动作识别方法

未命名 07-27 阅读：176 评论：0

1.本发明研究的是视频动作识别技术领域，提出了一种基于多尺度特征融合的视频动作识别方法，能够快速并且准确的识别出视频中对象的动作。

背景技术：

2.视频动作识别是一项重要的任务，它是通过接收视频数据作为输入来对视频中的人类动作进行分类的任务，其被广泛应用于人机交互到、虚拟现实以及视频监控中。基于rgb的方法无法可靠地识别人类行为，因为它们收到背景颜色、光线亮度和服装等环境噪声的强烈影响。因此，使用骨架模态的方法受到了关注，因为它们不受这些噪声的影响。
3.人眼虽然具有识别视频中人类动作的能力，但存在耗时长，工作量大等缺点，因此，利用计算机对视频中的人物进行识别就显得尤为重要。目前，已经有很多基于骨架图的人类动作识别的方法，如yan等人用图形对人体关节之间的相关性进行建模，在骨架图原有的物理连接的基础上手工设置图的拓扑结构，然后通过图卷积网络聚合关节点特征进行分类；lei、ye、zhang等人通过注意力或其他机制自适应地学习人类骨骼的拓扑结构；lei等人使用了骨架图的骨骼信息，提出了双流图卷积网络，增加了分类时的特征种类，提高了分类精度；cheng等人为通道组设置单独的参数化拓扑方法。这些方法考虑的方面都比较片面，没有多方面结合。因此无法实现对视频中人物的动作进行精准分类，进而导致的识别难度加大，更加无法实现高精度的识别。
4.另外，现有的基于骨架图的人类动作识别方法有很多，它们都利用骨架图，一方面增加骨架图的信息种类，另一方面完善骨架图的拓扑结构，优化信息的特征提取。但是，现有技术中的骨架图数据细粒度不足从而进一步影响视频中人物的动作识别的精度。

技术实现要素：

5.针对现有技术的不足，提出了一种基于多尺度特征融合的视频动作识别方法，该方法通过增大图卷积的感受野从而判断不同节点之间的相关性来科学的得到骨架图的拓扑结构，以及定义了更多种类的视频骨架图的特征，从多个方面对视频动作进行分类。首先将视频中的每一帧图像的人物估计其关节点，对关节点进行增强，然后定义骨架图的特征信息，分别为关节点信息，骨骼信息，以及关节点运动信息，提取它们的多尺度特征，将骨架图的特征信息输入到图卷积网络中，图卷积网络根据关节点的相似性，动态更新节点之间的拓扑关系，融合相关的节点之间的特征，最终由网络输出，我们用输出的输出特征进行融合，得到视频最终的时空特征，用时空特征对视频进行动作识别。
6.本发明的技术方案步骤如下：
7.步骤1、将视频按帧进行分段，得到的每一帧图像使用姿态估计的方法对图像中的对象进行关节点估计，得到关节点的特征信息，并对特征信息进行增强；
8.步骤2、每一帧图像经过vgg19卷积网络提取特征，得到一组特征图，然后将特征图分别使用cnn网络提取置信度和关联度，得到这两个信息后，使用图论中的二分图匹配求出
部分关联，将同一个人的关节点连接起来得到的骨架图并对关节点标注序号；
9.步骤3、利用得到的关节点的特征信息，计算每一帧待识别对象中骨骼关节点的坐标信息、骨骼边的向量信息以及相邻帧之间同一关节点的关节点运动信息；
10.步骤4、搭建并训练图卷积网络，图卷积网络先计算骨架图的邻接矩阵，即关节点之间的拓扑关系，再将步骤3得到的三种类型的信息分别输入到训练好的图卷积网络中进行特征提取，根据拓扑关系将节点之间的信息进行卷积，得到分别对应的三种类型的输出特征信息；
11.步骤5、将步骤4得到的输出特征进行特征的融合，得到待识别视频最终的时空特征；
12.步骤6、根据步骤5得到的最终的时空特征进行动作识别，最终得到待识别视频的动作识别结果。
13.本发明的有益效果：
14.本发明的检测模型考虑到图节点之间的相似性以及骨架图中多种特征信息，并有效的消除计算关节点之间拓扑关系时冗余信息的影响，因此检测准确率很高，而且检测效率快，整体性能由优于前人的方法。
15.本发明为了更加精确的计算节点之间的关系性，使用了高斯嵌入的方法，将节点的特征转化到嵌入空间计算相似性，将相似性的结果作为节点之间的拓扑关系，使图卷积网络能更加科学的聚合节点之间的特征。本发明还将骨架图的边特征进行多尺度细分，使用骨骼边上的1/2节点和1/4节点代替骨骼边的信息，将骨骼边的信息增加，并且减少了网络规模。从两方面有效的提高了视频人体动作识别的准确率。
附图说明
16.图1本发明实施例的算法流程图。
17.图2rgb视频图像样本。
18.图3骨架图视频图像样本。
19.图4为本发明实施例中标注有序号的骨架图示意图。
20.图5为本发明实施例中图卷积网络结构示意图。
21.图6本发明和其他方法识别视频动作的准确率结果。
具体实施方式
22.下面结合附图，对本发明的具体实施方案作进一步详细描述。
23.本实施例提供了一种基于图卷积网络的动作识别方法，如图1所示，其具体步骤描述：
24.步骤1、将视频按帧进行分段，得到的每一帧图像使用姿态估计的方法对图像中的对象进行关节点估计，得到关节点的特征信息，并对特征信息进行增强。
25.具体的，使用姿态估计的方法对图像中的对象进行关键点估计。输入一段视频，假设待识别视频s
t
表示第t帧视频，待识别视频v共有t帧图像，t∈(1,2,...,t)，s
t
＝r
h*w*c
，其中h,w和c分别表示图像的高度、宽度和通道，如图2所示。
26.其中待识别视频v＝{v
ti
|t＝1,2,...,t,i＝1,2,...,n}，i表示第i号关节点，v
ti
表示第t帧第i个关节点的特征信息；
27.然后再对关节点的信息进行增强，因为在不同的嵌入空间当中，关节点的相似性也会不一样，为了更加准确的判断关节点之间的拓扑关系，本发明使用高斯核函数，将关节点的信息转换到高斯嵌入空间当中，再判断关节点之间的拓扑关系。
28.高斯核函数公式：
[0029][0030]
步骤2、每一帧图像经过vgg19卷积网络提取特征，得到一组特征图，然后将特征图分别使用cnn网络提取置信度和关联度；得到这两个信息后，使用图论中的二分图匹配求出部分关联，将同一个人的关节点连接起来得到的骨架图。
[0031]
待识别视频v＝{v
ti
|t＝1,2,...,t,i＝1,2,...,n}，i表示第i号关节点，v
ti
表示第t帧第i个关节点的信息，如图3所示。
[0032]
如图4所示，并对关节点标注序号。
[0033]
步骤3、利用得到的关节点的特征信息，计算每一帧待识别对象中骨骼关节点的坐标信息、骨骼边的向量信息以及相邻帧之间同一关节点的关节点运动信息。
[0034]
具体的，根据人体骨架图关节点的序号，求出其余关节点到1号关节点的相对位置，作为关节点的坐标信息。根据人体骨架图关节点的序号连接情况，按照距离1号关节点的远近，定义骨骼连接边的向量方向，由近及远，远的关节点作为骨骼连接边向量的终点，近的关节点作为骨骼连接边向量的起点，终点减去起点得到骨骼连接边向量，作为骨骼的向量信息。还有一个信息，由于本发明进行动作识别的是一个视频，视频是有时间维度的，即连续三帧视频是有关联的，本发明假设相邻两帧图像中，相同的关节点之间有边连接，关节点就是按照这条边的轨迹从前一帧图像移动到后一帧图像，这类信息本发明认为是运动信息，它也是以向量的形式存在，本发明把后一帧图像的关节点作为运动信息的终点，前一帧图像的关节点作为运动信息的起点，终点减去起点得到运动信息。
[0035]
关节点的坐标信息：
[0036]vti
[0037]
骨骼的向量信息，计算公式如下：
[0038]eti
＝v
ti-v
tj
[0039]
关节点的运动信息，计算公式如下：
[0040]mti
＝v
t+1i-v
ti
[0041]
可以比较发现，关节点的坐标信息是点的信息，而骨骼边的向量信息和关节点的运动信息都是向量的信息，三种信息的类型是不一样的。一些文献表示，可以使用双流检测的思想，使用两个特征提取网络，对上述信息进行特征提取，然后根据提取到的特征分别进行动作识别，将识别出来动作的概率进行相加，最高的就是该视频的动作识别结果。但是这种方法有一个缺点，就是网络模型会非常庞大，参数数量也会比较多。由此，我们发明了对骨骼边和关节点的运动轨迹进行多尺度特征提取的新方法，在骨骼边和关节点的运动轨迹上会存在很多个点，又因为两点可以确定一条直线，本发明将骨骼边和关节点的运动轨迹抽象成四个点表示这两类的信息，分别取线段上的1/2点和1/4点表示线段。这样三种类型的信息都可以用点来表示，本发明只需要用一个特征提取网络来进行特征提取，减少了网
络的参数。
[0042]
步骤4、搭建并训练图卷积网络，图卷积网络先计算骨架图的邻接矩阵，即关节点之间的拓扑关系，再将步骤3得到的三种类型的信息分别输入到训练好的图卷积网络中进行特征提取，根据拓扑关系将节点之间的信息进行卷积，得到分别对应的三种类型的输出特征信息。
[0043]
具体的，针对骨架图，本发明使用的特征提取网络是图卷积网络。如图5所示，其中xi表示输入的节点，c表示输入的通道数，zi表示输出节点，f表示输出的通道数，节点的连接关系在网络中用节点的拓扑关系表示。节点之间的拓扑关系。因为大多数图卷积的图卷积网络都是只考虑节点1领域的节点关系，然后将1领域的节点特征进行叠加，这只考虑了节点之间的物理连接，实际上很多动作不能仅仅考虑物理连接节点之间的关系，比如拍手这个动作，两只手会产生很强烈的关系，但是它们之间没有直接的物理连接，本发明假设两只手之间有一条虚拟的连接，这种连接其实是通过物理连接传递过去的，所以只考虑节点之间1领域关系的节点是不全面的。本发明在设计骨架图的邻接矩阵的时候，也就是计算节点之间的拓扑关系，考虑节点的4领域，领域越大，关系越准确，同时计算越复杂，但同时会出现冗余信息，本发明将计算完毕的领接矩阵中大于1的部分全部变成1，小于1的部分变成0，简便图卷积网络的计算，顺便削减计算时产生的冗余信息。
[0044]
节点之间拓扑关系的计算方法：
[0045][0046]
其中θ和φ是一个1*1的卷积层，n是与i号关节点有关的n个其他关节点，v
ti
和v
tj
的关系是先转换到高斯嵌入空间再进行计算。
[0047]
图卷积公式如下：
[0048][0049]
其中h
l
表示l层的输入，h
l
∈r，w
l
为第l层的权重参数矩阵，σ(
·
)为非线性激活函数，a是邻接矩阵，在本发明中是关节点之间的拓扑关系，是拉普拉斯矩阵。
[0050]
步骤5、将步骤4得到的输出特征进行特征的融合，得到待识别视频最终的时空特征。
[0051]
具体的，步骤4经过图卷积网络的特征提取之后得到三种特征信息，为了使识别的精度更加高，需要对三种特征信息进行融合，三种信息综合来对视频动作进行识别。但是这三种特征信息的数值意义和范围是不一致的，所以不能使用张量相加的方法对特征信息进行融合，本发明选择使用连接的方式，先对三种特征信息的张量进行归一化，然后使用连接的方式，将三种特征信息进行融合，得到一个张量。
[0052]
特征的融合：
[0053]
z＝[v
out
||e
out
||m
out
]
[0054]
其中v
out
是关节点的坐标信息经过图卷积网络的输出特征，e
out
是骨骼的向量信息经过图卷积网络的输出特征，m
out
是关节点的运动信息经过图卷积网络的输出特征，||是指
矩阵的连接。
[0055]
步骤6、根据步骤5得到的最终的时空特征进行动作识别，最终得到待识别视频的动作识别结果。
[0056]
具体的，本发明先使用大量数据库里的真值图进行神经网络的训练，即重复步骤1到步骤5，这样神经网络就具备了对视频中对象的动作进行识别的能力(将一段视频输入神经网络中，神经网络识别出该视频中的对象正在做几号标签的动作)，再使用验证集对其进行验证。将步骤5中得到的张量(其实是由一段待检测视频按照步骤1到步骤5一次进行操作完成之后，也就是在神经网络中完成了特征提取以及特征融合之后)输入到网络的最后一层全连接层，将融合之后的特征进行分类，得到待识别视频的动作识别结果，
[0057]
本发明和其他方法的准确度对比如图6所示，本实施例所提供的一种基于图卷积网络的动作识别方法，其准确率可达96.7％，突破了现有所有动作识别方法的准确率的极限。
[0058]
以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

技术特征：
1.一种基于多尺度特征融合的动作识别方法，其特征在于，包括如下步骤：步骤1、将视频按帧进行分段，得到的每一帧图像使用姿态估计的方法对图像中的对象进行关节点估计，得到关节点的特征信息，并对特征信息进行增强；步骤2、每一帧图像经过vgg19卷积网络提取特征，得到一组特征图，然后将特征图分别使用cnn网络提取置信度和关联度，得到这两个信息后，使用图论中的二分图匹配求出部分关联，将同一个人的关节点连接起来得到的骨架图并对关节点标注序号；步骤3、利用得到的关节点的特征信息，计算每一帧待识别对象中骨骼关节点的坐标信息、骨骼边的向量信息以及相邻帧之间同一关节点的关节点运动信息；步骤4、搭建并训练图卷积网络，图卷积网络先计算骨架图的邻接矩阵，即关节点之间的拓扑关系，再将步骤3得到的三种类型的信息分别输入到训练好的图卷积网络中进行特征提取，根据拓扑关系将节点之间的信息进行卷积，得到分别对应的三种类型的输出特征信息；步骤5、将步骤4得到的输出特征进行特征的融合，得到待识别视频最终的时空特征；步骤6、根据步骤5得到的最终的时空特征进行动作识别，最终得到待识别视频的动作识别结果。2.根据权利要求1所述的基于图卷积网络的动作识别方法，其特征在于，步骤1具体过程如下：使用姿态估计的方法对图像中的对象进行关键点估计，输入一段视频，假设待识别视频s
t
表示第t帧视频，待识别视频v共有t帧图像，t∈(1,2,...,t)，s
t
＝r
h*w*c
，其中h,w和c分别表示图像的高度、宽度和通道，其中待识别视频v＝{v
ti
|t＝1,2,...,t,i＝1,2,...,n}，i表示第i号关节点，v
ti
表示第t帧第i个关节点的特征信息；对关节点的特征信息进行增强，使用高斯核函数，将关节点的信息转换到高斯嵌入空间当中，再判断关节点之间的拓扑关系。3.根据权利要求1所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤3中关节点的坐标信息的获取方法：根据人体骨架图关节点的序号，求出其余关节点到1号关节点的相对位置，作为关节点的坐标信息v
ti
。4.根据权利要求3所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤3中骨骼边的向量信息的获取方法：根据人体骨架图关节点的序号连接情况，按照距离1号关节点的远近，定义骨骼边的向量方向，由近及远，远的关节点作为骨骼边向量的终点，近的关节点作为骨骼边向量的起点，终点减去起点得到骨骼边向量，作为骨骼的向量信息，计算公式如下：e
ti
＝v
ti-v
tj
。5.根据权利要求4所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤3中关节点运动信息的获取方法：假设相邻两帧图像中，相同的关节点之间有边连接，关节点就是按照这条边的轨迹从前一帧图像移动到后一帧图像，这类信息即关节点运动信息，它以向量的形式存在，把后一帧图像的关节点作为运动信息的终点，前一帧图像的关节点作为运动信息的起点，终点减去起点得到运动信息，计算公式如下：m
ti
＝v
t+1i-v
ti
。6.根据权利要求5所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤4中通过图卷积网络计算骨架图的邻接矩阵方法如下：
图卷积公式如下：其中h
l
表示l层的输入，h
l
∈r，w
l
为第l层的权重参数矩阵，为非线性激活函数，a是邻接矩阵，即关节点之间的拓扑关系，是拉普拉斯矩阵；节点之间拓扑关系的计算方法：其中θ和φ是一个1*1的卷积层，n是与i号关节点有关的n个其他关节点，v
ti
和v
tj
的关系是先转换到高斯嵌入空间再进行计算。7.根据权利要求5所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤4中特征提取的方法为：在骨骼边和关节点的运动轨迹上会存在很多个点，又因为两点可以确定一条直线，将骨骼边和关节点的运动轨迹抽象成四个点表示这两类的信息，分别取线段上的1/2点和1/4点表示线段，将三种类型的信息都可以用点来表示，最后用一个特征提取网络来进行特征提取。8.根据权利要求7所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤5具体过程如下：选择使用连接的方式，先对三种输出特征信息的张量进行归一化，然后使用连接的方式，将三种输出特征信息进行融合，得到一个张量；特征的融合：z＝[v
out
||e
out
||m
out
]其中v
out
是关节点的坐标信息经过图卷积网络的输出特征，e
out
是骨骼连接便的向量信息经过图卷积网络的输出特征，m
out
是关节点的运动信息经过图卷积网络的输出特征。9.根据权利要求5所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤6具体过程如下：先使用数据库里的真值图对由步骤1-步骤5组成的神经网络进行训练，即重复步骤1到步骤5，完成训练后神经网络具备了对视频中对象的动作进行识别的能力，再使用验证集对其进行验证；将步骤5中得到的张量输入到神经网络的最后一层全连接层，将融合之后的特征进行分类，得到待识别视频的动作识别结果。

技术总结
本发明提出了一种基于多尺度特征融合的视频动作识别方法，首先将视频中的每一帧图像的人物参考姿态估计的方法估计其关节点，对关节点进行增强，然后定义骨架图的特征信息，分别为关节点信息，骨骼信息，以及关节点运动信息，提取它们的多尺度特征，将骨架图的特征信息输入到图卷积网络中，动态更新节点之间的拓扑关系，融合相关的节点之间的特征，输出特征进行融合，对视频进行动作识别。考虑到图节点之间的相似性以及骨架图中多种特征信息，并有效的消除计算关节点之间拓扑关系时冗余信息的影响，因此检测准确率很高，而且检测效率快，整体性能由优于前人的方法。整体性能由优于前人的方法。整体性能由优于前人的方法。

技术研发人员：张善卿陈昱杰杨高敏俞韬陆剑锋李黎
受保护的技术使用者：杭州电子科技大学
技术研发日：2022.11.22
技术公布日：2023/7/25

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种基于三支决策的多粒度知识图谱概念认知方法 下一篇：自动识别和量化磁共振图像子宫内膜蠕动的算法的制作方法

基于多尺度特征融合的动作识别方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于多尺度特征融合的动作识别方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表