基于重组样本学习的人-物交互动作识别方法

未命名 07-27 阅读：81 评论：0

1.本发明涉及人-物交互动作识别领域，具体涉及一种基于重组样本学习的人-物交互动作识别方法。

背景技术：

2.作为人工智能领域的重要方向，动作识别一直是学术界和产业界的研究热点。人-物交互动作识别是动作识别领域的一项关键子任务，需要在图像中定位存在交互的人-物实例，并识别人与物体的交互动作关系。人-物交互动作识别是深化场景理解和视觉认知的重要核心技术，在安防监控、视频检索、无人驾驶等多个领域有着广泛的应用前景和巨大的市场需求。
3.近年来，深度学习成为了人-物交互动作识别领域的主流方法，并且随着transformer架构在计算机视觉领域带来巨大变革，近期研究提出了多种基于transformer的一阶段方法，实现端到端的人-物交互动作识别。
4.人-物交互动作识别存在严重的数据长尾分布问题，使得人-物交互动作类别的数据分布很不均衡。针对此问题，一部分现有研究提出了少样本或零样本人-物交互动作识别方法，将头部动作类别的知识向尾部动作类别或从未学习过的新动作类别进行泛化、迁移。其中一类方法通过重新组合不同类别人-物交互的各部分特征，生成新的训练样本以供模型学习。
5.但是现有的此类方法基本采用传统的基于cnn的两阶段框架，人-物交互的视觉特征普遍缺乏全局上下文信息，而特征样本的重组又往往造成全局上下文信息的进一步丢失，导致其表征能力更弱，学习效果也更差，致使基于特征样本重组的人-物交互动作识别模型的识别准确率较差。

技术实现要素：

6.本发明是为了解决上述问题而进行的，目的在于提供一种基于重组样本学习的人-物交互动作识别方法。
7.本发明提供了一种基于重组样本学习的人-物交互动作识别方法，用于根据包含nq个随机初始化查询向量的查询向量组q
p
和ni类人-物交互对待识别图像进行识别得到识别结果，具有这样的特征，包括以下步骤：步骤s1，将待识别图像输入卷积神经网络进行特征提取，再经由transformer编码器编码，得到全局特征向量xs和位置编码向量e；步骤s2，将全局特征向量xs、位置编码向量e和查询向量组q
p
输入人-物对解码器，得到nq个人-物对的特征向量作为人-物对特征向量组r
p
；步骤s3，将全局特征向量xs、位置编码向量e和人-物对特征向量组r
p
输入交互动作解码器，得到nq个人-物对的交互动作特征向量作为交互动作特征向量组ri；步骤s4，将人-物对特征向量组r
p
和交互动作特征向量组ri输入前馈神经网络，得到人-物对预测物对预测和交互动作预测yi＝{an,n∈{1,2,...,nq}}；步骤s5，根据人-物对预测y
p
、交互动作预测yi和ni类人-物交互，得到nq个
人-物对的人-物交互预测结果物交互预测结果n∈{1,2,...,nq}}作为识别结果，其中，为第n个人-物对的人体边框，为第n个人-物对的物体边框，on为第n个人-物对的包含所有物体类别的预测置信度的物体类别置信度向量，an为第n个人-物对的包含所有动作类的动作类别置信度向量，y'n为第n个人-物对的人-物交互预测结果，un为第n个人-物对的预测物体类别，vn为第n个人-物对的预测动作类别，为第n个人-物对的最大置信度。
8.在本发明提供的基于重组样本学习的人-物交互动作识别方法中，还可以具有这样的特征：其中，步骤s1包括以下子步骤：步骤s1-1，将待识别图像输入卷积神经网络进行特征提取，得到视觉特征图xv；步骤s1-2，根据视觉特征图xv，得到位置编码向量e；步骤s1-3，将视觉特征图xv和位置编码向量e输入transformer编码器编码，得到全局特征向量xs。
9.在本发明提供的基于重组样本学习的人-物交互动作识别方法中，还可以具有这样的特征：其中，前馈神经网络包括人-物分类前馈网络和交互动作分类前馈网络，步骤s4包括以下子步骤：步骤s4-1，将交互动作特征向量组ri输入人-物分类前馈网络，得到nq个人-物对的人-物对预测；步骤s4-2，将人-物对特征向量组r
p
和交互动作特征向量组ri进行拼接再输入交互动作分类前馈网络，得到nq个人-物对的交互动作预测。
10.在本发明提供的基于重组样本学习的人-物交互动作识别方法中，还可以具有这样的特征：其中，步骤s5包括以下子步骤：步骤s5-1，对每个人-物对，根据ni类人-物交互，将动作类别置信度向量和物体类别置信度向量进行乘积计算，得到ni个置信度乘积；步骤s5-2，对每个人-物对，选取最大的置信度乘积作为人-物对的最大置信度，将最大置信度对应的物体类别和动作类别分别作为人-物对的预测物体类别和预测动作类别；步骤s5-3，对nq个人-物对的最大置信度从大到小进行排序，得到nq个人-物对的人-物交互预测结果。
11.在本发明提供的基于重组样本学习的人-物交互动作识别方法中，还可以具有这样的特征：其中，通过包含多个训练图像及其对应的真实标签的训练样本、ni类人-物交互和包含nq个随机初始化查询向量的查询向量组q
p
对包括卷积神经网络、transformer编码器、人-物对解码器、交互动作解码器和前馈神经网络的模型进行训练，包括以下步骤，包括以下步骤：步骤t1，从训练样本中随机选择训练图像i1和训练图像i2，将训练图像i1和训练图像i2输入卷积神经网络进行特征提取，再经由transformer编码器编码，分别得到训练图像的全局特征向量和位置编码向量；步骤t2，对每个训练图像，将全局特征向量、位置编码向量和查询向量组q
p
输入人-物对解码器，得到nq个人-物对的特征向量作为人-物对特征向量组；步骤t3，对每个训练图像，将全局特征向量、位置编码向量和人-物对特征向量组输入交互动作解码器，得到nq个人-物对的交互动作特征向量作为交互动作特征向量组；步骤t4，对每个训练图像，将人-物对特征向量组和交互动作特征向量组输入前馈神经网络，得到人-物对预测和交互动作预测，将人-物对预测和交互动作预测直接组合，得到人-物交互预测；步骤t5，对每个训练图像，根据匈牙利算法将人-物交互预测与训练图像对应的真实标签进行匹配，得到最准确人-物交互预测；步骤t6，根据两个训练图像的最准确人-物交互预测，得到对应的最准确人-物对特征向量和最准确交互动作特征向量，对最准确人-物对特征向量和最准确交互动作特征向量进行交叉重组或内部重组，得到重组人-物交互特征向量组，输入交互动作分类前馈网络，得到重组人-物交互预测，并对两个训练图像对应的
真实标签进行重组，得到重组真实标签；步骤t7，根据两个训练图像的最准确人-物交互预测和真实标签，以及重组人-物交互预测和重组真实标签计算损失函数，根据损失函数计算结果对交互动作解码器的参数进行优化；步骤t8，重复执行步骤t1至步骤t7，直至训练样本中所有训练图像均对模型的参数进行优化，则模型训练完成，第k个训练图像的最准确人-物交互预测物交互预测为第k个训练图像的第n个人-物对的最准确人-物交互预测，为第k个训练图像的第n个人-物对的最准确人体边框，为第k个训练图像的第n个人-物对的最准确物体边框，o
kn
为第k个训练图像的第n个人-物对的最准确物体类别置信度向量，a
kn
为第k个训练图像的第n个人-物对的最准确动作类别置信度向量，为第k个训练图像中人-物交互实例的真实数量。
12.在本发明提供的基于重组样本学习的人-物交互动作识别方法中，还可以具有这样的特征：其中，根据训练图像i1和训练图像i2的最准确人-物交互预测，进行交叉重组时，步骤t6包括以下子步骤：步骤t6-1，根据训练图像i1的最准确人-物交互预测得到训练图像i1的最准确人-物对特征向量组和最准确交互动作特征向量组步骤t6-2，根据训练图像i2的最准确人-物交互预测得到训练图像i2的最准确人-物对特征向量组和最准确交互动作特征向量组步骤t6-3，将最准确人-物对特征向量组的条人-物对特征向量分别与最准确交互动作特征向量组的条交互动作特征向量逐一拼接，得到重组人物交互特征组步骤t6-4，将最准确人-物对特征向量组的条人-物对特征向量分别与最准确交互动作特征向量组的条交互动作特征向量逐一拼接，得到重组人物交互特征组步骤t6-5，将重组人物交互特征组和重组人物交互特征组分别输入交互动作分类前馈网络，分别得到交互动作预测和交互动作预测步骤t6-6，将训练图像i1的人-物对预测y
p1
和交互动作预测组合，得到重组人-物交互预测将训练图像i2的人-物对预测y
p2
和交互动作预测组合，得到重组人-物交互预测重组人-物交互预测和重组人-物交互预测为重组人-物交互预测；步骤t6-7，根据训练图像i1对应的真实标签得到人-物对真实标签和交互动作真实标签根据训练图像i2对应的真实标签得到人-物对真实标签和交互动作真实标签步骤t6-8，根据ni类人-物交互，将人-物对真实标签和交互动作真实标签逐一配对组合，得到对应重组人-物交互预测的重组真实标签将人-物对真实标签和交互动作真实标签逐一配对组合，得到对应重组人-物交互预测的重组真实标签重组真实标签和重组真实标签为重组真实标签。
13.在本发明提供的基于重组样本学习的人-物交互动作识别方法中，还可以具有这样的特征：其中，根据训练图像i1和训练图像i2的最准确人-物交互预测，进行内部重组时，步骤t6包含以下子步骤：步骤t6-1，根据训练图像i1的最准确人-物交互预测得到训练图像i1的最准确人-物对特征向量组和最准确交互动作特征向量组步骤t6-2，根据训练图像i2的最准确人-物交互预测得到训练图像i2的最准确人-物对特征向量组和最准确交互动作特征向量组步骤t6-3，将最准确人-物对特征向量组的条人-物对特征向量分别与最准确交互动作特征向量组的条交互动作特征向量逐一拼接，再去除原始的人-物对特征向量和交互动作特征向量的组合，得到重组人物交互特征组步骤t6-4，将最准确人-物对特征向量组的条人-物对特征向量分别与最准确交互动作特征向量组的条交互动作特征向量逐一拼接，再去除原始的人-物对特征向量和交互动作特征向量的组合，得到重组人物交互特征组步骤t6-5，将重组人物交互特征组和重组人物交互特征组分别输入交互动作分类前馈网络，分别得到交互动作预测和交互动作预测步骤t6-6，将训练图像i1的人-物对预测y
p1
和交互动作预测组合，得到重组人-物交互预测将训练图像i2的人-物对预测y
p2
和交互动作预测组合，得到重组人-物交互预测重组人-物交互预测和重组人-物交互预测为重组人-物交互预测；步骤t6-7，根据训练图像i1对应的真实标签得到人-物对真实标签和交互动作真实标签根据训练图像i2对应的真实标签得到人-物对真实标签和交互动作真实标签步骤t6-8，根据ni类人-物交互，将人-物对真实标签和交互动作真实标签逐一配对组合，再去除训练图像i1对应的真实标签得到对应重组人-物交互预测的重组真实标签将人-物对真实标签和交互动作真实标签逐一配对组合，再去除训练图像i2对应的真实标签得到对应重组人-物交互预测的重组真实标签重组真实标签和重组真实标签为重组真实标签。
14.在本发明提供的基于重组样本学习的人-物交互动作识别方法中，还可以具有这样的特征：其中，人-物对真实标签的一个物体类别与交互动作真实标签中的一个交互动作特征向量中的一个动作类别的组合超出ni类人-物交互时，在重组真实标签中将交互动作特征向量中对应该物体类别的元素值置为0，人-物对真实标签的一个物体类别与交互动作真实标签中的一个交互动作特征向量中的所有动作类别的组合均超出ni类人-物交互时，在重组真实标签中将物体类别与交互动作特征向量的组合剔除，人-物对真实标签的一个物体类别与交互动作真实标签中的所有交互动作特征向量中的所有动作类别的组合均超出ni类人-物交互时，在重组真实标签中物体类别对应一条全零的交互动作特征向量。
15.在本发明提供的基于重组样本学习的人-物交互动作识别方法中，还可以具有这
样的特征：其中，在步骤t7中，损失函数的计算公式如下：l＝λb·
lb+λu·
lu+λo·
lo+λa·
la，式中lb、lu、lo和la分别为边框回归损失函数、边框交并比损失函数、物体类别损失函数和动作类别损失函数，λb、λu、λo和λa分别为边框回归损失函数、边框交并比损失函数、物体类别损失函数和动作类别损失函数的权重超参数，l为损失函数，损失函数计算结果的计算公式如下：l
batch
＝ρ
·
l
orig
+(1-ρ)
·
l
compo
，式中l
batch
为损失函数计算结果，l
orig
为最准确人-物交互预测和真实标签计算损失函数l的结果，l
compo
为重组人-物交互预测和重组真实标签计算损失函数l的结果，ρ是平衡两者的权重超参数。
16.发明的作用与效果
17.根据本发明所涉及的基于重组样本学习的人-物交互动作识别方法，因为在训练模型时通过交叉重组或内部重组，使得在不依赖额外信息的情况下增强了训练图像的表征能力，实现了人-物交互动作知识的跨类别迁移与泛化。所以，本发明的基于重组样本学习的人-物交互动作识别方法能够缓解长尾分布带来的性能不均衡，提高人-物交互动作识别的精度。
附图说明
18.图1是本发明的实施例中基于重组样本学习的人-物交互动作识别方法的流程示意图；
19.图2是本发明的实施例中训练模型的流程示意图；
20.图3是本发明的实施例中交叉重组的流程示意图；
21.图4是本发明的实施例中交叉重组的原理示意图；
22.图5是本发明的实施例中内部重组的流程示意图；
23.图6是本发明的实施例中内部重组的原理示意图。
具体实施方式
24.为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下实施例结合附图对本发明基于重组样本学习的人-物交互动作识别方法作具体阐述。
25.图1是本发明的实施例中基于重组样本学习的人-物交互动作识别方法的流程示意图。
26.如图1所示，本实施例的基于重组样本学习的人-物交互动作识别方法，用于根据包含nq个随机初始化查询向量的查询向量组q
p
和ni类人-物交互对待识别图像进行识别得到识别结果，包括以下步骤：
27.步骤s1，将待识别图像输入卷积神经网络进行特征提取，再经由transformer编码器编码，得到全局特征向量xs和位置编码向量e。
28.其中，步骤s1包括以下子步骤：
29.步骤s1-1，将待识别图像输入卷积神经网络进行特征提取，得到视觉特征图xv，其维度为h
×w×
c，h、w和c分别表示视觉特征图高度、视觉特征图宽度和全局特征维数，再对其前两个维度进行合并，维度变为(h
×
w)
×
c。本实施例中卷积神经网络为在coco数据集上预训练并在hico-det数据集上微调后的resnet-50网络，使用其卷积块1～卷积块4进行特征提取，全局特征维数c设为256。
30.步骤s1-2，根据视觉特征图xv，得到位置编码向量e，位置编码向量e用于记录视觉特征图xv中各个像素的位置信息，维度同样为(h
×
w)
×
c。本实施例中根据detr中给出的正余弦位置编码计算方式得到位置编码向量e。
31.步骤s1-3，将视觉特征图xv和位置编码向量e输入transformer编码器编码，通过自注意力机制聚合全局上下文，得到全局特征向量xs，全局特征向量xs的维度同样为(h
×
w)
×
c。
32.步骤s2，将全局特征向量xs、位置编码向量e和查询向量组q
p
输入人-物对解码器，人-物对解码器将全局特征向量xs中关于人和物体的上下文信息聚合到查询向量中，得到nq个人-物对的特征向量作为人-物对特征向量组r
p
，人-物对特征向量组r
p
和查询向量组q
p
的维度均为nq×cq
，cq表示查询向量的特征维数。本实施例中将特征维数cq为256。
33.步骤s3，将全局特征向量xs、位置编码向量e和人-物对特征向量组r
p
输入交互动作解码器，交互动作解码器将全局特征向量xs中关于人和物体之间交互动作的上下文信息聚合到查询向量中，得到nq个人-物对的交互动作特征向量作为交互动作特征向量组ri，交互动作特征向量组ri的维度为nq×cq
。
34.步骤s4，将人-物对特征向量组r
p
和交互动作特征向量组ri输入前馈神经网络，得到人-物对预测n∈{1,2,...,nq}}和交互动作预测yi＝{an,n∈{1,2,...,nq}}。
35.其中，前馈神经网络包括人-物分类前馈网络和交互动作分类前馈网络，步骤s4包括以下子步骤：
36.步骤s4-1，将交互动作特征向量组ri输入人-物分类前馈网络，得到nq个人-物对的人-物对预测n∈{1,2,...,nq}}。
37.步骤s4-2，将人-物对特征向量组r
p
和交互动作特征向量组ri进行拼接再输入交互动作分类前馈网络，得到nq个人-物对的交互动作预测yi＝{an,n∈{1,2,...,nq}}。本实施例中拼接后形成维度为nq×
(cq×
2)的人-物交互特征向量
38.其中，为第n个人-物对的人体边框，物对的人体边框，和分别为该人体边框的左上角点的横坐标和纵坐标，和分别为该人体边框的右下角点的横坐标和纵坐标，为第n个人-物对的物体边框，物对的物体边框，和分别为该物体边框的左上角点的横坐标和纵坐标，和分别为该物体边框的右下角点的横坐标和纵坐标，on为第n个人-物对的包含所有物体类别的预测置信度的物体类别置信度向量，度向量，为该物体类别置信度向量的第u个物体类别的预测置信度，no为物体类别总数，an为第n个人-物对的包含所有动作类的动作类别置信度向量，量，为该动作类别置信度向量的第v个动作类别的预测置信度，na为动作类别总数。
39.步骤s5，根据人-物对预测y
p
、交互动作预测yi和ni类人-物交互，得到nq个人-物对的人-物交互预测结果物交互预测结果n∈{1,2,...,nq}}作为识别结
果，y'n为第n个人-物对的人-物交互预测结果，un为第n个人-物对的预测物体类别，vn为第n个人-物对的预测动作类别，为第n个人-物对的最大置信度。
40.其中，步骤s5包括以下子步骤：
41.步骤s5-1，对每个人-物对，根据ni类人-物交互，将动作类别置信度向量和物体类别置信度向量进行乘积计算，得到ni个置信度乘积。
42.置信度乘积cw的计算表达式如下：
[0043][0044]
式中为第w个人-物交互的物体类别对应的预测置信度，为第w个人-物交互的动作类别对应的预测置信度。
[0045]
步骤s5-2，对每个人-物对，选取最大的置信度乘积作为人-物对的最大置信度，将最大置信度对应的物体类别和动作类别分别作为人-物对的预测物体类别和预测动作类别。
[0046]
步骤s5-3，对nq个人-物对的最大置信度从大到小进行排序，得到nq个人-物对的人-物交互预测结果。
[0047]
图2是本发明的实施例中训练模型的流程示意图。
[0048]
如图2所示，通过包含多个训练图像及其对应的真实标签的训练样本、ni类人-物交互和包含nq个随机初始化查询向量的查询向量组q
p
对包括卷积神经网络、transformer编码器、人-物对解码器、交互动作解码器和前馈神经网络的模型进行训练，包括以下步骤：
[0049]
步骤t1，从训练样本中随机选择一对训练图像ik,k＝1,2即训练图像i1和训练图像i2，将训练图像i1和训练图像i2输入卷积神经网络进行特征提取，再经由transformer编码器编码，分别得到训练图像的全局特征向量和位置编码向量。
[0050]
步骤t2，对每个训练图像，将全局特征向量、位置编码向量和查询向量组q
p
输入人-物对解码器，得到nq个人-物对的特征向量作为人-物对特征向量组r
pk
，即训练图像i1对应人-物对特征向量组r
p1
，训练图像i2对应人-物对特征向量组r
p2
，r
p1
和r
p2
的维度均为nq×cq
。
[0051]
步骤t3，对每个训练图像，将全局特征向量、位置编码向量和人-物对特征向量组输入交互动作解码器，得到nq个人-物对的交互动作特征向量作为交互动作特征向量组r
ik
，即训练图像i1对应交互动作特征向量组r
i1
，训练图像i2对应交互动作特征向量组r
i2
，r
i1
和r
i2
的维度均为nq×cq
。
[0052]
步骤t4，对每个训练图像，将人-物对特征向量组和交互动作特征向量组输入前馈神经网络，得到人-物对预测物对预测n∈{1,2,
…
,nq}}和交互动作预测y
ik
＝{a
kn
,n∈{1,2,
…
,nq}}，将人-物对预测和交互动作预测直接组合，得到人-物交互预测n∈{1,2,
…
,nq}}，为第k个训练图像的第n个人-物对的人体边框，为第k个训练图像的第n个人-物对的物体边框，o
kn
为第k个训练图像的第n个人-物对的物体类别置信度向量，a
kn
为第k个训练图像的第n个人-物对的动作类别置信度向量。
[0053]
步骤t5，对每个训练图像，根据匈牙利算法将人-物交互预测与训练图像对应的真
物对特征向量组和最准确交互动作特征向量组和的维度均为
[0065]
步骤t6-3，将最准确人-物对特征向量组的条人-物对特征向量分别与最准确交互动作特征向量组的条交互动作特征向量逐一拼接，得到重组人物交互特征组重组人物交互特征组的维度为
[0066]
步骤t6-4，将最准确人-物对特征向量组的条人-物对特征向量分别与最准确交互动作特征向量组的条交互动作特征向量逐一拼接，得到重组人物交互特征组重组人物交互特征组的维度为
[0067]
步骤t6-5，将重组人物交互特征组和重组人物交互特征组分别输入交互动作分类前馈网络，分别得到交互动作预测作分类前馈网络，分别得到交互动作预测和交互动作预测作预测
[0068]
步骤t6-6，将训练图像i1的人-物对预测y
p1
和交互动作预测组合，得到重组人-物交互预测物交互预测将训练图像i2的人-物对预测y
p2
和交互动作预测组合，得到重组人-物交互预测物交互预测重组人-物交互预测和重组人-物交互预测为重组人-物交互预测。
[0069]
步骤t6-7，根据训练图像i1对应的真实标签得到人-物对真实标签和交互动作真实标签根据训练图像i2对应的真实标签得到人-物对真实标签和交互动作真实标签
[0070]
步骤t6-8，根据ni类人-物交互，将人-物对真实标签和交互动作真实标签逐一配对组合，得到对应重组人-物交互预测的重组真实标签将人-物对真实标签和交互动作真实标签逐一配对组合，得到对应重组人-物交互预测的重组真实标签重组真实标签和重组真实标签为重组真实标签。
[0071]
图4是本发明的实施例中交叉重组的原理示意图。
[0072]
如图4所示，第1训练图像包含两个人-物交互动作，分别为“person sit on couch”和“person readbook”，第2训练图像包含两个人-物交互动作，分别为“person carry suitcase”和“person wear backpack”，由第1训练图像得到最准确人-物对特征向量组的2条人-物对特征向量p1-1和p1-2以及最准确交互动作特征向量组的2条交互动作特
征向量i1-1和i1-2，由第2训练图像得到最准确人-物对特征向量组的2条人-物对特征向量p2-1和p2-2以及最准确交互动作特征向量组的2条交互动作特征向量i2-1和i2-2。将人-物对特征向量p1-1和p1-2与交互动作特征向量i2-1和i2-2逐一拼接，得到重组人物交互特征组r1，包括：p1-1与i2-1、p1-1与i2-2、p1-2与i2-1和p1-2与i2-2，对应的真实标签进行重组得到对应的“carry couch”、“wear couch”、“carrybook”和“wearbook”，经过筛选后得到重组真实标签“carrybook”。将人-物对特征向量p2-1和p2-2与交互动作特征向量i1-1和i1-2逐一拼接，得到重组人物交互特征组r2，包括：p2-1与i1-1、p2-1与i1-2、p2-2与i1-1和p2-2与i1-2，对应的真实标签进行重组得到对应的“sit on suitcase”、“read suitcase”、“sit on backpack”和“readbackpack”，经过筛选后无适用重组真实标签。
[0073]
图5是本发明的实施例中内部重组的流程示意图。
[0074]
如图5所示，根据训练图像i1和训练图像i2的最准确人-物交互预测，进行内部重组时，步骤t6包含以下子步骤：
[0075]
步骤t6-1，根据训练图像i1的最准确人-物交互预测得到训练图像i1的最准确人-物对特征向量组和最准确交互动作特征向量组
[0076]
步骤t6-2，根据训练图像i2的最准确人-物交互预测得到训练图像i2的最准确人-物对特征向量组和最准确交互动作特征向量组
[0077]
步骤t6-3，将最准确人-物对特征向量组的条人-物对特征向量分别与最准确交互动作特征向量组的条交互动作特征向量逐一拼接，再去除原始的人-物对特征向量和交互动作特征向量的组合，得到重组人物交互特征组
[0078]
步骤t6-4，将最准确人-物对特征向量组的条人-物对特征向量分别与最准确交互动作特征向量组的条交互动作特征向量逐一拼接，再去除原始的人-物对特征向量和交互动作特征向量的组合，得到重组人物交互特征组
[0079]
步骤t6-5，将重组人物交互特征组和重组人物交互特征组分别输入交互动作分类前馈网络，分别得到交互动作预测和交互动作预测
[0080]
步骤t6-6，将训练图像i1的人-物对预测y
p1
和交互动作预测组合，得到重组人-物交互预测将训练图像i2的人-物对预测y
p2
和交互动作预测组合，得到重组人-物交互预测重组人-物交互预测和重组人-物交互预测为重组人-物交互预测。
[0081]
步骤t6-7，根据训练图像i1对应的真实标签得到人-物对真实标签和交互动作真实标签根据训练图像i2对应的真实标签得到人-物对真实标签和交互动作真实标签
[0082]
步骤t6-8，根据ni类人-物交互，将人-物对真实标签和交互动作真实标签
逐一配对组合，再去除训练图像i1对应的真实标签得到对应重组人-物交互预测的重组真实标签重组真实标签将人-物对真实标签和交互动作真实标签逐一配对组合，再去除训练图像i2对应的真实标签得到对应重组人-物交互预测的重组真实标签的重组真实标签重组真实标签和重组真实标签为重组真实标签。
[0083]
其中，人-物对真实标签的一个物体类别与交互动作真实标签中的一个交互动作特征向量中的一个动作类别的组合超出ni类人-物交互时，在重组真实标签中将交互动作特征向量中对应该物体类别的元素值置为0。
[0084]
人-物对真实标签的一个物体类别与交互动作真实标签中的一个交互动作特征向量中的所有动作类别的组合均超出ni类人-物交互时，在重组真实标签中将物体类别与交互动作特征向量的组合剔除。
[0085]
人-物对真实标签的一个物体类别与交互动作真实标签中的所有交互动作特征向量中的所有动作类别的组合均超出ni类人-物交互时，在重组真实标签中物体类别对应一条全零的交互动作特征向量。图6是本发明的实施例中内部重组的原理示意图。
[0086]
如图6所示，第1训练图像包含两个人-物交互动作，分别为“person sit on couch”和“person read book”，第2训练图像包含两个人-物交互动作，分别为“person carry suitcase”和“person wear backpack”，由第1训练图像得到最准确人-物对特征向量组的2条人-物对特征向量p1-1和p1-2以及最准确交互动作特征向量组的2条交互动作特征向量i1-1和i1-2，由第2训练图像得到最准确人-物对特征向量组的2条人-物对特征向量p2-1和p2-2以及最准确交互动作特征向量组的2条交互动作特征向量i2-1和i2-2。将人-物对特征向量p1-1和p1-2与交互动作特征向量i1-1和i1-2逐一拼接并剔除原有人物交互特征，得到重组人物交互特征组r1，包括：p1-1与i1-2和p1-2与i1-1，对应的真实标签进行重组得到对应的“read couch”和“sit on book”，经过筛选后无适用重组真实标签。将人-物对特征向量p2-1和p2-2与交互动作特征向量i2-1和i2-2逐一拼接并剔除原有人物交互特征，得到重组人物交互特征组r2，包括：p2-1与i2-2和p2-2与i2-1，对应的真实标签进行重组得到对应的“wear suitcase”和“carry backpack”，经过筛选后得到重组真实标签“carry backpack”。
[0087]
步骤t7，根据两个训练图像的最准确人-物交互预测和真实标签，以及重组人-物交互预测和重组真实标签计算损失函数，根据损失函数计算结果对交互动作解码器的参数进行优化。
[0088]
其中，在步骤t7中，损失函数的计算公式如下：
[0089]
l＝λb·
lb+λu·
lu+λo·
lo+λa·
la，
[0090]
式中lb、lu、lo和la分别为边框回归损失函数、边框交并比损失函数、物体类别损失函数和动作类别损失函数，λb、λu、λo和λa分别为边框回归损失函数、边框交并比损失函数、物体类别损失函数和动作类别损失函数的权重超参数，l为损失函数，本实施例中λb、λu、λo和λa分别设为2.5、1、1和1。
[0091]
损失函数计算结果的计算公式如下：
[0092]
l
batch
＝ρ
·
l
orig
+(1-ρ)
·
l
compo
，
[0093]
式中l
batch
为损失函数计算结果，l
orig
为最准确人-物交互预测和真实标签计算损失函数l的结果，l
compo
为重组人-物交互预测和重组真实标签计算损失函数l的结果，ρ是平衡两者的权重超参数，本实施例中ρ设为0.9。
[0094]
步骤t8，重复执行步骤t1至步骤t7，直至训练样本中所有训练图像均对模型的参数进行优化，则模型训练完成。
[0095]
本实施例中对本发明的基于重组样本学习的人-物交互动作识别方法构建的模型的训练沿用现有工作cdn的设置，使用adamw作为优化器，一共遍历100次数据集，数据集包括多张训练图像和对应的真实标签，每次随机选取两张训练图像和对应的真实标签对模型进行训练，将数据集中的所有训练图像均用于训练模型，则遍历1次数据集，其中前60次的学习率设置为10-4
，第61至90次的学习率降为10-5
，第91至100次是对编码器和前馈网络的微调阶段，沿用现有工作cdn提出的动态调整动作类别在损失函数中的权重的方法，最终得到训练好的模型。
[0096]
本实施例中将本发明的基于重组样本学习的人-物交互动作识别方法、vcl方法、fcl方法和consnet方法在各自的卷积神经网络下构建对应的模型，得到本发明模型、vcl模型、fcl模型和consnet模型，在公开数据集v-coco上进行各模型的人-物交互动作识别测试，各模型测试结果的map指标如下表所示：
[0097][0098]
表中第一列为各个模型的名称，第二列为各个模型所使用的卷积神经网络，第三列为各个模型是否引入了额外信息，第四列为各个模型识别结果对应的map数值。例如第五行第四列的单元格表示本发明模型在v-coco数据集上对人-物交互动作识别结果的map指标即平均精度为57.24％。由上表可知，本发明模型相较于其他三个模型不仅未引入额外信息，还在v-coco数据集上具有最好的人-物交互动作识别预测精度。
[0099]
本实施例中将本发明的基于重组样本学习的人-物交互动作识别方法、analogy方法、functional方法、vcl方法、atl方法、fcl方法和consnet方法在各自的卷积神经网络下构建对应的模型，得到本发明模型、analogy模型、functional模型、vcl模型、atl模型、fcl模型和consnet模型，在公开数据集hico-det的三类测试集即全部类别、罕见类别和非罕见
类别上进行各模型的人-物交互动作识别测试，各模型测试结果的map指标如下表所示：
[0100][0101]
表中第一列为各个模型的名称，第二列为各个模型所使用的卷积神经网络，第三列为各个模型是否引入了额外信息，第四列为在全部类别测试集上各个模型识别结果对应的map数值，第五列为在罕见类别测试集上各个模型识别结果对应的map数值，第六列为在非罕见类别测试集上各个模型识别结果对应的map数值。例如第八行第四列的单元格表示本发明模型在hico-det数据集的全部类别测试集上对人-物交互动作识别结果的map指标即平均精度为29.63％。由上表可知，本发明模型相较于其他六个模型不仅未引入额外信息，还在hico-det数据集的三个测试集上均具有最好的人-物交互动作识别预测精度。
[0102]
实施例的作用与效果
[0103]
根据本实施例所涉及的基于重组样本学习的人-物交互动作识别方法，在训练模型时通过交叉重组或内部重组，使得在不依赖额外信息的情况下增强了训练图像的表征能力，实现了人-物交互动作知识的跨类别迁移与泛化。总之，本方法能够缓解长尾分布带来的性能不均衡，提高人-物交互动作识别的精度。
[0104]
上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

技术特征：
1.一种基于重组样本学习的人-物交互动作识别方法，用于根据包含n
q
个随机初始化查询向量的查询向量组q
p
和n
i
类人-物交互对待识别图像进行识别得到识别结果，其特征在于，包括以下步骤：步骤s1，将所述待识别图像输入卷积神经网络进行特征提取，再经由transformer编码器编码，得到全局特征向量x
s
和位置编码向量e；步骤s2，将所述全局特征向量x
s
、所述位置编码向量e和所述查询向量组q
p
输入人-物对解码器，得到n
q
个人-物对的特征向量作为人-物对特征向量组r
p
；步骤s3，将所述全局特征向量x
s
、所述位置编码向量e和所述人-物对特征向量组r
p
输入交互动作解码器，得到所述n
q
个所述人-物对的交互动作特征向量作为交互动作特征向量组r
i
；步骤s4，将所述人-物对特征向量组r
p
和所述交互动作特征向量组r
i
输入前馈神经网络，得到人-物对预测物对预测和交互动作预测y
i
＝{a
n
,n∈{1,2,...,n
q
}}；步骤s5，根据所述人-物对预测y
p
、所述交互动作预测y
i
和所述n
i
类人-物交互，得到所述n
q
个人-物对的人-物交互预测结果物交互预测结果作为所述识别结果，其中，为第n个所述人-物对的人体边框，为第n个所述人-物对的物体边框，o
n
为第n个所述人-物对的包含所有物体类别的预测置信度的物体类别置信度向量，a
n
为第n个所述人-物对的包含所有动作类的动作类别置信度向量，y'
n
为第n个所述人-物对的人-物交互预测结果，u
n
为第n个所述人-物对的预测物体类别，v
n
为第n个所述人-物对的预测动作类别，为第n个所述人-物对的最大置信度。2.根据权利要求1所述的基于重组样本学习的人-物交互动作识别方法，其特征在于：其中，所述步骤s1包括以下子步骤：步骤s1-1，将所述待识别图像输入所述卷积神经网络进行特征提取，得到视觉特征图x
v
；步骤s1-2，根据所述视觉特征图x
v
，得到所述位置编码向量e；步骤s1-3，将所述视觉特征图x
v
和所述位置编码向量e输入所述transformer编码器编码，得到所述全局特征向量x
s
。3.根据权利要求1所述的基于重组样本学习的人-物交互动作识别方法，其特征在于：其中，所述前馈神经网络包括人-物分类前馈网络和交互动作分类前馈网络，所述步骤s4包括以下子步骤：步骤s4-1，将所述交互动作特征向量组r
i
输入所述人-物分类前馈网络，得到所述n
q
个人-物对的所述人-物对预测；步骤s4-2，将所述人-物对特征向量组r
p
和所述交互动作特征向量组r
i
进行拼接再输入所述交互动作分类前馈网络，得到所述n
q
个人-物对的所述交互动作预测。4.根据权利要求1所述的基于重组样本学习的人-物交互动作识别方法，其特征在于：其中，所述步骤s5包括以下子步骤：
步骤s5-1，对每个所述人-物对，根据所述n
i
类人-物交互，将所述动作类别置信度向量和所述物体类别置信度向量进行乘积计算，得到n
i
个置信度乘积；步骤s5-2，对每个所述人-物对，选取最大的所述置信度乘积作为所述人-物对的所述最大置信度，将所述最大置信度对应的所述物体类别和所述动作类别分别作为所述人-物对的所述预测物体类别和所述预测动作类别；步骤s5-3，对所述n
q
个人-物对的所述最大置信度从大到小进行排序，得到所述n
q
个人-物对的所述人-物交互预测结果。5.根据权利要求1所述的基于重组样本学习的人-物交互动作识别方法，其特征在于：其中，通过包含多个训练图像及其对应的真实标签的训练样本、n
i
类人-物交互和包含n
q
个随机初始化查询向量的查询向量组q
p
对包括所述卷积神经网络、所述transformer编码器、所述人-物对解码器、所述交互动作解码器和所述前馈神经网络的模型进行训练，包括以下步骤：步骤t1，从所述训练样本中随机选择训练图像i1和训练图像i2，将所述训练图像i1和所述训练图像i2输入所述卷积神经网络进行特征提取，再经由所述transformer编码器编码，分别得到所述训练图像的全局特征向量和位置编码向量；步骤t2，对每个所述训练图像，将所述全局特征向量、所述位置编码向量和所述查询向量组q
p
输入所述人-物对解码器，得到n
q
个人-物对的特征向量作为人-物对特征向量组；步骤t3，对每个所述训练图像，将所述全局特征向量、所述位置编码向量和所述人-物对特征向量组输入所述交互动作解码器，得到所述n
q
个人-物对的交互动作特征向量作为交互动作特征向量组；步骤t4，对每个所述训练图像，将所述人-物对特征向量组和所述交互动作特征向量组输入所述前馈神经网络，得到人-物对预测和交互动作预测，将所述人-物对预测和所述交互动作预测直接组合，得到人-物交互预测；步骤t5，对每个所述训练图像，根据匈牙利算法将所述人-物交互预测与所述训练图像对应的所述真实标签进行匹配，得到最准确人-物交互预测；步骤t6，根据所述两个训练图像的所述最准确人-物交互预测，得到对应的最准确人-物对特征向量和最准确交互动作特征向量，对所述最准确人-物对特征向量和所述最准确交互动作特征向量进行交叉重组或内部重组，得到重组人-物交互特征向量组，输入交互动作分类前馈网络，得到重组人-物交互预测，并对所述两个训练图像对应的所述真实标签进行重组，得到重组真实标签；步骤t7，根据所述两个训练图像的所述最准确人-物交互预测和所述真实标签，以及所述重组人-物交互预测和所述重组真实标签计算损失函数，根据损失函数计算结果对所述交互动作解码器的参数进行优化；步骤t8，重复执行所述步骤t1至所述步骤t7，直至所述训练样本中所有所述训练图像均对所述模型的参数进行优化，则所述模型训练完成，第k个所述训练图像的所述最准确人-物交互预测物交互预测物交互预测为第k个所述训练图像的第n个所述人-物对的最准确人-物交互预测，为第k个所述训练图像的第n个所述人-物对的最准确人体边
框，为第k个所述训练图像的第n个所述人-物对的最准确物体边框，o
kn
为第k个所述训练图像的第n个所述人-物对的最准确物体类别置信度向量，a
kn
为第k个所述训练图像的第n个所述人-物对的最准确动作类别置信度向量，为第k个所述训练图像中人-物交互实例的真实数量。6.根据权利要求5所述的基于重组样本学习的人-物交互动作识别方法，其特征在于：其中，根据所述训练图像i1和所述训练图像i2的所述最准确人-物交互预测，进行所述交叉重组时，所述步骤t6包括以下子步骤：步骤t6-1，根据所述训练图像i1的最准确人-物交互预测得到所述训练图像i1的最准确人-物对特征向量组和最准确交互动作特征向量组步骤t6-2，根据所述训练图像i2的最准确人-物交互预测得到所述训练图像i2的最准确人-物对特征向量组和最准确交互动作特征向量组步骤t6-3，将所述最准确人-物对特征向量组的条人-物对特征向量分别与所述最准确交互动作特征向量组的条交互动作特征向量逐一拼接，得到重组人物交互特征组步骤t6-4，将所述最准确人-物对特征向量组的条人-物对特征向量分别与所述最准确交互动作特征向量组的条交互动作特征向量逐一拼接，得到重组人物交互特征组步骤t6-5，将所述重组人物交互特征组和所述重组人物交互特征组分别输入所述交互动作分类前馈网络，分别得到交互动作预测和交互动作预测步骤t6-6，将所述训练图像i1的人-物对预测y
p1
和所述交互动作预测组合，得到重组人-物交互预测将所述训练图像i2的人-物对预测y
p2
和所述交互动作预测组合，得到重组人-物交互预测所述重组人-物交互预测和所述重组人-物交互预测为所述重组人-物交互预测；步骤t6-7，根据所述训练图像i1对应的真实标签得到人-物对真实标签和交互动作真实标签根据所述训练图像i2对应的真实标签得到人-物对真实标签和交互动作真实标签步骤t6-8，根据所述n
i
类人-物交互，将所述人-物对真实标签和所述交互动作真实标签逐一配对组合，得到对应所述重组人-物交互预测的重组真实标签将所述人-物对真实标签和所述交互动作真实标签逐一配对组合，得到对应所述重组人-物
交互预测的重组真实标签所述重组真实标签和所述重组真实标签为所述重组真实标签。7.根据权利要求5所述的基于重组样本学习的人-物交互动作识别方法，其特征在于：其中，根据所述训练图像i1和所述训练图像i2的所述最准确人-物交互预测，进行所述内部重组时，所述步骤t6包含以下子步骤：步骤t6-1，根据所述训练图像i1的最准确人-物交互预测得到所述训练图像i1的最准确人-物对特征向量组和最准确交互动作特征向量组步骤t6-2，根据所述训练图像i2的最准确人-物交互预测得到所述训练图像i2的最准确人-物对特征向量组和最准确交互动作特征向量组步骤t6-3，将所述最准确人-物对特征向量组的条人-物对特征向量分别与所述最准确交互动作特征向量组的条交互动作特征向量逐一拼接，再去除原始的所述人-物对特征向量和所述交互动作特征向量的组合，得到重组人物交互特征组步骤t6-4，将所述最准确人-物对特征向量组的条人-物对特征向量分别与所述最准确交互动作特征向量组的条交互动作特征向量逐一拼接，再去除原始的所述人-物对特征向量和所述交互动作特征向量的组合，得到重组人物交互特征组步骤t6-5，将所述重组人物交互特征组和所述重组人物交互特征组分别输入所述交互动作分类前馈网络，分别得到交互动作预测和交互动作预测步骤t6-6，将所述训练图像i1的人-物对预测y
p1
和所述交互动作预测组合，得到重组人-物交互预测将所述训练图像i2的人-物对预测y
p2
和所述交互动作预测组合，得到重组人-物交互预测所述重组人-物交互预测和所述重组人-物交互预测为所述重组人-物交互预测；步骤t6-7，根据所述训练图像i1对应的真实标签得到人-物对真实标签和交互动作真实标签根据所述训练图像i2对应的真实标签得到人-物对真实标签和交互动作真实标签步骤t6-8，根据所述n
i
类人-物交互，将所述人-物对真实标签和所述交互动作真实标签逐一配对组合，再去除所述训练图像i1对应的所述真实标签得到对应所述重组人-物交互预测的重组真实标签将所述人-物对真实标签和所述交互动作真实标签逐一配对组合，再去除所述训练图像i2对应的所述真实标签得到对应所述重组人-物交互预测的重组真实标签所述重组真实标签和所述重组真实标签为
所述重组真实标签。8.根据权利要求6或7所述的基于重组样本学习的人-物交互动作识别方法，其特征在于：其中，所述人-物对真实标签的一个所述物体类别与所述交互动作真实标签中的一个所述交互动作特征向量中的一个所述动作类别的组合超出所述n
i
类人-物交互时，在所述重组真实标签中将所述交互动作特征向量中对应该所述物体类别的元素值置为0，所述人-物对真实标签的一个所述物体类别与所述交互动作真实标签中的一个所述交互动作特征向量中的所有所述动作类别的组合均超出所述n
i
类人-物交互时，在所述重组真实标签中将所述物体类别与所述交互动作特征向量的组合剔除，所述人-物对真实标签的一个所述物体类别与所述交互动作真实标签中的所有所述交互动作特征向量中的所有所述动作类别的组合均超出所述n
i
类人-物交互时，在所述重组真实标签中所述物体类别对应一条全零的所述交互动作特征向量。9.根据权利要求5所述的基于重组样本学习的人-物交互动作识别方法，其特征在于：其中，在所述步骤t7中，所述损失函数的计算公式如下：l＝λ
b
·
l
b
+λ
u
·
l
u
+λ
o
·
l
o
+λ
a
·
l
a
,式中l
b
、l
u
、l
o
和l
a
分别为边框回归损失函数、边框交并比损失函数、物体类别损失函数和动作类别损失函数，λ
b
、λ
u
、λ
o
和λ
a
分别为所述边框回归损失函数、所述边框交并比损失函数、所述物体类别损失函数和所述动作类别损失函数的权重超参数，l为所述损失函数，所述损失函数计算结果的计算公式如下：l
batch
＝ρ
·
l
orig
+(1-ρ)
·
l
compo
，式中l
batch
为所述损失函数计算结果，l
orig
为所述最准确人-物交互预测和所述真实标签计算所述损失函数l的结果，l
compo
为所述重组人-物交互预测和所述重组真实标签计算所述损失函数l的结果，ρ是平衡两者的权重超参数。

技术总结
本发明提供了一种基于重组样本学习的人-物交互动作识别方法，具有这样的特征，包括以下步骤：步骤S1，将待识别图像进行特征提取和编码，得到全局特征向量和位置编码向量；步骤S2，将全局特征向量、位置编码向量和查询向量组输入人-物对解码器，得到人-物对特征向量组；步骤S3，将全局特征向量、位置编码向量和人-物对特征向量组输入交互动作解码器，得到交互动作特征向量组；步骤S4，将人-物对特征向量组和交互动作特征向量组输入前馈神经网络，得到人-物对预测和交互动作预测；步骤S5，根据人-物对预测、交互动作预测和N

技术研发人员：梁爽庄子鲲王颉文谢驰
受保护的技术使用者：同济大学
技术研发日：2023.04.23
技术公布日：2023/7/25

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种基于楼宇环境的智能监管系统的制作方法 下一篇：下水管浮球式防反涌水阀门的制作方法

基于重组样本学习的人-物交互动作识别方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于重组样本学习的人-物交互动作识别方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表