一种三维手物交互姿态估计方法、装置及存储介质

未命名 08-15 阅读：119 评论：0

1.本发明涉及图像处理与三维姿态估计领域，尤其涉及一种三维手物交互姿态估计方法、装置及存储介质。

背景技术：

2.基于单张rgb图片的三维手物交互姿态估计任务，是根据一张rgb图片估计出图片中的手和物体的三维姿态。三维手物交互姿态估计估计，在虚拟现实，增强显示，人机交互模仿等领域有着重要的意义。
3.目前三维手物交互姿态估计估计面临的主要是问题是在手和物体交互的过程中会发生相互遮挡，导致信息的丢失。这个问题的一个主流解决方案是利用上下文。由于物理约束，交互的手和对象往往在其姿态方面高度相关，这意味着一方可以为另一方提供有用的上下文信息。采用这种解决方案的方法通常采用一个骨干分别提取手部和物体的特征。这种统一的骨架模型保证了手和物体特征位于同一空间，从而促进了后续基于transformer的方法在手和物体之间的相互特征增强。然而，如果使用单个主干模型，手部和物体姿态估计任务在特征学习中是有竞争力的。更详细地说，当手和物体彼此靠近时，主干模型将它们都视为前景，因此可能无法区分手的特征和物体的特征。一个简单的解决方案是使用两个主干，一个用于手，另一个用于对象；当采用这种方法时，每个骨干只有一个目标作为前景。该策略的主要缺点包括模型参数量大，更重要的是两个主干之间的特征空间不同，这给手和物体之间的相互特征增强带来了困难。并且目前的方法大多利用手的特征对物体特征进行增强，而没有使用物体特征对手的特征进行增强。

技术实现要素：

4.本发明的主要目的在于克服现有技术的缺点与不足，提供一种三维手物交互姿态估计方法、装置及存储介质，提升了三维手物交互姿态估计的性能。
5.为了达到上述目的，本发明采用以下技术方案：
6.第一方面，本发明提供了一种三维手物交互姿态估计方法，包括以下步骤：
7.获取三维手物交互姿态估计数据集的训练集，并对训练集进行增强处理；
8.构建三维手物交互姿态估计网络并对三维手物交互姿态估计网络进行初始化；所述三维手物交互姿态估计网络包括基于cnn的主干网络、基于transformer的object-to-hand enhancement网络和hand-to-object enhancement网络、手部解码器网络和物体解码器网络，所述手部解码器网络根据object-to-hand enhancement网络的输出预测出手的三维关节点以及三维手部网格，所述物体解码器网络根据hand-to-object enhancement网络的输出预测出物体的二维预测控制点和每个二维预测控制点的置信度；
9.在训练中使用预设的损失函数监督三维手物交互姿态估计网络的输出；
10.在测试时，手部姿态估计的结果由手部解码器输出，物体的位移和旋转根据物体解码器输出的结果使用pnp来得到。
11.作为优选的技术方案，所述对训练集进行增强处理包括尺度缩放、旋转、平移和颜色抖动。
12.作为优选的技术方案，所述基于cnn的主干网络采用残差网络，包括手部分支和物体分支，所述手部分支和物体分支共享残差网络的浅层卷积层和深层卷积层，不共享中间卷积层，深层卷积层连接两个fpn网络，得到手部特征图ph和物体特征图po，最后使用roi通过手的边界框从ph和po中提取出手部特征fh，和用于增强手的物体特征f
oh
，通过物体的边界框从物体特征图中提取出物体特征fo，通过手和物体边界框的交界区域从手特征图中提取出用于增强物体的手部特征f
ho
。
13.作为优选的技术方案，所述object-to-hand enhancement网络的构造方法为：
14.使用transformer结构，由级联的自注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络模块构成，自注意力模块的查询矩阵、键矩阵和值矩阵分别为qh，kh和vh，最后的输出为增强后的手部特征f
he
；
15.其中，qh，kh和vh是由特征fh通过1x1的卷积层到的，特征fh是将特征fh和f
oh
在通道维度进行拼接后得到。
16.作为优选的技术方案，所述hand-to-object enhancement网络的构造方法为：
17.使用transformer结构，由级联的互注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络模块构成，互注意力模块的查询矩阵、键矩阵和值矩阵分别为qo，ko和vo，最后的输出为增强后的物体特征f
oe
。
18.作为优选的技术方案，所述手部解码器网络包含一个沙漏网络、两个卷积层、四个残差连接网络、三个全连接层、两个线性层以及mano层，四个残差连接网络的中间带有池化层，三个全连接层的中间有leakyrelu激活函数手部解码器的输入为特征图f
he
，输出为三维手部关节点以及三维手部网格。
19.作为优选的技术方案，物体解码器网络包含七个卷积层，七个卷积层的中间有leakyrelu激活函数以及bn层，所述物体解码器网络的输入为增强后的物体特征f
oe
，输出为物体特征图上每个网格到二维预测控制点的偏移值，以及每个网格对于二维预测控制点预测结果的置信度。
20.作为优选的技术方案，所述预设的损失函数包括l1损失函数和mse损失；
21.其中，l1损失函数用于监督二维物体控制点和二维物体控制点的置信度；mse损失函数用于监督二维手部关节点，三维手部关节点，三维网格，mano模型的shape参数和pose参数。
22.第二方面，本发明提供了一种三维手物交互姿态估计装置，应用于所述的一种三维手物交互姿态估计方法，包括数据采集模块、姿态估计模块、训练模块以及测试模块；
23.所述数据采集模块，用于获取三维手物交互姿态估计数据集的训练集，并对训练集进行增强处理；
24.所述姿态估计模块，用于构建三维手物交互姿态估计网络并对三维手物交互姿态估计网络进行初始化；所述三维手物交互姿态估计网络包括基于cnn的主干网络、基于transformer的object-to-hand enhancement网络和hand-to-object enhancement网络、手部解码器网络和物体解码器网络，所述手部解码器网络根据object-to-hand enhancement网络的输出预测出手的三维关节点以及三维网格，所述物体解码器网络根据
hand-to-object enhancement网络的输出预测出物体的2d预测控制点和每个2d预测控制点的置信度；
25.所述训练模块，用于在训练中使用预设的损失函数监督三维手物交互姿态估计网络的输出；
26.所述测试模块，用于在测试时，手部姿态估计的结果由手部解码器输出，物体的位移和旋转根据物体解码器输出的结果使用pnp来得到。
27.第三方面，本发明提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的一种三维手物交互姿态估计方法。
28.本发明与现有技术相比，具有如下优点和有益效果：
29.本发明通过两个分支共享resnet-50中的浅层卷积层(stage-0，stage-1)和深层卷积层(stage-4)，以及不共享的中间卷积层(stage-2，stage-3)。将浅层生成的特征图输入到两组中层，分别将手部和物体作为唯一的前景目标。因此，手部和物体的特征学习的竞争关系将会得到缓解。最后，通过共享深层卷积层的参数，使手部特征和物体特征处于相似的特征空间。通过这种方式我实现了手部和物体姿态估计的和谐特征学习。此外，还提出了一种新的基于transformer的手部特征增强方法，通过把手和物体特征图中手部边界框区域的特征通过roi提取出来，然后在通道维度拼接，最后进行自注意力，将物体的特征注入到手中，以此来恢复手被遮挡的区域。最终提升了三维手物交互姿态估计的性能。
附图说明
30.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
31.图1是本发明实施例中一种三维手物交互姿态估计方法的步骤流程图；
32.图2是本发明实施例中主干网络的基本网络结构示意图；
33.图3是本发明实施例中hand-to-object enhancement的基本网络结构示意图；
34.图4是本发明实施例中object-to-hand enhancement的基本网络结构示意图；
35.图5是本发明实施例中手部解码器的基本网络结构示意图；
36.图6是本发明实施例中物体解码器的基本网络结构示意图；
37.图7是本发明实施例中三维手物交互姿态估计装置的结构示意图；
38.图8是本发明实施例中计算机可读存储介质的结构示意图。
具体实施方式
39.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
40.在本技术中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相
同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本技术所描述的实施例可以与其它实施例相结合。
41.cnn：卷积神经网络(convolutional neural networks)，是一类包含卷积计算且具有深度结构的前馈神经网络。
42.如图1所示，本实施例提供一种基于和谐特征的手物交互姿态估计方法，该方法通过两个分支共享resnet-50中的浅层卷积层(stage-0，stage-1)和深层卷积层(stage-4)，以及不共享的中间卷积层(stage-2，stage-3)，提取出和谐的特征，有利于减弱手和物体两个任务之间的竞争关系，并且使得手和物体的特征更容易进行相互增强，接着将提取出的手部特征和物体特征输入到两个基于transformer的特征融合模块中对两个分支的特征进行补充，能进一步提升当前三维手和物体姿态估计的效果包括以下步骤：
43.s1、获取三维手和物体姿态估计的训练集，并对训练集进行增强处理。
44.对输入的训练图片进行数据增强；在本实施例中，对数据集ho3d的训练数据进行数据增强，具体为：对于一张输入图片，包括尺度缩放(
±
20％)，旋转(
±
180。)，平移(
±
10％)和颜色抖动(
±
10％)。
45.s2、构建三维手物交互姿态估计网络并对三维手物交互姿态估计网络进行初始化。
46.步骤s2具体包括步骤s21-s23：
47.s21、构建并初始化基于cnn的主干网络，其中手和物体分支共享resnet-50的stage-0，stage-1，stage-4，并且具有独立的stage-2和stage-3；
48.s22、构建并初始化基于transformer的object-to-hand enhancement和hand-to-object enhancement网络；
49.s23、构建手部解码器和物体解码器，根据object-to-hand enhancement和hand-to-object enhancement的输出预测手的三维网格和物体的二维关键点(在测试的时候物体分支通过pnp预测出物体的6d姿态)，并对手部解码器和物体解码器网络进行初始化。
50.(1)如图2所示，对于一张经过数据增强后的训练图片，首先分别经过两个分支的基于cnn的深度神经网络和fpn网络，得到手部特征图ph和物体特征图po。最后使用roi通过手的边界框从手部和物体特征ph和po中提取出手部特征fh和用于增强手的物体特征f
oh
，通过物体的边界框从物体特征图中提取出物体特征fo，通过手和物体边界框的交界区域从手特征图中提取出用于增强物体的手部特征f
ho
。
51.本实施例中构建的基于cnn的深度神经网络为resnet-50网络，两个分支共享resnet-50的stage-0，stage-1，stage-4，并且具有独立的stage-2和stage-3；初始化方式为用在imagenet上训练好的参数作为初始化参数。
52.(2)得到fh，f
oh
，fo，f
ho
后，将特征fh，f
oh
在通道维度进行拼接后得到特征fh，将fh输入到object-to-hand enhancement网络中，将fo，f
ho
输入到hand-to-object enhancement网络中。
53.在本实施例中，object-to-hand enhancement网络是基于transformer结构的。本实施例的object-to-hand enhancement结构由图3所示，由多头自注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络构成。由图3可知，transformer的查询矩阵、键矩阵和值矩阵分别为：
54.qh＝w
hqfh
55.kh＝w
hkfh
[0056]vh
＝w
hvfh
[0057]
其中，w
hq
，w
hk
，w
hv
为1x1的卷积层。
[0058]
object-to-hand enhancement的计算过程表达为：
[0059]fhe
＝fh(qh,kh,vh)
[0060]
其中f
he
为特征经过object-to-hand enhancement网络后得到的输出，fh代表transformer结构。
[0061]
接下来，从特征f
he
中切分出前一半的通道得到特征f
he
。
[0062]
在本实施例中，hand-to-object enhancement网络是基于transformer结构的。本实施例的hand-to-object enhancement网络结构由图4所示，由多头互注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络构成。由图4可知，transformer的查询矩阵、键矩阵和值矩阵分别为：
[0063]qo
＝w
oqfo
[0064]ko
＝w
okfho
[0065]vo
＝w
ovfho
[0066]
其中，w
oq
，w
ok
，w
ov
为1x1的卷积层。
[0067]
hand-to-object enhancement的计算过程表达为：
[0068]foe
＝fo(qo,ko,vo)
[0069]
其中f
oe
为特征经过hand-to-object enhancement后得到的输出，f o
代表transformer结构。
[0070]
(3)接下来，object-to-hand enhancement网络的输出特征f
he
输入到手部解码器中。
[0071]
在本实施例中，手部解码器网络包含一个沙漏网络，两个卷积层，四个残差连接网络(中间带有池化层)，三个全连接层(中间leakyrelu激活函数)，两个线性层以及mano层。手部解码器的输入为特征图f
he
，输出为21个三维手部关节点，以及三维手部网格。本实施例的手部解码器网络结构由图5所示。
[0072]
沙漏网络的输入为f
he
，输出为特征和二维热图h。将二维热图经过softmax得到21个二维关节点，特征和二维关节点经过卷积层后，相加在一起输入到四个残差连接网络中，得到维度为1024的特征，然后输入到三个全连接层中，再将全连接层的输出输入到两个线性层中，得到mano模型的pose参数θ和shape参数β。最后，将θ和β输入到mano模型中，得到三维手部网格和21个三维手部关节点。
[0073]
(4)接下来，hand-to-object enhancement网络的输出特征f
oe
输入到物体解码器网络中。
[0074]
在本实施例中，物体解码器网络包含七个卷积层(中间有leakyrelu激活函数以及bn层)。本实施例的物体解码器网络结构由图6所示。
[0075]
s3、在训练中使用预设的损失函数监督手部姿态估计网络和物体姿态估计网络的输出。
[0076]
在得到手部解码器和物体解码器网络的预测输出后，本实施例使用多种损失函数
对其监督，具体的总的损失函数为：
[0077][0078][0079][0080][0081][0082]
l
hand
＝λhlh+λ
3d
l
3d
+l
mano
[0083]
l
obj
＝λclc+λ
p2d
l
p2d
[0084]
其中l
hand
和l
obj
分别为手部解码器和物体解码器网络的总损失函数；lh、l
3d
、l
mano
为mse loss,l
p2d
、lc为l1 loss；其中，lh用于监督二维手部关节点，l
3d
用于监督三维手部关节点和三维网格，l
mano
用于监督mano模型的pose参数θ和shape参数β，l
p2d
用于监督二维物体控制点，lc用于监督预测的二维物体控制点的置信度；λ
β
、λ
θ
、λ
3d
、λh、λ
p2d
、λc为权重，在本实施例中λ
β
、λ
θ
、λ
3d
、λh、λ
p2d
、λc分别为0.1、10、10000、100、500和100。
[0085]
s4、在测试时，手部分支采用手部解码器的输出结果，物体分支根据物体解码器输出的结果使用pnp得到物体的位移和旋转。
[0086]
具体来说，在得到物体分支输出的二维控制点和控制点的置信度后，从输出的结果中为每个控制点选择置信度最高的10个点(过滤掉置信度低于0.5的点)，通过相机内参，选择的二维控制点和对应的三维点，使用pnp预测出物体的位移和旋转。
[0087]
为了验证本发明的有效性，如下表1所示，我们在ho3d数据集上进行了实验，采用mean joint error and mesh error after the procrustes alignment(pampjpe和pampvpe)单位为毫米和f-scores的衡量标准来评估三维手部姿态估计的性能，结果是将网络的输出提交到官方服务器上，从官方评估服务器返回的。表1为本发明与其它方法在ho3d上三维手部姿态估计的对比数据表。
[0088]
表1
[0089]
methodsjointmeshf@5f@15liu et al.10.19.753.295.2ours8.98.757.596.5
[0090]
对于三维物体姿态估计的评估，我们采用平均顶点误差在物体直径10％以内的物体的百分比(add-0.1d)。对于测试集，我们只报告训练集中出现的物体的指标。表2为本发明与其它方法在ho3d上三维物体姿态估计的对比数据表。
[0091]
表2
[0092]
methodscleanserbottlecanaverage
liu et al.88.161.853.067.7ours81.487.552.273.3
[0093]
综上所述，本实施例方法通过该方法通过两个分支共享resnet-50中的浅层卷积层(stage-0，stage-1)和深层卷积层(stage-4)，以及不共享的中间卷积层(stage-2，stage-3)，解决了现有的单流主干网络中两个任务相互竞争，以及双流主干网络中，两个分支特征的特征空间差距较大以致于不好进行相互增强的问题。
[0094]
需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。
[0095]
基于与上述实施例中的三维手物交互姿态估计方法相同的思想，本发明还提供了三维手物交互姿态估计装置，该系统可用于执行上述三维手物交互姿态估计方法。为了便于说明，三维手物交互姿态估计装置实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0096]
请参阅图7，在本技术的另一个实施例中，提供了一种三维手物交互姿态估计装置100，该装置包括数据采集模块101、姿态估计模块102、训练模块103以及测试模块104；
[0097]
所述数据采集模块101，用于获取三维手物交互姿态估计数据集的训练集，并对训练集进行增强处理；
[0098]
所述姿态估计模块102，用于构建三维手物交互姿态估计网络并对三维手物交互姿态估计网络进行初始化；所述三维手物交互姿态估计网络包括基于cnn的主干网络、基于transformer的object-to-hand enhancement网络和hand-to-object enhancement网络、手部解码器网络和物体解码器网络，所述手部解码器网络根据object-to-hand enhancement网络的输出预测出手的三维关节点以及三维网格，所述物体解码器网络根据hand-to-object enhancement网络的输出预测出物体的2d预测控制点和每个2d预测控制点的置信度；
[0099]
所述训练模块103，用于在训练中使用预设的损失函数监督三维手物交互姿态估计网络的输出；
[0100]
所述测试模块104，用于在测试时，手部姿态估计的结果由手部解码器输出，物体的位移和旋转根据物体解码器输出的结果使用pnp来得到。
[0101]
需要说明的是，本发明的三维手物交互姿态估计装置与本发明的三维手物交互姿态估计方法一一对应，在上述三维手物交互姿态估计方法的实施例阐述的技术特征及其有益效果均适用于三维手物交互姿态估计的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。
[0102]
此外，上述实施例的三维手物交互姿态估计装置的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述三维手物交互姿态估计装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。
[0103]
请参阅图8，在一个实施例中，提供了一种实现三维手物交互姿态估计方法的计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的一种三维手物交互姿
态估计方法，包括下述步骤：
[0104]
获取三维手物交互姿态估计数据集的训练集，并对训练集进行增强处理；
[0105]
构建三维手物交互姿态估计网络并对三维手物交互姿态估计网络进行初始化；所述三维手物交互姿态估计网络包括基于cnn的主干网络、基于transformer的object-to-hand enhancement网络和hand-to-object enhancement网络、手部解码器网络和物体解码器网络，所述手部解码器网络根据object-to-hand enhancement网络的输出预测出手的三维关节点以及三维网格，所述物体解码器网络根据hand-to-object enhancement网络的输出预测出物体的二维预测控制点和每个二维预测控制点的置信度；
[0106]
在训练中使用预设的损失函数监督三维手物交互姿态估计网络的输出；
[0107]
在测试时，手部姿态估计的结果由手部解码器输出，物体的位移和旋转根据物体解码器输出的结果使用pnp来得到。
[0108]
进一步地，所述三维手物交互姿态估计装置100集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)。
[0109]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0110]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0111]
上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

技术特征：
1.一种三维手物交互姿态估计方法，其特征在于，包括以下步骤：获取三维手物交互姿态估计数据集的训练集，并对训练集进行增强处理；构建三维手物交互姿态估计网络并对三维手物交互姿态估计网络进行初始化；所述三维手物交互姿态估计网络包括基于cnn的主干网络、基于transformer的object-to-hand enhancement网络和hand-to-object enhancement网络、手部解码器网络和物体解码器网络，所述手部解码器网络根据object-to-hand enhancement网络的输出预测出手的三维关节点以及三维手部网格，所述物体解码器网络根据hand-to-object enhancement网络的输出预测出物体的二维预测控制点和每个二维预测控制点的置信度；在训练中使用预设的损失函数监督三维手物交互姿态估计网络的输出；在测试时，手部姿态估计的结果由手部解码器输出，物体的位移和旋转根据物体解码器输出的结果使用pnp来得到。2.根据权利要求1所述一种三维手物交互姿态估计方法，其特征在于，所述对训练集进行增强处理包括尺度缩放、旋转、平移和颜色抖动。3.根据权利要求1所述一种三维手物交互姿态估计方法，其特征在于，所述基于cnn的主干网络采用残差网络，包括手部分支和物体分支，所述手部分支和物体分支共享残差网络的浅层卷积层和深层卷积层，不共享中间卷积层，深层卷积层连接两个fpn网络，得到手部特征图p
h
和物体特征图p
o
，最后使用roi通过手的边界框从p
h
和p
o
中提取出手部特征f
h
，和用于增强手的物体特征f
oh
，通过物体的边界框从物体特征图中提取出物体特征f
o
，通过手和物体边界框的交界区域从手特征图中提取出用于增强物体的手部特征f
ho
。4.根据权利要求1所述一种三维手物交互姿态估计方法，其特征在于，所述object-to-hand enhancement网络的构造方法为：使用transformer结构，由级联的自注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络模块构成，自注意力模块的查询矩阵、键矩阵和值矩阵分别为q
h
，k
h
和v
h
，最后的输出为增强后的手部特征f
he
；其中，q
h
，k
h
和v
h
是由特征f
h
通过1x1的卷积层到的，特征f
h
是将特征f
h
和f
oh
在通道维度进行拼接后得到。5.根据权利要求1所述一种三维手物交互姿态估计方法，其特征在于，所述hand-to-object enhancement网络的构造方法为：使用transformer结构，由级联的互注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络模块构成，互注意力模块的查询矩阵、键矩阵和值矩阵分别为q
o
，k
o
和v
o
，最后的输出为增强后的物体特征f
oe
。6.根据权利要求1所述一种三维手物交互姿态估计方法，其特征在于，所述手部解码器网络包含一个沙漏网络、两个卷积层、四个残差连接网络、三个全连接层、两个线性层以及mano层，四个残差连接网络的中间带有池化层，三个全连接层的中间有leakyrelu激活函数手部解码器的输入为特征图f
he
，输出为三维手部关节点以及三维手部网格。7.根据权利要求1所述一种三维手物交互姿态估计方法，其特征在于，物体解码器网络包含七个卷积层，七个卷积层的中间有leakyrelu激活函数以及bn层，所述物体解码器网络的输入为增强后的物体特征f
oe
，输出为物体特征图上每个网格到二维预测控制点的偏移值，以及每个网格对于二维预测控制点预测结果的置信度。
8.根据权利要求1所述一种三维手物交互姿态估计方法，其特征在于，所述预设的损失函数包括l1损失函数和mse损失；其中，l1损失函数用于监督二维物体控制点和二维物体控制点的置信度；mse损失函数用于监督二维手部关节点，三维手部关节点，三维网格，mano模型的shape参数和pose参数。9.一种三维手物交互姿态估计装置，其特征在于，应用于权利要求1-8中任一项所述的一种三维手物交互姿态估计方法，包括数据采集模块、姿态估计模块、训练模块以及测试模块；所述数据采集模块，用于获取三维手物交互姿态估计数据集的训练集，并对训练集进行增强处理；所述姿态估计模块，用于构建三维手物交互姿态估计网络并对三维手物交互姿态估计网络进行初始化；所述三维手物交互姿态估计网络包括基于cnn的主干网络、基于transformer的object-to-hand enhancement网络和hand-to-object enhancement网络、手部解码器网络和物体解码器网络，所述手部解码器网络根据object-to-hand enhancement网络的输出预测出手的三维关节点以及三维网格，所述物体解码器网络根据hand-to-object enhancement网络的输出预测出物体的2d预测控制点和每个2d预测控制点的置信度；所述训练模块，用于在训练中使用预设的损失函数监督三维手物交互姿态估计网络的输出；所述测试模块，用于在测试时，手部姿态估计的结果由手部解码器输出，物体的位移和旋转根据物体解码器输出的结果使用pnp来得到。10.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-7任一项所述的一种三维手物交互姿态估计方法。

技术总结
本发明公开了一种三维手物交互姿态估计方法、装置及存储介质，方法包括：获取三维手和物体姿态估计数据集的训练集并进行增强处理；构建三维手物交互姿态估计网络并且进行初始化；在训练中使用预设的损失函数监督三维手物交互姿态估计网络的输出；在测试时，手部分支采用手部解码器的输出结果，物体分支根据物体解码器输出的结果使用PNP得到物体的位移和旋转。本发明通过共享两个分支残差网络中的浅层卷积层和深层卷积层，从而获得更加和谐的特征，有助于接下来两个分支相互增强的进行，并且通过不共享的中间卷积层，减弱了两个任务之间的相互竞争。本发明基于transformer的利用物体特征来增强手部特征的方法，大大提升了三维手物交互姿态估计的性能。维手物交互姿态估计的性能。维手物交互姿态估计的性能。

技术研发人员：丁长兴林志枫
受保护的技术使用者：华南理工大学
技术研发日：2023.03.01
技术公布日：2023/8/14

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种基于视听语音分离的说话人视觉激活解释方法及系统与流程 下一篇：一种基于全息光场调控的碱金属原子极化系统

一种三维手物交互姿态估计方法、装置及存储介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种三维手物交互姿态估计方法、装置及存储介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表