一种动作提示的三维人体姿态估计方法和系统
未命名
10-19
阅读:114
评论:0
1.本发明涉及计算机视觉技术领域,特别涉及一种动作提示的三维人体姿态估计方法、系统、介质及终端。
背景技术:
2.三维人体姿态估计旨在通过单张单目图像或者视频来预测人体关节点的三维空间位置,具体是,首先从输入图像中估计二维关节,然后将估计的二维关节提升到三维姿势。作为计算机视觉领域中的热点,三维人体姿态估计具有广阔的研究前景,也被广泛地应用于各个领域中,如行为异常检测、人类动作识别等。然而,由于缺乏深度信息,该处理模式存在严重的深度模糊问题,这是由多个三维姿态到同一个二维投影的多对一映射引起的。
3.pavllo等人在《ieee/cvf conference on computer vision and pattern recognition》(cvpr2019)发表的论文“3d human pose estimation in video with temporal convolutions and semi-supervised training”公开了一种方法,通过使用时序空洞卷积这种简单有效的方式估计三维姿态。zheng等人在《ieee/cvf international conference on computer vision》(iccv 2021)发表的论文“3d human pose estimation with spatial and temporal transformers”公开了一种方法,将transformer引入三维姿态估计。zhang等人在《ieee/cvf conference on computer vision and pattern recognition》(cvpr 2022)发表的论文“mixste:seq2seq mixed spatio-temporal encoder for 3d human pose estimation in videog”公开了一种方法,将时间和空间解耦,在时间和空间层面分别引入transformer模块衡量时空相关性。但是上述多次尝试,均是利用时序一致性来缓解这些问题。然而,上述尝试只建模了动作不可知的空间和时间相关性,忽略了姿态序列中包含的动作相关先验知识。事实证明,每个动作都有独有的特征,这有利于姿态估计,因此有必要寻找一种有效的方式,将动作线索嵌入到基于视频的二维到三维的姿态估计中。
4.经过对现有技术的文献检索发现,现有方法通过同时考虑姿态估计和动作识别,形成一个多任务学习框架来嵌入动作线索。luvizon等人在《ieee/cvf conference on computer vision and pattern recognition》(cvpr 2018)发表的论文“2d/3d pose estimation and action recognition using multitask deep learning”公开了一种方法,引入了动作投影模块,用一个one-hot的动作标签对姿态序列进行分类,但在姿态估计中仅仅产生了微不足道的性能增益。这是因为仅仅使用分类子任务中的one-hot动作标签无法完全挖掘动作线索。one-hot动作标签只包含整体运动类别信息,而忽略了姿态序列的位置和速度信息。因此,相比仅仅使用one-hot动作标签,更有效的动作标签挖掘方案需要被精心设计。
技术实现要素:
5.本发明针对上述现有技术中存在的问题,提出一种动作提示的三维人体姿态估计
方法、系统、应用、介质及终端。
6.根据本发明的一个方面,提供一种动作提示的三维人体姿态估计方法,包括:
7.s100,获得二维姿态序列作为输入;
8.s200,从所述二维姿态序列中提取姿态位置特征、姿态序列特征和动作特征;
9.s300,根据所述姿态位置特征,从动作信息文本提示中获得文本提示特征;
10.s400,对齐所述文本提示特征与所述动作特征,提取动作类别信息;
11.s500,选择对应所述动作类别信息的姿态提示特征,基于所述姿态提示特征与所述姿态序列特征间的相关性组合所述姿态提示特征与所述姿态序列特征,得到增强姿态序列特征;
12.s600,将所述增强姿态序列特征通过线性映射得到三维姿态估计;
13.s700,根据所述动作类别信息与真实动作类别之间的分类误差,以及所述三维姿态估计和真实三维姿态位置之间的姿态位置误差,更新s100~s700中的参数和提取特征;
14.s800,重复s100~s700直至动作信息误差和计算姿态位置误差收敛。
15.优选地,所述s200,从二维姿态序列中提取姿态位置特征、姿态序列特征和动作特征,包括:
16.对于包含f帧j个关节点的二维姿态序列x,通过姿态编码器得到姿态序列特征zd,其中所述姿态编码器为任意多层卷积神经网络;
17.输出所述姿态编码器的第一层一维卷积层的特征,作为姿态位置特征z0;
18.将所述姿态位置特征z0,通过由一维卷积层构成的动作投影模块提取动作特征a。
19.优选地,所述s300,根据所述姿态位置特征,从动作信息文本提示中获得文本提示特征,包括:
20.对于包含n个自学习文本提示模板和1个动作类别文本构成的动作信息文本提示,通过文本编码器得到文本提示特征t,其中所述文本编码器为任意多层注意力机制网络;
21.将所述姿态位置特征z0,通过差分模块提取姿态变化特征z0',其中差分模块对姿态位置特征相邻帧进行一阶差分,获得差值;
22.将所述姿态位置特征z0和所述姿态变化特征z0'进行串接,获得组合姿态特征zq;
23.将所述组合姿态特征zq与所述文本提示特征t通过单层注意力机制网络,利用交叉注意力机制计算相关性,其中所述交叉注意力机制公式为:
24.q=zqpq,k=tpk[0025][0026]
其中:pq和pk分别为投影矩阵,q和k分别为组合特征查询值和文本提示特征键值,a为相关性系数矩阵;
[0027]
将所述相关性系数矩阵a作为加权系数,将所述组合姿态特征zq加权合并到所述文本提示特征t,获得增强文本提示特征
[0028]
优选地,所述s400,对齐所述文本提示特征与所述动作特征,提取动作类别信息,包括:
[0029]
分别标准化所述动作特征和所述增强文本提示特征,使它们各自的二范数均为1,计算标准化后的动作特征和增强文本提示特征之间的余弦相似度;
[0030]
将所述余弦相似度作为权重,加权组合所述标准化的动作特征和增强文本提示特征,得到姿态序列的动作类别信息。
[0031]
优选地,所述s500,选择对应所述动作类别信息的姿态提示特征,基于所述姿态提示特征与所述姿态序列特征间的相关性组合所述姿态提示特征与所述姿态序列特征,得到增强姿态序列特征,包括:
[0032]
对于m个动作类别构成的姿态提示,通过姿态提示编码器得到姿态提示特征,其中所述姿态提示编码器为任意多层卷积神经网络;
[0033]
根据所述动作类别信息选择对应动作的姿态提示特征;
[0034]
使用交叉注意力机制计算所述姿态提示特征和所述姿态序列特征的相关性系数矩阵;
[0035]
将所述相关性系数矩阵作为权重组合所述姿态提示特征和所述姿态序列特征,得到增强姿态序列特征。
[0036]
优选地,所述s600中的所述线性回归器为任意多层感知网络。
[0037]
优选地,所述s700,根据动作类别信息与真实动作类别之间的分类误差,以及所述三维姿态估计和真实三维姿态位置之间的姿态位置误差,更新s100~s600的参数和提取特征,包括:
[0038]
计算所述动作类别信息与真实动作类别的交叉熵损失函数作为分类误差;
[0039]
计算所述三维姿态估计和真实三维姿态位置之间的均方误差作为姿态位置误差;
[0040]
以加权系数组合所述分类误差和所述姿态位置误差,构成损失函数;
[0041]
基于所述损失函数对模型参数求梯度,根据梯度更新模型参数;
[0042]
根据更新的模型参数提取特征。
[0043]
根据本发明的第二个方面,提供一种动作提示的三维人体姿态估计系统,包括:
[0044]
姿态数据获取模块:获得二维姿态序列作为输入;
[0045]
姿态特征提取模块:从二维姿态序列中提取姿态位置特征、姿态序列特征和动作特征;
[0046]
文本特征提取模块:根据所述姿态位置特征,从动作信息文本提示中获得文本提示特征;
[0047]
动作类别提取模块:对齐所述文本提示特征与所述动作特征,提取动作类别信息;
[0048]
姿态特征增强模块:选择对应所述动作类别信息的姿态提示特征,基于所述姿态提示特征与所述姿态序列特征间的相关性组合所述姿态提示特征与所述姿态序列特征,得到增强姿态序列特征;
[0049]
三维姿态估计模块:将所述增强姿态序列特征通过线性映射得到三维姿态估计;
[0050]
姿态模型更新模块:根据动作类别信息与真实动作类别之间的分类误差,以及所述三维姿态估计和真实三维姿态位置之间的姿态位置误差,更新上述步骤的参数和提取特征。
[0051]
误差收敛停止模块,重复执行各个模块直至动作信息误差和计算姿态位置误差收敛。
[0052]
根据本发明的第三个方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的动作提
示的三维人体姿态估计方法,或,运行上述的动作提示的三维人体姿态估计系统。
[0053]
根据本发明的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述的动作提示的三维人体姿态估计方法,或,运行上述的动作提示的三维人体姿态估计系统。
[0054]
相较于现有技术,本发明实施例具有如下至少一种有益效果:
[0055]
(1)本发明实施例中的动作提示的三维人体姿态估计方法和系统,通过挖掘动作相关先验信息,引入动作相关文本特征和姿态特征的多模态信息,处理深度模糊问题。
[0056]
(2)本发明实施例中的动作提示的三维人体姿态估计方法和系统,通过构建包含所述s200至所述s500的即插即用模块,能够紧凑提取输入数据特征,节约网络模型参数量。
[0057]
(3)本发明实施例中的动作提示的三维人体姿态估计方法和系统,通过所述s400引入动作文本信息、所述s500引入姿态位置信息,均显著提高含有自遮挡和复杂动作的姿态估计准确率,具有很强的灵活性和可扩展性。
[0058]
(4)本发明实施例在针对采集到的虚拟现实三维人体运动视频进行了验证,结果充分证实了其对于各种真实环境中典型人体姿态的精确估计能力,并且有效缓解了关节遮挡、部分肢体遮挡和深度不连续性等问题。本发明可以应用在虚拟现实、元宇宙等应用领域,对运动人体姿态视频,实现实时、高精度和高鲁棒性的人体姿态估计,进而推动各种中下游任务(如三维重建、动作识别等)的进行。
附图说明
[0059]
下面结合附图对本发明的实施方式作进一步说明:
[0060]
图1为本发明的一实施例的动作提示的三维人体姿态估计方法的流程图;
[0061]
图2为本发明的一实施例的动作提示的三维人体姿态估计系统的结构示意图;
[0062]
图3为本发明一具体实例中动作提示的三维人体姿态估计示意图。
[0063]
图中:
[0064]
11-姿态数据获取模块、12-姿态特征提取模块、13-文本特征对齐模块、14-动作类别提取模块、17-姿态特征增强模块、16-三维姿态估计模块、17-姿态模型更新模块,18-误差收敛停止模块。
具体实施方式
[0065]
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。以下实施例中没有详细说明的部分可以采用现有技术实现。
[0066]
如图1所示,为本发明一实施例的动作提示的三维人体姿态估计方法的流程图。请参考图1,本实施例的动作提示的三维人体姿态估计方法包括以下步骤:
[0067]
s100:获得二维姿态序列作为输入;
[0068]
s200:从s100输入的二维姿态序列中提取姿态位置特征、姿态序列特征和动作特征;
[0069]
s300:根据s200得到的姿态位置特征,从动作信息文本提示中获得文本提示特征;
[0070]
s400:对齐s300获得的文本提示特征与s200得到的动作特征,提取动作类别信息;
[0071]
s500:选择对应s400得到的动作类别信息的姿态提示特征,基于姿态提示特征与s200得到的姿态序列特征间的相关性组合姿态提示特征与姿态序列特征,得到增强姿态序列特征;
[0072]
s600:将s500得到的增强姿态序列特征通过线性回归器映射得到三维姿态估计,其中线性回归器可以为任意多层感知网络;
[0073]
s700:根据s400获得的动作类别信息与真实动作类别之间的分类误差,以及s600获得的三维姿态估计和真实三维姿态位置之间的姿态位置误差,更新上述步骤s100-s600的参数和提取特征;
[0074]
s800,重复s100~s700直至动作信息误差和计算姿态位置误差收敛。
[0075]
本实施例,节约人为参数设计的工作量和时间,更好地捕捉姿态相关特征,在能够显著提高含有自遮挡和复杂动作的姿态估计准确率同时,节约了网络参数量。
[0076]
在本发明的一个优选实施例中,实施s200,其进一步包括:
[0077]
s201:对于包含f帧j个关节点的二维姿态序列x,通过姿态编码器得到姿态序列特征zd,其中姿态编码器可以为任意多层卷积神经网络;
[0078]
s202:输出姿态编码器的第一层一维卷积层的特征,作为姿态位置特征z0;
[0079]
s203:将姿态位置特征z0,通过由一维卷积层构成的动作投影模块提取动作特征a。
[0080]
在本发明的一个优选实施例中,实施s300,其进一步包括:
[0081]
s301:对于包含n个自学习文本提示模板和1个动作类别文本构成的动作信息文本提示,通过文本编码器得到文本提示特征t,其中文本编码器可以为任意多层注意力机制网络;
[0082]
s302:将姿态位置特征z0,通过差分模块提取姿态变化特征z
0'
,其中差分模块对姿态位置特征相邻帧进行一阶差分,获得差值;
[0083]
s303:将姿态位置特征z0和姿态变化特征z
0'
进行串接,获得组合姿态特征zq;
[0084]
s304:将组合姿态特征zq与文本提示特征t通过单层注意力机制网络,利用交叉注意力机制计算相关性,其中交叉注意力机制公式为:
[0085]
q=zqpq,k=tpk[0086][0087]
其中:pq和pk分别为投影矩阵,q和k分别为组合特征查询值和文本提示特征键值,a为相关性系数矩阵;
[0088]
s305:将相关性系数矩阵a作为加权系数,将组合姿态特征zq加权合并到文本提示特征t,获得增强文本提示特征
[0089]
在本发明的一个优选实施例中,实施s400,其进一步包括:
[0090]
s401:分别标准化动作特征和增强文本提示特征,使它们的二范数均为1,计算标准化后的动作特征和增强文本提示特征之间的余弦相似度;
[0091]
s402:将余弦相似度作为权重,加权组合标准化的动作特征和增强文本提示特征,得到姿态序列的动作类别信息。
[0092]
上述实施例通过对齐动作特征和增强文本提示特征,将动作信息有效嵌入姿态特征,通过引入文本空间的动作先验信息,初步将姿态序列在动作空间进行分类对齐,尤其对含有自遮挡和复杂动作的姿态估计具有引导作用。
[0093]
在本发明的一个优选实施例中,实施s500,其进一步包括:
[0094]
s501:对于m个动作类别构成的姿态提示,通过姿态提示编码器得到姿态提示特征,其中姿态提示编码器可以为任意多层卷积神经网络;
[0095]
s502:根据动作类别信息选择对应动作的姿态提示特征;
[0096]
s503:使用交叉注意力机制计算姿态提示特征和姿态序列特征的相关性;
[0097]
s504:将相关性系数矩阵作为权重组合姿态提示特征和姿态序列特征,得到增强姿态序列特征。
[0098]
本实例通过挖掘每个动作的姿态提示特征,计算与姿态序列特征的相关性,并通过引入姿态提示特征中的位置信息,利用每个动作的位置信息优化姿态序列的估计,进一步提高含有自遮挡和复杂动作的姿态估计准确率,具有很强的灵活性和可扩展性。
[0099]
在本发明的一个优选实施例中,实施s700,其进一步包括:
[0100]
s701:计算动作类别信息与真实动作类别的交叉熵损失函数作为分类误差;
[0101]
s702:计算三维姿态估计和真实三维姿态位置之间的均方误差作为姿态位置误差;
[0102]
s703:以加权系数组合分类误差和姿态位置误差,构成损失函数;
[0103]
s704:基于损失函数对模型参数求梯度,根据梯度更新模型参数。
[0104]
参见图2,基于相同的发明构思,本发明提供一种动作提示的三维人体姿态估计系统,包括姿态数据获取模块11、姿态特征提取模块12、文本特征对齐模块13、动作类别提取模块14、姿态特征增强模块15、三维姿态估计模块16、姿态模型更新模块17和误差收敛停止模块18。姿态数据获取模块11获得二维姿态序列作为输入;姿态特征提取模块12从二维姿态序列中提取姿态位置特征、姿态序列特征和动作特征;文本特征提取模块13根据姿态位置特征,从动作信息文本提示中获得文本提示特征;动作类别提取模块14对齐文本提示特征与动作特征,提取动作类别信息;姿态特征增强模块17选择对应动作类别信息的姿态提示特征,基于姿态提示特征与姿态序列特征间的相关性组合姿态提示特征与姿态序列特征,得到增强姿态序列特征;三维姿态估计模块16将增强姿态序列特征通过线性映射得到三维姿态估计;姿态模型更新模块17根据动作类别信息与真实动作类别之间的分类误差,以及三维姿态估计和真实三维姿态位置之间的姿态位置误差,更新上述步骤的参数和提取特征。误差收敛停止模块18重复执行各个模块直至动作信息误差和计算姿态位置误差收敛
[0105]
本发明上述实例中各模块/单元具体可以参照上述实施例中动作提示的三维人体姿态估计方法对应的步骤的实现技术,在此不再赘述。
[0106]
基于相同的发明构思,在本发明的其他实施例中,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的动作提示的三维人体姿态估计方法,或,运行上述的动作提示的三维人体姿态估计系统。
[0107]
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-accessmemory,缩写:ram),如静态
随机存取存储器(英文:staticrandom-accessmemory,缩写:sram),双倍数据率同步动态随机存取存储器(英文:double data rate synchronous dynamic random access memory,缩写:ddr sdram)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
[0108]
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
[0109]
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
[0110]
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
[0111]
基于相同的发明构思,在本发明的其他实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述的动作提示的三维人体姿态估计方法,或,运行上述的动作提示的三维人体姿态估计系统。
[0112]
其中,计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。另外,该asic可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。
[0113]
为了更好对上述的各部分进行理解,以下结合一个详细的虚拟现实应用实例来说明。本实施例提供了一种动作提示的三维人体姿态估计系统,该系统中采用上述的动作提示网络构建方法,该实施例在输入的二维人体关节点上并行执行,每组二维人体关节点包括多个关节点,每个关节点包含其在图像坐标系下的二维坐标信息。动作提示的三维人体姿态估计系统通过动作提示网络回归得到每个关节点对应的三维坐标信息。为清晰地叙述执行过程,下面结合虚拟现实视频,其中虚拟现实视频是关于具有一系列复杂动作的运动人体姿态视频,人体骨架拓扑结构的节点个数为16,视频帧数为243帧,说明用于动作提示的三维人体姿态估计的动作提示网络结构构造方法,其中将分为训练部分和测试部分,测试部分与训练部分过程相似,故下文只对训练部分作详细介绍。
[0114]
训练部分:
[0115]
1.姿态数据获取模块:获得维度为(243,16,2)的虚拟现实视频对应的二维运动人体姿态序列作为输入x。
[0116]
2.姿态特征提取模块,从二维姿态序列中提取姿态位置特征、姿态序列特征和动作特征,具体过程为:
[0117]
s21:对于包含243帧16个关节点的二维姿态序列x,通过姿态编码器得到维度为(1,256)姿态序列特征zd,其中姿态编码器可以为任意多层卷积神经网络;
[0118]
s22:输出姿态编码器的第一层一维卷积层的特征,作为姿态位置特征z0,维度为(81,256);
[0119]
s23:将所述姿态位置特征z0,通过由一维卷积层构成的动作投影模块提取维度为(1,256)的动作特征a。
[0120]
3.文本特征提取模块,根据所述姿态位置特征,从动作信息文本提示中获得文本提示特征,具体过程为:
[0121]
s31:对于包含10个自学习文本提示模板和17种动作类别文本构成的动作信息文本提示,通过文本编码器得到维度为(17,256)的文本提示特征t,其中文本编码器可以为任意多层注意力机制网络;
[0122]
s32:将所述姿态位置特征z0,通过差分模块提取维度为(80,256)的姿态变化特征z
0'
,其中差分模块对姿态位置特征相邻帧进行一阶差分,获得差值;
[0123]
s33:将所述姿态位置特征z0和所述姿态变化特征z
0'
进行串接,获得维度为(81,256)的组合姿态特征zq;
[0124]
s34:将所述组合姿态特征zq与所述文本提示特征t通过单层注意力机制网络,利用交叉注意力机制计算相关性,其中交叉注意力机制公式为:
[0125]
q=zqpq,k=tpk[0126][0127]
其中:pq和pk分别为投影矩阵,q和k分别为组合特征查询值和文本提示特征键值,a为相关性系数矩阵;
[0128]
s35:将所述相关性系数矩阵作为加权系数,将组合姿态特征zq加权合并到所述文本提示特征t,获得维度为(17,256)的增强文本提示特征
[0129]
4.动作类别提取模块,对齐所述文本提示特征与所述动作特征,提取动作类别信息。
[0130]
s41:分别标准化所述动作特征和所述增强文本提示特征,使它们的二范数均为1,计算标准化后的动作特征和增强文本提示特征之间的余弦相似度,维度为(1,17);
[0131]
s42:将余弦相似度作为权重,加权组合所述标准化的动作特征和增强文本提示特征,得到姿态序列的动作类别信息。
[0132]
5.姿态特征增强模块,选择对应所述动作类别信息的姿态提示特征,基于所述姿态提示特征与所述姿态序列特征间的相关性组合所述姿态提示特征与所述姿态序列特征,得到增强姿态序列特征,具体过程为:
[0133]
s51:对于17个动作类别构成的姿态提示,通过姿态提示编码器得到维度为(17,256)的姿态提示特征,其中姿态提示编码器可以为任意多层卷积神经网络;
[0134]
s52:根据所述动作类别信息选择对应动作的姿态提示特征,维度为(1,81,256);
[0135]
s53:计算所述姿态提示特征和所述姿态序列特征的相似度,维度为(1,81,81);
[0136]
s54:将相似度作为权重组合所述姿态提示特征和所述姿态序列特征,得到维度为(1,256)的增强姿态序列特征。
[0137]
6.三维姿态估计模块,将所述增强姿态序列特征通过线性回归器映射得到维度为(1,16,3)的三维姿态估计,其中线性回归器可以为任意多层感知网络。
[0138]
7.姿态模型更新模块,根据动作类别信息与真实动作类别之间的分类误差,以及所述三维姿态估计和真实三维姿态位置之间的姿态位置误差,更新上述步骤的参数和提取
特征,具体过程如下:
[0139]
s71:计算动作类别信息与真实动作类别的交叉熵损失函数作为分类误差;
[0140]
s72:计算所述三维姿态估计和真实三维姿态位置之间的均方误差作为姿态位置误差;
[0141]
s73:以加权系数组合分类误差和姿态位置误差,构成损失函数;
[0142]
s74:基于损失函数对模型参数求梯度,根据梯度更新模型参数;
[0143]
s75:根据更新的模型参数提取特征。
[0144]
实施效果:
[0145]
本实施例中评价可分为客观评价和主观评价,前者包括对动作提示的三维人体姿态估计的虚拟现实视频估计结果进行数据统计,得到平均关节位置误差(mpjpe)等指标;后者包括对动作提示的三维人体姿态估计的虚拟现实视频估计结果进行可视化。本实施例在包含多个动作的虚拟现实视频与原现有方法的人体姿态估计结果进行对比。
[0146]
实验表明,在客观评价方面,本实施例相较于现有方法在具有自遮挡和复杂动作的虚拟现实视频上mpjpe具有明显提升,同时在平均mpjpe上也获得了提升。进一步的数据分析证明,采用本实施例方法后,在网络构建方法中,考虑了额外的动作先验信息,将动作标签中丰富的动作相关文本信息适应于姿态序列,并且了挖掘每个动作的位置感知姿态模式,通过利用可学习模式与输入姿态序列之间的相关性来细化姿态特征,使得模型能够在输入二维人体姿态存在复杂动作和自遮挡的情况下,很好的对关节点的结构信息进行表示,有效提升该动作的动作提示的三维人体姿态估计结果。
[0147]
采用本实施例的方法后,对于虚拟现实运动人体姿态视频中的复杂动作和自遮挡动作的动作提示的三维人体姿态估计效果得到了提升,参考图3的可视化的结果:从上到下两行分别为两个不同的输入动作,最左一列是中是未加入动作提示网络的动作提示的三维人体姿态估计结果,中间一列是本实例的动作提示的三维人体姿态估计结果,最右一列是真值结果,真值即人为标注的语义类别。可以看出,通过引入文本相关和位置感知姿态相关动作先验知识,本实施例方法有助于显著提高复杂动作和自遮挡动作的动作提示的三维人体姿态估计精度。
[0148]
本发明实施例在针对采集到的虚拟现实三维人体运动视频进行了验证,结果充分证实了其对于各种真实环境中典型人体姿态的精确估计能力,并且有效缓解了关节遮挡、部分肢体遮挡和深度不连续性等问题。本发明实施例可以应用在虚拟现实、元宇宙等应用领域,对运动人体姿态视频,实现实时、高精度和高鲁棒性的人体姿态估计,进而推动各种中下游任务(如三维重建、动作识别等)的进行。
[0149]
本领域技术人员可以理解,除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何装置的所有过程或单元进行组合。
[0150]
此处公开的仅为本发明的优选实施例,本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化,均应落在本发明所保护的范围内。
技术特征:
1.一种动作提示的三维人体姿态估计方法,其特征在于,包括:s100,获得二维姿态序列作为输入;s200,从所述二维姿态序列中提取姿态位置特征、姿态序列特征和动作特征;s300,根据所述姿态位置特征,从动作信息文本提示中获得文本提示特征;s400,对齐所述文本提示特征与所述动作特征,提取动作类别信息;s500,选择对应所述动作类别信息的姿态提示特征,基于所述姿态提示特征与所述姿态序列特征间的相关性组合所述姿态提示特征与所述姿态序列特征,得到增强姿态序列特征;s600,将所述增强姿态序列特征通过线性映射得到三维姿态估计;s700,根据所述动作类别信息与真实动作类别之间的分类误差,以及所述三维姿态估计和真实三维姿态位置之间的姿态位置误差,更新s100~s700中的参数和提取特征;s800,重复s100~s700直至动作信息误差和计算姿态位置误差收敛。2.根据权利要求1所述的动作提示的三维人体姿态估计方法,其特征在于,所述s200,从二维姿态序列中提取姿态位置特征、姿态序列特征和动作特征,包括:对于包含f帧j个关节点的二维姿态序列x,通过姿态编码器得到姿态序列特征z
d
,其中所述姿态编码器为任意多层卷积神经网络;输出所述姿态编码器的第一层一维卷积层的特征,作为姿态位置特征z0;将所述姿态位置特征z0,通过由一维卷积层构成的动作投影模块提取动作特征a。3.根据权利要求1所述的动作提示的三维人体姿态估计方法,其特征在于,所述s300,根据所述姿态位置特征,从动作信息文本提示中获得文本提示特征,包括:对于包含n个自学习文本提示模板和1个动作类别文本构成的动作信息文本提示,通过文本编码器得到文本提示特征t,其中所述文本编码器为任意多层注意力机制网络;将所述姿态位置特征z0,通过差分模块提取姿态变化特征z
0'
,其中差分模块对姿态位置特征相邻帧进行一阶差分,获得差值;将所述姿态位置特征z0和所述姿态变化特征z
0'
进行串接,获得组合姿态特征z
q
;将所述组合姿态特征z
q
与所述文本提示特征t通过单层注意力机制网络,利用交叉注意力机制计算相关性,其中所述交叉注意力机制公式为:q=z
q
p
q
,k=tp
k
其中:p
q
和p
k
分别为投影矩阵,q和k分别为组合特征查询值和文本提示特征键值,a为相关性系数矩阵;将所述相关性系数矩阵a作为加权系数,将所述组合姿态特征z
q
加权合并到所述文本提示特征t,获得增强文本提示特征4.根据权利要求1所述的动作提示的三维人体姿态估计方法,其特征在于,所述s400,对齐所述文本提示特征与所述动作特征,提取动作类别信息,包括:分别标准化所述动作特征和所述增强文本提示特征,使它们各自的二范数均为1,计算标准化后的动作特征和增强文本提示特征之间的余弦相似度;
将所述余弦相似度作为权重,加权组合所述标准化的动作特征和增强文本提示特征,得到姿态序列的动作类别信息。5.根据权利要求1所述的动作提示的三维人体姿态估计方法,其特征在于,所述s500,选择对应所述动作类别信息的姿态提示特征,基于所述姿态提示特征与所述姿态序列特征间的相关性组合所述姿态提示特征与所述姿态序列特征,得到增强姿态序列特征,包括:对于m个动作类别构成的姿态提示,通过姿态提示编码器得到姿态提示特征,其中所述姿态提示编码器为任意多层卷积神经网络;根据所述动作类别信息选择对应动作的姿态提示特征;使用交叉注意力机制计算所述姿态提示特征和所述姿态序列特征的相关性系数矩阵;将所述相关性系数矩阵作为权重组合所述姿态提示特征和所述姿态序列特征,得到增强姿态序列特征。6.根据权利要求1所述的动作提示的三维人体姿态估计方法,其特征在于,所述s600中的所述线性回归器为任意多层感知网络。7.根据权利要求1所述的动作提示的三维人体姿态估计方法,其特征在于,所述s700,根据动作类别信息与真实动作类别之间的分类误差,以及所述三维姿态估计和真实三维姿态位置之间的姿态位置误差,更新s100~s600的参数和提取特征,包括:计算所述动作类别信息与真实动作类别的交叉熵损失函数作为分类误差;计算所述三维姿态估计和真实三维姿态位置之间的均方误差作为姿态位置误差;以加权系数组合所述分类误差和所述姿态位置误差,构成损失函数;基于所述损失函数对模型参数求梯度,根据梯度更新模型参数;根据更新的模型参数提取特征。8.一种动作提示的三维人体姿态估计系统,其特征在于,包括:姿态数据获取模块:获得二维姿态序列作为输入;姿态特征提取模块:从二维姿态序列中提取姿态位置特征、姿态序列特征和动作特征;文本特征提取模块:根据所述姿态位置特征,从动作信息文本提示中获得文本提示特征;动作类别提取模块:对齐所述文本提示特征与所述动作特征,提取动作类别信息;姿态特征增强模块:选择对应所述动作类别信息的姿态提示特征,基于所述姿态提示特征与所述姿态序列特征间的相关性组合所述姿态提示特征与所述姿态序列特征,得到增强姿态序列特征;三维姿态估计模块:将所述增强姿态序列特征通过线性映射得到三维姿态估计;姿态模型更新模块:根据动作类别信息与真实动作类别之间的分类误差,以及所述三维姿态估计和真实三维姿态位置之间的姿态位置误差,更新各个模块的参数和提取特征;误差收敛停止模块,重复执行各个模块直至动作信息误差和计算姿态位置误差收敛。9.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-7中任一项所述的方法,或,运行权利要求8所述的系统。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-7中任一项所述的方法,或,运行权利要求8所述的系统。
技术总结
本发明提供一种动作提示的三维人体姿态估计方法和系统,包括:通过姿态编码器,从二维姿态序列中提取姿态位置特征、姿态序列特征和动作特征;根据姿态位置特征获得文本提示特征;对齐文本提示特征与动作特征,提取动作类别信息;选择对应动作类别信息的姿态提示特征,基于姿态提示特征与姿态序列特征间的相关性进行组合,得到增强姿态序列特征;将增强姿态序列特征通过线性映射得到三维姿态估计。本发明在姿态估计过程中,挖掘动作相关先验信息,引入动作相关文本、姿态特征的多模态信息,处理深度模糊问题;其即插即用模块,紧凑提取输入数据特征,节约网络模型参数量;显著提高含有自遮挡和复杂动作的姿态估计准确率,提升灵活性和可扩展性。灵活性和可扩展性。灵活性和可扩展性。
技术研发人员:熊红凯 郑鸿伟 李涵 戴文睿 李成林 邹君妮
受保护的技术使用者:上海交通大学
技术研发日:2023.07.07
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
