人体姿态估计方法、装置、电子设备及存储介质与流程
未命名
09-18
阅读:140
评论:0
1.本发明涉及金融科技技术领域,具体而言,涉及一种人体姿态估计方法、装置、电子设备及存储介质。
背景技术:
2.随着机器学习的发展,虚拟人客服逐渐在金融科技领域得到广泛应用。在虚拟人客服的开发和使用中,需要用到人体姿态估计。人体姿态估计的一种方法是3d单目姿态估计,指从单张图片中估计出人体的三维姿态。现有的单目姿态估计方法多是预测3d关节点位置,然而将关节点位置作为输出,会缺少身体部位的细节特征,以及关节点角度的信息,难以进行后续的应用。
3.使用人体姿态模型能够提供更多的信息,也因此应用空间更加广泛,有更大的研究潜力。但是现有的人体姿态模型存在一定问题:以smpl-x模型为例,smpl-x模型虽然可以对全身信息进行预测,但是由于训练集较少,最终的人体姿态估计效果较差。
技术实现要素:
4.本发明的实施例可以这样实现:
5.第一方面,本技术实施例提供了一种人体姿态估计方法,所述方法包括:
6.将待检测图像分割为面部部分、手部部分和躯干部分;
7.将所述面部部分输入面部检测底模,得到面部关键点集合;
8.将所述手部部分输入手部检测底模,得到手部关键点集合;
9.将所述躯干部分输入躯干检测底模,得到躯干关键点集合;
10.将所述面部关键点集合、所述手部关键点集合和所述躯干关键点分别输入人体姿态估计模型,分别得到面部检测结果、手部检测结果和躯干检测结果;
11.将所述面部检测结果、所述手部检测结果和所述躯干检测结果拼接为人体姿态估计结果。
12.在一实施方式中,所述面部检测底模包括所述将所述面部部分输入面部检测底模,得到面部检测关键点集合,包括:
13.基于所述面部检测底模对所述面部部分进行重建,得到面部3d模型;
14.获取所述面部3d模型中的面部检测关键点集合。
15.在一实施方式中,所述将所述手部部分输入手部检测底模,得到手部检测关键点集合,包括:
16.通过所述手部检测底模得到每帧的手部动作;
17.对每帧所述手部动作进行时序平滑处理,得到所述手部检测关键点集合。
18.在一实施方式中,所述手部检测底模包括编码器和解码器,所述编码器包括resnet-50卷积网络,所述解码器包括由多个全连接层组成的第一回归器。
19.在一实施方式中,所述躯干检测底模包括tcmr网络,所述将所述躯干部分输入躯
干检测底模,得到躯干检测关键点集合,包括:
20.根据所述tcmr网络得到所述躯干部分的时序特征和聚合特征;
21.将所述时序特征和所述聚合特征输入第二回归器,得到所述躯干检测关键点集合。
22.在一实施方式中,所述将所述面部检测结果、所述手部检测结果和所述躯干检测结果拼接为人体姿态估计结果,包括:
23.获取所述面部检测结果和所述躯干检测结果的第一连接处;
24.根据所述第一连接处将所述面部检测结果和所述躯干检测结果进行旋转和拼接;
25.获取所述手部检测结果和所述躯干检测结果的第二连接处;
26.根据所述第二连接处将所述手部检测结果和所述躯干检测结果进行旋转和拼接。
27.第二方面,本技术实施例提供了一种人体姿态估计装置,所述装置包括:
28.分割模块,用于将待检测图像分割为面部部分、手部部分和躯干部分;
29.第一输入模块,用于将所述面部部分输入面部检测底模,得到面部关键点集合;
30.第二输入模块,用于将所述手部部分输入手部检测底模,得到手部关键点集合;
31.第三输入模块,用于将所述躯干部分输入躯干检测底模,得到躯干关键点集合;
32.第四输入模块,用于将所述面部关键点集合、所述手部关键点集合和所述躯干关键点分别输入人体姿态估计模型,分别得到面部检测结果、手部检测结果和躯干检测结果;
33.拼接模块,用于将所述面部检测结果、所述手部检测结果和所述躯干检测结果拼接为人体姿态估计结果。
34.在一实施方式中,所述拼接模块还用于:
35.获取所述面部检测结果和所述躯干检测结果的第一连接处;
36.根据所述第一连接处将所述面部检测结果和所述躯干检测结果进行旋转和拼接;
37.获取所述手部检测结果和所述躯干检测结果的第二连接处;
38.根据所述第二连接处将所述手部检测结果和所述躯干检测结果进行旋转和拼接。
39.第三方面,本技术实施例提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行第一方面所述的人体姿态估计方法。
40.第四方面,本技术实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面所述的人体姿态估计方法。
41.本技术实施例的有益效果包括,例如:
42.本技术将各部位分治计算,进行单目视频的全身3d姿态估计,输出smpl-x参数序列。该方法可以解决目前缺少smpl-x标注数据集,以及全身姿态估计的优化模型存在的推理速度较慢的问题。
43.对于不同的身体部分分别使用不同的模型进行训练,可以充分利用针对不同身体部位的神经网络,以及对应的数据集,得到更精确的估计。同时可以利用不同身体部位现有的3d回归方法,提升模型的推理速度。
44.总体而言,本实施例能够在提升推理速度的同时保证估计的精度和视频中时序的连续性。
附图说明
45.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
46.图1示出了本技术实施例提供的人体姿态估计方法的一流程示意图;
47.图2示出了本技术实施例提供的人体姿态估计装置的一结构示意图;
48.图3示出了本技术实施例提供的电子设备的一结构示意图。
具体实施方式
49.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
50.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
52.在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
53.此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
54.需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
55.实施例1
56.随着机器学习的发展,虚拟人客服逐渐在金融科技领域得到广泛应用。在虚拟人客服的开发和使用中,需要用到人体姿态估计。目前有许多3d单目姿态估计方法使用了3d人体模型,如smpl模型,smpl-x模型和adam模型。这些模型含有更多的预训练信息也有更广泛的应用空间。其中smpl模型不包括脸部和手部的信息,不能模拟丰富的脸部表情和手部动作。而使用含有全身信息的smpl-x模型和adam模型目前的方法主要使用的是优化框架,存在推断时间较慢的问题。本方法针对这些方法存在的问题,提出了一种使用回归框架和smpl-x人体模型的单目3d全身姿态估计方法。请参考图1,本实施例提供了一种人体姿态估计方法;
57.步骤s110,将待检测图像分割为面部部分、手部部分和躯干部分;
58.由于目前提供smpl-x标注的数据集较少,因此使用整体的模型进行训练难以达到较好的效果。本方法针对脸部、躯干、手部分别使用不同的模型进行训练。其中网络的输入
为单目的rgb视频序列,输出为smpl-x模型参数序列,其中一帧视频的参数输出记为v
ω
。
59.smpl-x模型的参数序列包括全局方向参数φ
ω
、人体姿态参数θ
ω
和形状参数β
ω
。其中,全局方向参数描述的是人的整体方向,姿态参数描述的是肢体的姿态变化,形状参数描述的是人体各部位的形状变化。在一帧视频中,smpl-x模型的参数输出记为v
ω
,它是由这三种参数组成的函数,即:
[0060]vω
=w(φ
ω
,θ
ω
,β
ω
);
[0061]
其中w函数是smpl-x模型中实现参数到三维模型表现的映射函数。在一帧视频中,v
ω
描述了人体的空间姿态和形状状态。
[0062]
步骤s120,将所述面部部分输入面部检测底模,得到面部关键点集合;
[0063]
在一实施方式中,所述面部检测底模包括所述将所述面部部分输入面部检测底模,得到面部检测关键点集合,包括:
[0064]
基于所述面部检测底模对所述面部部分进行重建,得到面部3d模型;
[0065]
获取所述面部3d模型中的面部检测关键点集合。
[0066]
使用3d dense face模型作为baseline,采用smpl-x模型中脸部的部分作为模型的输出。其中3d dense face采用了一系列优化方案加速2d图片到3d模型的转换,采用数据增强手段保证在视频序列中3d模型的稳定生成。
[0067]
3d dense face是一种基于深度学习技术的人脸建模方法,可以从单张人脸图像中重建出三维的人脸模型。该模型是通过使用大量的人脸数据集,利用神经网络技术进行训练,从而可以在采集到尽可能少的数据之后,推断出一个人的三维面部形状。将3d dense face模型与smpl-x模型结合使用,能够提高人脸识别和验证的准确性和稳定性。
[0068]
步骤s130,将所述手部部分输入手部检测底模,得到手部关键点集合;
[0069]
在一实施方式中,所述将所述手部部分输入手部检测底模,得到手部检测关键点集合,包括:
[0070]
通过所述手部检测底模得到每帧的手部动作;
[0071]
对每帧所述手部动作进行时序平滑处理,得到所述手部检测关键点集合。
[0072]
使用由编码器和解码器组成的网络输出手部对应的smpl-x模型中的参数。其中编码器使用预训练过的resnet-50卷积网络,而解码器使用由全连接层组成的回归器。使用手部姿态估计模型可以估计每一帧的手部动作,随后使用简单的时序平滑可以得到视频序列中的手部模型估计。
[0073]
具体地,可以为每个视频帧提取手部图像作为输入。使用resnet-50卷积神经网络对输入的手部图像进行编码,得到特征向量。将特征向量传入解码器,并输出三维坐标(x,y,z),代表手部在空间中的位置。
[0074]
得到每帧手部位置之后,根据前后帧之间的差异计算出手部的运动轨迹和速度等动作特征,作为手部模型估计。
[0075]
对于手部动作识别问题,也可以使用其他深度学习模型,如循环神经网络(rnn)和长短时记忆网络(lstm)等。
[0076]
步骤s140,将所述躯干部分输入躯干检测底模,得到躯干关键点集合;
[0077]
在一实施方式中,所述手部检测底模包括编码器和解码器,所述编码器包括resnet-50卷积网络,所述解码器包括由多个全连接层组成的第一回归器。
[0078]
在一实施方式中,所述躯干检测底模包括tcmr网络,所述将所述躯干部分输入躯干检测底模,得到躯干检测关键点集合,包括:
[0079]
根据所述tcmr网络得到所述躯干部分的时序特征和聚合特征;
[0080]
将所述时序特征和所述聚合特征输入第二回归器,得到所述躯干检测关键点集合。
[0081]
身体的躯干部份采用tcmr的网络结构,使用过去帧和未来帧编码得到的时序特征,和整个视频序列编码得到的特征得到聚合特征,随后通过回归器得到身体部分的smpl-x参数。其中tcmr的输出参数原本为smpl模型参数,在训练时改为smpl-x参数。使用tcmr网络能够更充分的利用时序信息,得到更平滑的结果。
[0082]
tcmr(temporal cycle-consistency learning with confidence-based misalignment correction for action recognition)网络是一种深度学习模型,用于视频动作识别任务。它是一种基于循环一致性思想的模型,旨在通过学习视频序列中的循环关系来提高动作识别的准确性。
[0083]
具体来说,tcmr网络首先使用一个基本的视频动作识别模型对每个视频中的每个帧进行分类,以得到时序特征。然后,它使用循环一致性约束来对视频中每个帧的分类进行进一步验证。假设一个假想的视频循环一遍,再将这个循环后的视频传入相同的分类模型中进行分类。tcmr通过比较两次分类的结果,并将其转换成相同的表示形式来验证循环一致性。如果循环一致性存在,则可以使预测结果更加可靠。
[0084]
聚合特征是指将视频帧序列中的时空信息编码为一个固定长度的向量。这个向量包含了整个视频序列的信息,可以作为输入送入一个分类模型中进行分类。
[0085]
使用tcmr网络进行聚合特征的过程涉及了两种特征:基本特征和上下文特征。基本特征代表了视频中每个帧的局部信息,例如每个帧中的人体姿态和动作状态。而上下文特征则建立在基本特征的基础上,考虑了相邻帧之间的相关性,并根据时间和空间的运动模式对人体动作进行建模。
[0086]
此外,tcmr还使用置信度值来纠正可能的误差。如果分类结果的置信度低于阈值,则可以使用启发式方法来推断出正确的分类结果,从而减少误差。
[0087]
tcmr网络通常应用于视频动作识别的领域,例如,机器人和自动驾驶领域中可采用该模型完成对人体动作的识别任务,也可以使用该模型来监测体育比赛或病人的身体状况。
[0088]
步骤s150,将所述面部关键点集合、所述手部关键点集合和所述躯干关键点分别输入人体姿态估计模型,分别得到面部检测结果、手部检测结果和躯干检测结果;
[0089]
使用训练好的smpl-x模型作为人体姿态估计模型,输入所述面部关键点集合、所述手部关键点集合和所述躯干关键点,得到面部检测结果、手部检测结果和躯干检测结果,并根据坐标将它们整合。
[0090]
步骤s160,将所述面部检测结果、所述手部检测结果和所述躯干检测结果拼接为人体姿态估计结果。
[0091]
在使用不同的网络在各自数据集上训练得到相应的模型后,将输出的不同位置参数聚合得到最终的输出。为了保证模型推理的速度,使用简单的复制粘贴方法进行集成。即分别使用面部模型、手部模型、身体模型得到对应的输出然后拼接。对应的连接处,如手腕,
脖子处节点使用躯干的全局旋转参数进行连接。
[0092]
在一实施方式中,所述将所述面部检测结果、所述手部检测结果和所述躯干检测结果拼接为人体姿态估计结果,包括:获取所述面部检测结果和所述躯干检测结果的第一连接处;根据所述第一连接处将所述面部检测结果和所述躯干检测结果进行旋转和拼接;获取所述手部检测结果和所述躯干检测结果的第二连接处;根据所述第二连接处将所述手部检测结果和所述躯干检测结果进行旋转和拼接。
[0093]
面部检测结果、手部检测结果和躯干检测结果在相机坐标系中存在各自的坐标。首先需要根据相机的全局旋转参数将它们的相机坐标转换为世界坐标系中的坐标。然后再根据对应的连接部分将它们拼接起来,例如,将面部检测结果和躯干检测结果在脖颈处连接,将手部检测结果和躯干检测结果在手腕处连接。
[0094]
本实施例提供的人体姿态估计方法,将各部位分治计算,进行单目视频的全身3d姿态估计,输出smpl-x参数序列。可以解决目前缺少smpl-x标注数据集,以及全身姿态估计的优化模型存在的推理速度较慢的问题;对于不同的身体部分分别使用不同的模型进行训练,可以充分利用针对不同身体部位的神经网络,以及对应的数据集,得到更精确的估计。同时可以利用不同身体部位现有的3d回归方法,提升模型的推理速度。总体而言,本实施例能够在提升推理速度的同时保证估计的精度和视频中时序的连续性。
[0095]
实施例2
[0096]
本实施例也提供了一种人体姿态估计装置200,请参见图2,所述人体姿态估计装置200包括:
[0097]
分割模块210,用于将待检测图像分割为面部部分、手部部分和躯干部分;
[0098]
第一输入模块220,用于将所述面部部分输入面部检测底模,得到面部关键点集合;
[0099]
第二输入模块230,用于将所述手部部分输入手部检测底模,得到手部关键点集合;
[0100]
第三输入模块240,用于将所述躯干部分输入躯干检测底模,得到躯干关键点集合;
[0101]
第四输入模块250,用于将所述面部关键点集合、所述手部关键点集合和所述躯干关键点分别输入人体姿态估计模型,分别得到面部检测结果、手部检测结果和躯干检测结果;
[0102]
拼接模块260,用于将所述面部检测结果、所述手部检测结果和所述躯干检测结果拼接为人体姿态估计结果。
[0103]
在一实施方式中,所述拼接模块260还用于:
[0104]
获取所述面部检测结果和所述躯干检测结果的第一连接处;
[0105]
根据所述第一连接处将所述面部检测结果和所述躯干检测结果进行旋转和拼接;
[0106]
获取所述手部检测结果和所述躯干检测结果的第二连接处;
[0107]
根据所述第二连接处将所述手部检测结果和所述躯干检测结果进行旋转和拼接。
[0108]
在一实施方式中,所述第一输入模块220,还用于:
[0109]
基于所述面部检测底模对所述面部部分进行重建,得到面部3d模型;
[0110]
获取所述面部3d模型中的面部检测关键点集合。
[0111]
在一实施方式中,所述第二输入模块230,还用于:
[0112]
通过所述手部检测底模得到每帧的手部动作;
[0113]
对每帧所述手部动作进行时序平滑处理,得到所述手部检测关键点集合。
[0114]
在一实施方式中,所述第三输入模块240,还用于:
[0115]
根据所述tcmr网络得到所述躯干部分的时序特征和聚合特征;
[0116]
将所述时序特征和所述聚合特征输入第二回归器,得到所述躯干检测关键点集合。
[0117]
本实施例提供的人体姿态估计装置200可以实现实施例1所提供的人体姿态估计方法,为避免重复,在此不再赘述。
[0118]
本实施例提供的人体姿态估计装置,将各部位分治计算,进行单目视频的全身3d姿态估计,输出smpl-x参数序列。该方法可以解决目前缺少smpl-x标注数据集,以及全身姿态估计的优化模型存在的推理速度较慢的问题。对于不同的身体部分分别使用不同的模型进行训练,可以充分利用针对不同身体部位的神经网络,以及对应的数据集,得到更精确的估计。同时可以利用不同身体部位现有的3d回归方法,提升模型的推理速度。总体而言,本实施例能够在提升推理速度的同时保证估计的精度和视频中时序的连续性。
[0119]
实施例3
[0120]
本实施例也提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行第一方面所述的人体姿态估计方法。
[0121]
具体的,参见图3,所述电子设备300包括:收发机301、总线接口及处理器302,所述处理器302,用于:
[0122]
将待检测图像分割为面部部分、手部部分和躯干部分;
[0123]
将所述面部部分输入面部检测底模,得到面部关键点集合;
[0124]
将所述手部部分输入手部检测底模,得到手部关键点集合;
[0125]
将所述躯干部分输入躯干检测底模,得到躯干关键点集合;
[0126]
将所述面部关键点集合、所述手部关键点集合和所述躯干关键点分别输入人体姿态估计模型,分别得到面部检测结果、手部检测结果和躯干检测结果;
[0127]
将所述面部检测结果、所述手部检测结果和所述躯干检测结果拼接为人体姿态估计结果。
[0128]
可选的,所述处理器302还用于:
[0129]
基于所述面部检测底模对所述面部部分进行重建,得到面部3d模型;
[0130]
获取所述面部3d模型中的面部检测关键点集合。
[0131]
所述处理器302还用于:
[0132]
通过所述手部检测底模得到每帧的手部动作;
[0133]
对每帧所述手部动作进行时序平滑处理,得到所述手部检测关键点集合。
[0134]
所述处理器302还用于:
[0135]
根据所述tcmr网络得到所述躯干部分的时序特征和聚合特征;
[0136]
将所述时序特征和所述聚合特征输入第二回归器,得到所述躯干检测关键点集合。
[0137]
在本发明实施例中,电子设备300还包括:存储器303。在图3中,总线架构可以包括
任意数量的互联的总线和桥,具体由处理器302代表的一个或多个处理器和存储器303代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机301可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线架构和通常的处理,存储器303可以存储处理器302在执行操作时所使用的数据。
[0138]
本实施例提供的电子设备可以实现实施例1所提供的人体姿态估计方法,为避免重复,在此不再赘述。
[0139]
本实施例提供的电子设备,将各部位分治计算,进行单目视频的全身3d姿态估计,输出smpl-x参数序列。该方法可以解决目前缺少smpl-x标注数据集,以及全身姿态估计的优化模型存在的推理速度较慢的问题。
[0140]
对于不同的身体部分分别使用不同的模型进行训练,可以充分利用针对不同身体部位的神经网络,以及对应的数据集,得到更精确的估计。同时可以利用不同身体部位现有的3d回归方法,提升模型的推理速度。
[0141]
总体而言,本实施例能够在提升推理速度的同时保证估计的精度和视频中时序的连续性。
[0142]
实施例4
[0143]
本技术实施例也提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面所述的人体姿态估计方法。
[0144]
在本实施例中,计算机可读存储介质可以为只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
[0145]
本实施例提供的计算机可读存储介质可以实现实施例1所提供的人体姿态估计方法,为避免重复,在此不再赘述。
[0146]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
[0147]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0148]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种人体姿态估计方法,其特征在于,所述方法包括:将待检测图像分割为面部部分、手部部分和躯干部分;将所述面部部分输入面部检测底模,得到面部关键点集合;将所述手部部分输入手部检测底模,得到手部关键点集合;将所述躯干部分输入躯干检测底模,得到躯干关键点集合;将所述面部关键点集合、所述手部关键点集合和所述躯干关键点分别输入人体姿态估计模型,分别得到面部检测结果、手部检测结果和躯干检测结果;将所述面部检测结果、所述手部检测结果和所述躯干检测结果拼接为人体姿态估计结果。2.根据权利要求1所述的方法,其特征在于,所述面部检测底模包括所述将所述面部部分输入面部检测底模,得到面部检测关键点集合,包括:基于所述面部检测底模对所述面部部分进行重建,得到面部3d模型;获取所述面部3d模型中的面部检测关键点集合。3.根据权利要求1所述的方法,其特征在于,所述将所述手部部分输入手部检测底模,得到手部检测关键点集合,包括:通过所述手部检测底模得到每帧的手部动作;对每帧所述手部动作进行时序平滑处理,得到所述手部检测关键点集合。4.根据权利要求3所述的方法,其特征在于,所述手部检测底模包括编码器和解码器,所述编码器包括resnet-50卷积网络,所述解码器包括由多个全连接层组成的第一回归器。5.根据权利要求1所述的方法,其特征在于,所述躯干检测底模包括tcmr网络,所述将所述躯干部分输入躯干检测底模,得到躯干检测关键点集合,包括:根据所述tcmr网络得到所述躯干部分的时序特征和聚合特征;将所述时序特征和所述聚合特征输入第二回归器,得到所述躯干检测关键点集合。6.根据权利要求1所述的方法,其特征在于,所述将所述面部检测结果、所述手部检测结果和所述躯干检测结果拼接为人体姿态估计结果,包括:获取所述面部检测结果和所述躯干检测结果的第一连接处;根据所述第一连接处将所述面部检测结果和所述躯干检测结果进行旋转和拼接;获取所述手部检测结果和所述躯干检测结果的第二连接处;根据所述第二连接处将所述手部检测结果和所述躯干检测结果进行旋转和拼接。7.一种人体姿态估计装置,其特征在于,所述装置包括:分割模块,用于将待检测图像分割为面部部分、手部部分和躯干部分;第一输入模块,用于将所述面部部分输入面部检测底模,得到面部关键点集合;第二输入模块,用于将所述手部部分输入手部检测底模,得到手部关键点集合;第三输入模块,用于将所述躯干部分输入躯干检测底模,得到躯干关键点集合;第四输入模块,用于将所述面部关键点集合、所述手部关键点集合和所述躯干关键点分别输入人体姿态估计模型,分别得到面部检测结果、手部检测结果和躯干检测结果;拼接模块,用于将所述面部检测结果、所述手部检测结果和所述躯干检测结果拼接为人体姿态估计结果。8.根据权利要求7所述的装置,其特征在于,所述拼接模块还用于:
获取所述面部检测结果和所述躯干检测结果的第一连接处;根据所述第一连接处将所述面部检测结果和所述躯干检测结果进行旋转和拼接;获取所述手部检测结果和所述躯干检测结果的第二连接处;根据所述第二连接处将所述手部检测结果和所述躯干检测结果进行旋转和拼接。9.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行权利要求1至6中任一项所述的人体姿态估计方法。10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至6中任一项所述的人体姿态估计方法。
技术总结
本发明的实施例提供了一种人体姿态估计方法、装置、电子设备及存储介质,涉及金融科技技术领域。将待检测图像分割为面部部分、手部部分和躯干部分;将所述面部部分输入面部检测底模,得到面部关键点集合;将所述手部部分输入手部检测底模,得到手部关键点集合;将所述躯干部分输入躯干检测底模,得到躯干关键点集合;将所述面部关键点集合、所述手部关键点集合和所述躯干关键点分别输入人体姿态估计模型,分别得到面部检测结果、手部检测结果和躯干检测结果;将所述面部检测结果、所述手部检测结果和所述躯干检测结果拼接为人体姿态估计结果。本实施例能够在提升推理速度的同时保证人体姿态估计的精度。证人体姿态估计的精度。证人体姿态估计的精度。
技术研发人员:柳阳
受保护的技术使用者:平安银行股份有限公司
技术研发日:2023.06.29
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
