自监督人体姿态转换方法及系统、可读存储介质
未命名
07-15
阅读:85
评论:0
本技术涉及图像处理技术领域,具体而言,涉及一种自监督人体姿态转换方法及系统、可读存储介质。
背景技术:
近年来,随着人工智能技术的不断发展,基于深度学习的图像内容生成取得了显著进步。其中多姿态的人体图像生成(即人体姿态转换)在众多领域得到了广泛的应用,如电影制作,多媒体娱乐,行人再识别等。人体姿态转换算法目的是在给定目标姿势的情况下改变人物图像的姿态。该可以看作是一个非对齐的图像到图像转换问题,需要对原图像在特征空间中进行非刚性变换以实现姿态转换。目前的人体姿态转换算法根据训练数据的不同可以分为有监督方法和自监督方法。有监督人体姿态转换算法需成对的数据进行训练。然而在真实的部署环境中,获取成对数据需要采集同一个人不同姿态的图像,数据采集成本较高,不利于算法的实际落地。而设计有效的自监督姿态转换方法,主要在于设计出有效的特征解耦与特征融合方法。现有的特征解耦方法得到的解耦特征依然存在一定程度的对齐,不能为自监督算法提供足够的监督信息进行训练,导致对大尺度的姿态转换效果较差。现有的特征融合方法,如特征拼接、统计量迁移等,均为对特征图的全局操作,很难实现对特征的非刚性变换。同时,由于自监督算法对半身到全身的姿态转换中缺乏对不可见区域的先验知识,因此很难对不可见的人体区域进行补全,降低了算法的鲁棒性和泛化性。
技术实现要素:
本技术旨在解决或改善上述技术问题。为此,本技术的第一目的在于提供一种自监督人体姿态转换方法。本技术的第二目的在于提供一种自监督人体姿态转换系统。本技术的第三目的在于提供一种自监督人体姿态转换系统。本技术的第四目的在于提供一种可读存储介质。为实现本技术的第一目的,本技术第一方面的技术方案提供了一种自监督人体姿态转换方法,包括:获取输入人体图像,并根据输入人体图像得到人体姿态骨架图和人体解析图;通过姿态特征编码器对人体姿态骨架图进行特征提取,得到人体姿态特征,姿态特征编码器包括基于卷积神经网络的姿态特征编码器;通过解耦风格编码器提取对人体解析图进行特征提取,得到人体部位风格特征,解耦风格编码器包括基于卷积神经网络的解耦风格编码器;通过跨通道融合模块将人体部位风格特征进行融合;根据人体姿态特征和人体部位风格特征,通过基于空间相关性学习的相关性挖掘模块计算不同位置之间的特征相关性;根据特征相关性,构造密集空间相关场;基于密集空间相关场,对人体部位风格特征进行非刚性形变,得到重组风格特征;根据重组风格特征通过图像转换器对输入人体图像进行重建,得到重建的人体图像。根据本技术提供的自监督人体姿态转换方法,首先获取输入人体图像,并根据输
入人体图像得到人体姿态骨架图和人体解析图。基于卷积神经网络的姿态特征编码器,从人体姿态骨架图中提取人体姿态特征。基于卷积神经网络的解耦风格编码器,从每个单独的人体部位图像提取人体部位风格特征。基于1
×
1卷积的跨通道融合模块,将解耦的人体部位风格特征进行融合。基于空间相关性学习的相关性挖掘模块,根据已解耦的人体姿态特征和人体部位风格特征,计算不同位置之间的特征相关性。根据所述特征相关性,构造密集空间相关场。基于密集空间相关场,对人体风格特征进行非刚性形变,得到重组风格特征。基于u-net的图像转换器,根据重组后的风格特征,对输入人体图像进行重建。通过姿态编码器、解耦风格编码器、相关性挖掘模块及图像转换器实现了自监督人体姿态转换的能力,不依赖成对的多姿态人体数据集进行有监督训练,而是对单张人体图像通过提取非对齐的特征解耦与融合的方式进行重建,从而实现对模型训练的监督过程,有效的减少了数据采集和模型训练的成本。具体而言,姿态编码器和解耦风格编码器使人体图像在特征空间进行非对齐的解耦表达。相关性挖掘模块计算非对齐解耦特征之间的相关性,并对风格特征进行重组,从而实现非对齐特征的融合。图像转换器将融合后的特征转换为真实的人体图像,完成对人体图像的重建。另外,本技术提供的技术方案还可以具有如下附加技术特征:上述技术方案中,自监督人体姿态转换方法还包括:通过图像判别器对真实人体图像和重建的人体图像进行判断,并计算损失函数值。在该技术方案中,自监督人体姿态转换方法还包括通过图像判别器对真实人体图像和重建的人体图像进行判断,并计算损失函数值,能够通过损失函数的约束实现对模型的有效训练。上述技术方案中,通过图像判别器对真实人体图像和重建的人体图像进行判断,并计算损失函数值,具体包括:通过基于卷积神经网络的姿态判别器,将真实人体图像和其姿态骨架图判断为正例对,将重建的人体图像和其姿态骨架图判断为负例对,并计算损失函数值;通过基于卷积神经网络的风格判别器,将真实人体图像判断为正例,将重建的人体图像判断为负例,并计算损失函数值。在该技术方案中,通过图像判别器对真实人体图像和重建的人体图像进行判断,并计算损失函数值,具体为通过基于卷积神经网络的姿态判别器,将真实人体图像和其姿态骨架图判断为正例对,将重建的人体图像和其姿态骨架图判断为负例对,并计算损失函数值。通过基于卷积神经网络的风格判别器,将真实人体图像判断为正例,将重建的人体图像判断为负例,并计算损失函数值。上述技术方案中,自监督人体姿态转换方法还包括:基于预训练的vgg网络和区域平均池化层的人体图表征生成器,根据输入人体图像和人体解析图,得到表征人体结构的人体结构图;根据输入人体图像、重建的人体图像和人体结构图,计算损失函数值。在该技术方案中,自监督人体姿态转换方法还包括基于人体图表征生成器,得到人体结构图。基于输入人体图像、重建的人体图像和人体结构图计算损失函数值,通过多种损失函数的约束实现对模型的有效训练。具体地,人体图表征生成器由预训练的vgg网络和区域平均池化层构成。预训练的vgg网络提取人体图像的感知特征图,区域平均池化层根据人体解析图把感知特征图分离为多个区域,并通过平均池化操作提取每个区域的特征向
量。其中,每个人体区域特征向量作为人体结构图的节点,两两特征向量之间的余弦相似度作为人体结构图的边。上述技术方案中,损失函数包括以下之一或其组合:人体图像重建损失、人体图像感知损失、人体图像风格损失、基于图表征的人体结构保持损失和对抗训练损失。在该技术方案中,损失函数包括人体图像重建损失、人体图像感知损失、人体图像风格损失、基于图表征的人体结构保持损失和对抗训练损失。其中,对抗训练损失分为姿态判别损失和风格判别损失,分别由姿态判别器和风格判别器计算得到。上述技术方案中,自监督人体姿态转换方法还包括:根据损失函数值,通过损失梯度反向传播算法迭代调整姿态特征编码器、解耦风格编码器、图像转换器和图像判别器的权重直至收敛。在该技术方案中,自监督人体姿态转换方法还包括根据损失函数值,利用损失梯度反向传播算法迭代调整所述姿态特征编码器、解耦风格编码器、图像转换器和图像判别器的权重直至收敛。上述技术方案中,获取输入人体图像,并根据输入人体图像得到人体姿态骨架图和人体解析图,具体包括:获取输入人体图像;根据输入人体图像通过预设姿态估计方法得到人体姿态骨架图;根据输入人体图像通过预设人体解析方法得到人体解析图。在该技术方案中,获取人体姿态骨架图和人体解析图,具体为获取输入人体图像,基于预先构建的姿态估计方法得到输入人体图像的人体姿态骨架图,基于预先构建的人体解析方法得到输入人体图像的人体解析图。为实现本技术的第二目的,本技术第二方面的技术方案提供了一种自监督人体姿态转换系统,包括:获取模块,用于获取输入人体图像,并根据输入人体图像得到人体姿态骨架图和人体解析图;姿态特征提取模块,用于通过姿态特征编码器对人体姿态骨架图进行特征提取,得到人体姿态特征,姿态特征编码器包括基于卷积神经网络的姿态特征编码器;风格特征提取模块,用于通过解耦风格编码器提取对人体解析图进行特征提取,得到人体部位风格特征,解耦风格编码器包括基于卷积神经网络的解耦风格编码器;风格特征融合模块,用于通过跨通道融合模块将人体部位风格特征进行融合;相关性计算模块,用于根据人体姿态特征和人体部位风格特征,通过基于空间相关性学习的相关性挖掘模块计算不同位置之间的特征相关性;相关场构造模块,用于根据特征相关性,构造密集空间相关场;重组模块,用于基于密集空间相关场,对人体部位风格特征进行非刚性形变,得到重组风格特征;重建模块,用于根据重组风格特征通过图像转换器对输入人体图像进行重建,得到重建的人体图像。根据本技术提供的自监督人体姿态转换系统,包括获取模块、姿态特征提取模块、风格特征提取模块、风格特征融合模块、相关性计算模块、相关场构造模块、重组模块和重建模块。其中,获取模块用于获取输入人体图像,并根据输入人体图像得到人体姿态骨架图和人体解析图。姿态特征提取模块用于通过姿态特征编码器对人体姿态骨架图进行特征提取,得到人体姿态特征,姿态特征编码器包括基于卷积神经网络的姿态特征编码器。风格特征提取模块用于通过解耦风格编码器提取对人体解析图进行特征提取,得到人体部位风格特征,解耦风格编码器包括基于卷积神经网络的解耦风格编码器。风格特征融合模块用于通过跨通道融合模块将人体部位风格特征进行融合。相关性计算模块用于根据人体姿态特
征和人体部位风格特征,通过基于空间相关性学习的相关性挖掘模块计算不同位置之间的特征相关性。相关场构造模块用于根据特征相关性,构造密集空间相关场。重组模块用于基于密集空间相关场,对人体部位风格特征进行非刚性形变,得到重组风格特征。重建模块用于根据重组风格特征通过图像转换器对输入人体图像进行重建,得到重建的人体图像。通过姿态编码器、解耦风格编码器、相关性挖掘模块及图像转换器实现了自监督人体姿态转换的能力,不依赖成对的多姿态人体数据集进行有监督训练,而是对单张人体图像通过提取非对齐的特征解耦与融合的方式进行重建,从而实现对模型训练的监督过程,有效的减少了数据采集和模型训练的成本。为实现本技术的第三目的,本技术第三方面的技术方案提供了一种自监督人体姿态转换系统,包括:存储器和处理器,其中,存储器上存储有可在处理器上运行的程序或指令,处理器执行程序或指令时实现第一方面技术方案中任一项的自监督人体姿态转换方法,故而具有上述第一方面任一技术方案的技术效果,在此不再赘述。为实现本技术的第四目的,本技术第四方面的技术方案提供了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现第一方面技术方案中任一项的自监督人体姿态转换方法的步骤,故而具有上述第一方面任一技术方案的技术效果,在此不再赘述。本技术的附加方面和优点将在下面的描述部分中变得明显,或通过本技术的实践了解到。
附图说明
本技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为本技术一个实施例的自监督人体姿态转换方法的步骤流程示意图;图2为本技术一个实施例的自监督人体姿态转换方法的步骤流程示意图;图3为本技术一个实施例的自监督人体姿态转换方法的步骤流程示意图;图4为本技术一个实施例的自监督人体姿态转换方法的步骤流程示意图;图5为本技术一个实施例的自监督人体姿态转换方法的步骤流程示意图;图6为本技术一个实施例的自监督人体姿态转换方法的步骤流程示意图;图7为本技术一个实施例的自监督人体姿态转换系统的结构示意框图;图8为本技术另一个实施例的自监督人体姿态转换系统的结构示意框图;图9为本技术一个实施例的自监督人体姿态转换方法的步骤流程示意图。其中,图7和图8中的附图标记与部件名称之间的对应关系为:10:自监督人体姿态转换系统;110:获取模块;120:姿态特征提取模块;130:风格特征提取模块;140:风格特征融合模块;150:相关性计算模块;160:相关场构造模块;170:重组模块;180:重建模块;20:自监督人体姿态转换系统;300:存储器;400:处理器。
具体实施方式
为了能够更清楚地理解本技术的上述目的、特征和优点,下面结合附图和具体实施方式对本技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施
例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本技术,但是,本技术还可以采用其他不同于在此描述的其他方式来实施,因此,本技术的保护范围并不受下面公开的具体实施例的限制。下面参照图1至图9描述本技术一些实施例的自监督人体姿态转换方法及系统、可读存储介质。如图1所示,本技术第一方面的实施例提供了一种自监督人体姿态转换方法,包括以下步骤:步骤s102:获取输入人体图像,并根据输入人体图像得到人体姿态骨架图和人体解析图;步骤s104:通过姿态特征编码器对人体姿态骨架图进行特征提取,得到人体姿态特征,姿态特征编码器包括基于卷积神经网络的姿态特征编码器;步骤s106:通过解耦风格编码器提取对人体解析图进行特征提取,得到人体部位风格特征,解耦风格编码器包括基于卷积神经网络的解耦风格编码器;步骤s108:通过跨通道融合模块将人体部位风格特征进行融合;步骤s110:根据人体姿态特征和人体部位风格特征,通过基于空间相关性学习的相关性挖掘模块计算不同位置之间的特征相关性;步骤s112:根据特征相关性,构造密集空间相关场;步骤s114:基于密集空间相关场,对人体部位风格特征进行非刚性形变,得到重组风格特征;步骤s116:根据重组风格特征通过图像转换器对输入人体图像进行重建,得到重建的人体图像。根据本实施例提供的自监督人体姿态转换方法,首先获取输入人体图像,并根据输入人体图像得到人体姿态骨架图和人体解析图。基于卷积神经网络的姿态特征编码器,从人体姿态骨架图中提取人体姿态特征。基于卷积神经网络的解耦风格编码器,从每个单独的人体部位图像提取人体部位风格特征。基于1
×
1卷积的跨通道融合模块,将解耦的人体部位风格特征进行融合。基于空间相关性学习的相关性挖掘模块,根据已解耦的人体姿态特征和人体部位风格特征,计算不同位置之间的特征相关性。根据所述特征相关性,构造密集空间相关场。基于密集空间相关场,对人体风格特征进行非刚性形变,得到重组风格特征。基于u-net的图像转换器,根据重组后的风格特征,对输入人体图像进行重建。通过姿态编码器、解耦风格编码器、相关性挖掘模块及图像转换器实现了自监督人体姿态转换的能力,不依赖成对的多姿态人体数据集进行有监督训练,而是对单张人体图像通过提取非对齐的特征解耦与融合的方式进行重建,从而实现对模型训练的监督过程,有效的减少了数据采集和模型训练的成本。具体而言,姿态编码器和解耦风格编码器使人体图像在特征空间进行非对齐的解耦表达。相关性挖掘模块计算非对齐解耦特征之间的相关性,并对风格特征进行重组,从而实现非对齐特征的融合。图像转换器将融合后的特征转换为真实的人体图像,完成对人体图像的重建。如图2所示,根据本技术提出的一个实施例的自监督人体姿态转换方法,还包括以
下步骤:步骤s202:通过图像判别器对真实人体图像和重建的人体图像进行判断,并计算损失函数值。在该实施例中,自监督人体姿态转换方法还包括通过图像判别器对真实人体图像和重建的人体图像进行判断,并计算损失函数值,能够通过损失函数的约束实现对模型的有效训练。如图3所示,根据本技术提出的一个实施例的自监督人体姿态转换方法,通过图像判别器对真实人体图像和重建的人体图像进行判断,并计算损失函数值,具体包括以下步骤:步骤s302:通过基于卷积神经网络的姿态判别器,将真实人体图像和其姿态骨架图判断为正例对,将重建的人体图像和其姿态骨架图判断为负例对,并计算损失函数值;步骤s304:通过基于卷积神经网络的风格判别器,将真实人体图像判断为正例,将重建的人体图像判断为负例,并计算损失函数值。在该实施例中,通过图像判别器对真实人体图像和重建的人体图像进行判断,并计算损失函数值,具体为通过基于卷积神经网络的姿态判别器,将真实人体图像和其姿态骨架图判断为正例对,将重建的人体图像和其姿态骨架图判断为负例对,并计算损失函数值。通过基于卷积神经网络的风格判别器,将真实人体图像判断为正例,将重建的人体图像判断为负例,并计算损失函数值。如图4所示,根据本技术提出的一个实施例的自监督人体姿态转换方法,还包括以下步骤:步骤s402:基于预训练的vgg网络和区域平均池化层的人体图表征生成器,根据输入人体图像和人体解析图,得到表征人体结构的人体结构图;步骤s404:根据输入人体图像、重建的人体图像和人体结构图,计算损失函数值。在该实施例中,自监督人体姿态转换方法还包括基于人体图表征生成器,得到人体结构图。基于输入人体图像、重建的人体图像和人体结构图计算损失函数值,通过多种损失函数的约束实现对模型的有效训练。具体地,人体图表征生成器由预训练的vgg网络和区域平均池化层构成。预训练的vgg网络提取人体图像的感知特征图,区域平均池化层根据人体解析图把感知特征图分离为多个区域,并通过平均池化操作提取每个区域的特征向量。其中,每个人体区域特征向量作为人体结构图的节点,两两特征向量之间的余弦相似度作为人体结构图的边。在上述实施例中,损失函数包括人体图像重建损失、人体图像感知损失、人体图像风格损失、基于图表征的人体结构保持损失和对抗训练损失。其中,对抗训练损失分为姿态判别损失和风格判别损失,分别由姿态判别器和风格判别器计算得到。如图5所示,根据本技术提出的一个实施例的自监督人体姿态转换方法,还包括以下步骤:步骤s502:根据损失函数值,通过损失梯度反向传播算法迭代调整姿态特征编码器、解耦风格编码器、图像转换器和图像判别器的权重直至收敛。在该实施例中,自监督人体姿态转换方法还包括根据损失函数值,利用损失梯度反向传播算法迭代调整所述姿态特征编码器、解耦风格编码器、图像转换器和图像判别器
的权重直至收敛。如图6所示,根据本技术提出的一个实施例的自监督人体姿态转换方法,获取输入人体图像,并根据输入人体图像得到人体姿态骨架图和人体解析图,具体包括以下步骤:步骤s602:获取输入人体图像;步骤s604:根据输入人体图像通过预设姿态估计方法得到人体姿态骨架图;步骤s606:根据输入人体图像通过预设人体解析方法得到人体解析图。在该实施例中,获取人体姿态骨架图和人体解析图,具体为获取输入人体图像,基于预先构建的姿态估计方法得到输入人体图像的人体姿态骨架图,基于预先构建的人体解析方法得到输入人体图像的人体解析图。如图7所示,本技术第二方面的实施例提供了一种自监督人体姿态转换系统10,包括:获取模块110,用于获取输入人体图像,并根据输入人体图像得到人体姿态骨架图和人体解析图;姿态特征提取模块120,用于通过姿态特征编码器对人体姿态骨架图进行特征提取,得到人体姿态特征,姿态特征编码器包括基于卷积神经网络的姿态特征编码器;风格特征提取模块130,用于通过解耦风格编码器提取对人体解析图进行特征提取,得到人体部位风格特征,解耦风格编码器包括基于卷积神经网络的解耦风格编码器;风格特征融合模块140,用于通过跨通道融合模块将人体部位风格特征进行融合;相关性计算模块150,用于根据人体姿态特征和人体部位风格特征,通过基于空间相关性学习的相关性挖掘模块计算不同位置之间的特征相关性;相关场构造模块160,用于根据特征相关性,构造密集空间相关场;重组模块170,用于基于密集空间相关场,对人体部位风格特征进行非刚性形变,得到重组风格特征;重建模块180,用于根据重组风格特征通过图像转换器对输入人体图像进行重建,得到重建的人体图像。根据本实施例提供的自监督人体姿态转换系统10,包括获取模块110、姿态特征提取模块120、风格特征提取模块130、风格特征融合模块140、相关性计算模块150、相关场构造模块160、重组模块170和重建模块180。其中,获取模块110用于获取输入人体图像,并根据输入人体图像得到人体姿态骨架图和人体解析图。姿态特征提取模块120用于通过姿态特征编码器对人体姿态骨架图进行特征提取,得到人体姿态特征,姿态特征编码器包括基于卷积神经网络的姿态特征编码器。风格特征提取模块130用于通过解耦风格编码器提取对人体解析图进行特征提取,得到人体部位风格特征,解耦风格编码器包括基于卷积神经网络的解耦风格编码器。风格特征融合模块140用于通过跨通道融合模块将人体部位风格特征进行融合。相关性计算模块150用于根据人体姿态特征和人体部位风格特征,通过基于空间相关性学习的相关性挖掘模块计算不同位置之间的特征相关性。相关场构造模块160用于根据特征相关性,构造密集空间相关场。重组模块170用于基于密集空间相关场,对人体部位风格特征进行非刚性形变,得到重组风格特征。重建模块180用于根据重组风格特征通过图像转换器对输入人体图像进行重建,得到重建的人体图像。通过姿态编码器、解耦风格编码器、相关性挖掘模块及图像转换器实现了自监督人体姿态转换的能力,不依赖成对的多姿态人体数据集进行有监督训练,而是对单张人体图像通过提取非对齐的特征解耦与融合的方式进行重建,从而实现对模型训练的监督过程,有效的减少了数据采集和模型训练的成本。如图8所示,本技术第三方面的实施例提供了一种自监督人体姿态转换系统20,包
括:存储器300和处理器400,其中,存储器300上存储有可在处理器400上运行的程序或指令,处理器400执行程序或指令时实现第一方面的实施例中任一项的自监督人体姿态转换方法的步骤,故而具有上述第一方面任一实施例的技术效果,在此不再赘述。本技术第四方面的实施例提供了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现第一方面的实施例中任一项的自监督人体姿态转换方法的步骤,故而具有上述第一方面任一实施例的技术效果,在此不再赘述。如图9所示,根据本技术提供的一个具体实施例的自监督人体姿态转换方法,整体架构由图像生成器和图像判别器组成,其中图像生成器包括基于卷积神经网络的姿态特征编码器、基于卷积神经网络的解耦风格编码器、基于u-net的图像转换器和基于人体图表征生成器。图像判别器包括姿态判别器和风格判别器。自监督人体姿态转换方法包括:基于预先构建的姿态估计方法得到输入人体图像的人体姿态骨架图;基于卷积神经网络的姿态特征编码器,从人体姿态骨架图中提取人体姿态特征;基于预先构建的人体解析方法得到输入人体图像的人体解析图;基于卷积神经网络的解耦风格编码器,从每个单独的人体部位图像提取风格特征;基于1
×
1卷积的跨通道融合模块,将解耦的风格特征进行融合;基于空间相关性学习的相关性挖掘模块,根据已解耦的姿态特征和风格特征,计算不同位置之间的特征相关性;根据所述特征相关性,构造密集空间相关场;基于密集空间相关场,对人体风格特征进行非刚性形变,得到重组风格特征;基于u-net的图像转换器,根据重组后的风格特征,对输入人体图像进行重建;基于卷积神经网络的姿态判别器,将真实人体图像和其姿态骨架图判断为正例对,将重建的人体图像和其姿态骨架图判断为负例对,并计算损失函数值;基于卷积神经网络的风格判别器,将真实人体图像判断为正例,将重建的人体图像判断为负例,并计算损失函数值;基于预训练的vgg网络和区域平均池化层的人体图表征生成器,根据人体图像和人体解析图,得到表征人体结构的人体结构图;根据真实的人体图像和重建的人体图像,计算损失函数值;可选地,所述的损失函数包括:人体图像重建损失、人体图像感知损失、人体图像风格损失、基于图表征的人体结构保持损失、对抗训练损失;对抗训练损失l
adv
=e
i,p
[log(d
s(i)·dp
(i,p))];+e
i,p
[log((1-ds(g(i,p)))
·
(1-d
p
(g(i,p),p))))];
其中,i表示输入人体图像,表示重建后的人体图像,‖
·
‖1表示计算欧式距离,φ
l
(
·
)表示预训练的vgg网络的第l层,g(
·
)表示格拉姆矩阵(gram matrix),m(
·
)表示人体结构图,p表示人体姿态骨架图,s表示人体姿态骨架图,ds表示风格判别器,d
p
表示姿态判别器;
[0024]
根据以下公式,计算总损失函数值l
total
;l
total
=β
adv
l
adv
+β
rec
l
rec
+β
perc
l
perc
+β
style
l
style
+β
grap
hl
grap
h;其中β
adv
,β
rec
,β
perc
,β
style
,β
graph
是损失函数的权重;本实施例通过姿态编码器、解耦风格编码器、相关性挖掘模块及图像转换器实现了自监督人体姿态转换的能力,并通过多种损失函数的约束实现对模型的有效训练。具体而言,姿态编码器和解耦风格编码器使人体图像在特征空间进行非对齐的解耦表达;相关性挖掘模块计算非对齐解耦特征之间的相关性,并对风格特征进行重组,从而实现非对齐特征的融合;图像转换器将融合后的特征转换为真实的人体图像,完成对人体图像的重建。具体地,自监督人体姿态转换方法包括:步骤702:获取一定数量的人体图像用于训练;步骤704:基于预训练好的人体姿态估计方法得到人体图像的姿态骨架图;步骤706:基于预训练好的人体解析方法得到人体图像的人体解析图;步骤708:基于姿态提取器,根据人体姿态骨架图得到人体的姿态特征;具体而言,在步骤708中,姿态提取器由下采样的卷积神经网络构成,网络结构由若干3
×
3卷积层、批量归一化层和非线性激活函数层组成;姿态提取器对姿态骨架图整体进行特征提取,得到的分辨率降低,通道数增加的姿态特征图;步骤710:基于风格特征器,根据人体图像和其对应的人体解析图,得到人体的解耦风格特征;具体而言,在步骤710中,风格提取器由下采样的卷积神经网络构成,网络结构由若干3
×
3卷积层、批量归一化层和非线性激活函数层组成。风格提取器根据人体部位标签,将人体解析图分离为多张二值掩码图;并通过哈达玛乘积(hadamard product),得到解耦的人体部位图像。风格提取器独立地提取每个人体部位图像的特征,并沿通道维度拼接特征;在步骤710中,基于跨通道融合模块,每个部位的人体特征在通道维度进行融合;在步骤710中,每个人体部位风格特征被独立的编码,得到的整体风格特征图与步骤708得到的姿态特征图处于非对齐状态;步骤712:基于空间相关性挖掘模块,建立密集空间相关性场,并根据密集空间相关性场,对风格特征进行重组;具体而言,在步骤712中,空间相关性挖掘模块计算姿态特征图和风格特征图每个位置的特征向量之间的余弦相似度,并利用softmax函数进行概率归一化。该相似度保存到密集空间相关性场。基于该密集空间相关性场,风格特征以加权组合的方式进行重组排列,其中权重从密集空间相关性场读入;步骤714:基于图像转换器和重组风格特征,得到重建后的人体图像;步骤716:基于人体图表征生成器,得到人体结构图;具体而言,在步骤716中,人体图表征生成器预训练的vgg网络和区域平均池化层
构成。预训练的vgg网络提取人体图像的感知特征图,区域平均池化层根据人体解析图把感知特征图分离为多个区域,并通过平均池化操作提取每个区域的特征向量;进一步的,在步骤716中,每个所述人体区域特征向量作为人体结构图的节点,两两特征向量之间的余弦相似度作为人体结构图的边;步骤718:基于输入人体图像、重建的人体图像和人体结构图计算损失函数值;可选地,在步骤718中,所述损失函数值包括:人体图像重建损失、人体图像感知损失、人体图像风格损失、基于图表征的人体结构保持损失、对抗训练损失;在步骤718中,对抗训练损失分为姿态判别损失和风格判别损失,分别由姿态判别器和风格判别器计算得到;具体而言,在步骤718中,通过以下公式计算损失函数值:对抗训练损失l
adv
=e
i,p
[log(d
s(i)·dp
(i,p))];+
i,p
[((1-ds((,p)))
·
(1-d
p
((,p),p))))];其中i表示输入人体图像,表示重建后的人体图像,‖
·
‖1表示计算欧式距离,φ
l
(
·
)表示预训练的vgg网络的第l层,g(
·
)表示格拉姆矩阵(gram matrix),m(
·
)表示人体结构图,p表示人体姿态骨架图,s表示人体姿态骨架图,ds表示风格判别器,d
p
表示姿态判别器;根据以下公式,计算总损失函数值l
total
;l
total
=β
adv
l
adv
+β
rec
l
rec
+β
perc
l
perc
+β
style
l
style
+β
grap
hl
grap
h;其中β
adv
,β
rec
,β
perc
,β
style
,β
grap
h是损失函数的权重;步骤720:根据所述损失函数值,利用损失梯度反向传播算法迭代调整所述姿态特征编码器、解耦风格编码器、图像转换器和图像判别器的权重直至收敛;本实施例设计的模型可以总结为三个部分:由姿态编码器和风格编码器组成的特征解耦部分;由空间相关性挖掘模块组成的特征融合部分;由图像转换器组成的特征转换部分;三个部分通过对输入人体图像的重建实现对模型训练的监督过程;特征解耦部分以人体图像为输入,解耦得到非对齐的姿态特征和风格特征;特征融合部分通过计算特征图之间的位置相关性,使得非对齐的风格特征嵌入到姿态特征中,实现解耦特征的融合;特征转换部分以低分辨率的特征图为输入,生成高分辨率的真实人体图像;为了监督模型训练过程,本实施例采用了人体图像重建损失、人体图像感知损失、人体图像风格损失、基于图表征的人体结构保持损失、风格对抗训练损失、姿态对抗训练损失对模型训练进行约束,实现了自监督人体姿态转换模型的训练。还可以采用多种空间变换的形式对单张人体图像进行数据增强,从而创建非对齐
的图像对为模型训练提供监督信息。综上,本技术实施例的有益效果为:1、不依赖成对的多姿态人体数据集进行有监督训练,而是对单张人体图像通过提取非对齐的特征解耦与融合的方式进行重建,从而实现对模型训练的监督过程,有效的减少了数据采集和模型训练的成本。在本技术中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本技术中的具体含义。本技术的描述中,需要理解的是,术语“上”、“下”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或模块必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本技术的限制。在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。以上仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
技术特征:
1.一种自监督人体姿态转换方法,其特征在于,包括:获取输入人体图像,并根据所述输入人体图像得到人体姿态骨架图和人体解析图;通过姿态特征编码器对所述人体姿态骨架图进行特征提取,得到人体姿态特征,所述姿态特征编码器包括基于卷积神经网络的姿态特征编码器;通过解耦风格编码器提取对所述人体解析图进行特征提取,得到人体部位风格特征,所述解耦风格编码器包括基于卷积神经网络的解耦风格编码器;通过跨通道融合模块将所述人体部位风格特征进行融合;根据所述人体姿态特征和所述人体部位风格特征,通过基于空间相关性学习的相关性挖掘模块计算不同位置之间的特征相关性;根据所述特征相关性,构造密集空间相关场;基于所述密集空间相关场,对人体部位风格特征进行非刚性形变,得到重组风格特征;根据所述重组风格特征通过图像转换器对所述输入人体图像进行重建,得到重建的人体图像。2.根据权利要求1所述的自监督人体姿态转换方法,其特征在于,所述自监督人体姿态转换方法还包括:通过图像判别器对真实人体图像和所述重建的人体图像进行判断,并计算损失函数值。3.根据权利要求2所述的自监督人体姿态转换方法,其特征在于,所述通过图像判别器对真实人体图像和所述重建的人体图像进行判断,并计算损失函数值,具体包括:通过基于卷积神经网络的姿态判别器,将真实人体图像和其姿态骨架图判断为正例对,将重建的人体图像和其姿态骨架图判断为负例对,并计算损失函数值;通过基于卷积神经网络的风格判别器,将所述真实人体图像判断为正例,将所述重建的人体图像判断为负例,并计算损失函数值。4.根据权利要求2所述的自监督人体姿态转换方法,其特征在于,所述自监督人体姿态转换方法还包括:基于预训练的vgg网络和区域平均池化层的人体图表征生成器,根据所述输入人体图像和所述人体解析图,得到表征人体结构的人体结构图;根据所述输入人体图像、所述重建的人体图像和所述人体结构图,计算损失函数值。5.根据权利要求4所述的自监督人体姿态转换方法,其特征在于,所述损失函数包括以下之一或其组合:人体图像重建损失、人体图像感知损失、人体图像风格损失、基于图表征的人体结构保持损失和对抗训练损失。6.根据权利要求5所述的自监督人体姿态转换方法,其特征在于,所述自监督人体姿态转换方法还包括:根据所述损失函数值,通过损失梯度反向传播算法迭代调整所述姿态特征编码器、所述解耦风格编码器、所述图像转换器和所述图像判别器的权重直至收敛。7.根据权利要求1至6中任一项所述的自监督人体姿态转换方法,其特征在于,所述获取输入人体图像,并根据输入人体图像得到人体姿态骨架图和人体解析图,具体包括:获取输入人体图像;根据所述输入人体图像通过预设姿态估计方法得到人体姿态骨架图;
根据所述输入人体图像通过预设人体解析方法得到人体解析图。8.一种自监督人体姿态转换系统,其特征在于,包括:获取模块(110),用于获取输入人体图像,并根据所述输入人体图像得到人体姿态骨架图和人体解析图;姿态特征提取模块(120),用于通过姿态特征编码器对所述人体姿态骨架图进行特征提取,得到人体姿态特征,所述姿态特征编码器包括基于卷积神经网络的姿态特征编码器;风格特征提取模块(130),用于通过解耦风格编码器提取对所述人体解析图进行特征提取,得到人体部位风格特征,所述解耦风格编码器包括基于卷积神经网络的解耦风格编码器;风格特征融合模块(140),用于通过跨通道融合模块将所述人体部位风格特征进行融合;相关性计算模块(150),用于根据所述人体姿态特征和所述人体部位风格特征,通过基于空间相关性学习的相关性挖掘模块计算不同位置之间的特征相关性;相关场构造模块(160),用于根据所述特征相关性,构造密集空间相关场;重组模块(170),用于基于所述密集空间相关场,对人体部位风格特征进行非刚性形变,得到重组风格特征;重建模块(180),用于根据所述重组风格特征通过图像转换器对所述输入人体图像进行重建,得到重建的人体图像。9.一种自监督人体姿态转换系统,其特征在于,包括:存储器(300)和处理器(400),其中,所述存储器(300)上存储有可在所述处理器(400)上运行的程序或指令,所述处理器(400)执行所述程序或所述指令时实现如权利要求1至7中任一项所述的自监督人体姿态转换方法的步骤。10.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或所述指令被处理器执行时实现如权利要求1至7中任一项所述的自监督人体姿态转换方法的步骤。
技术总结
本申请提供了一种自监督人体姿态转换方法及系统、可读存储介质,自监督人体姿态转换方法包括:获取人体姿态骨架图和人体解析图;通过姿态特征编码器和解耦风格编码器对人体姿态骨架图和人体解析图进行特征提取,得到人体姿态特征和人体部位风格特征;通过基于空间相关性学习的相关性挖掘模块计算特征相关性;根据特征相关性,构造密集空间相关场;基于密集空间相关场,对人体部位风格特征进行非刚性形变,得到重组风格特征;根据重组风格特征通过图像转换器对输入人体图像进行重建。通过本申请的技术方案,对单张人体图像通过提取非对齐的特征解耦与融合的方式进行重建,从而实现对模型训练的监督过程,有效的减少了数据采集和模型训练的成本。和模型训练的成本。和模型训练的成本。
技术研发人员:孙哲南 王子健 孙沐毅 李琦
受保护的技术使用者:中国科学院自动化研究所
技术研发日:2022.12.23
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
