基于运动重定向的手语动作迁移方法、装置
未命名
10-09
阅读:119
评论:0
1.本发明涉及骨架动画运动重定向技术领域,尤其涉及一种基于运动重定向的手语动作迁移方法、装置。
背景技术:
2.手语是一种视觉语言,以肢体动作、手指手势、面部表情和口型唇动表意和交流,是听力障碍者在日常生活中与健听人交流的主要手段。手语合成是指将自然语言(例如汉语)翻译成手语动作的技术,手语合成包括视频真人手语合成和虚拟数字人手语合成,其中数字人手语合成又以其高效和展现形式多样而备受关注。数字人手语合成主要通过骨架动画展示手语动作,由于采用动作捕捉技术构建手语动作的骨架动画数据工作量巨大而且成本过于昂贵,为了在不同的数字人上使用相同的骨架动画数据,迫切需要一种运动重定向技术将一套标准数字人的骨架动画数据迁移到不同的数字人骨架上。
3.传统的运动重定向一般采用反向运动学(ik)算法实现,首先在每一帧应用ik来满足约束,然后通过装配多层b样条曲线来平滑运动结果。为了响应变化的效应器位置,同时保留原始运动的细节,ik算法还需关注关节角度的变化。ik算法需要大量的时间去构建约束矩阵,然后通过迭代推理计算才能得到重定向结果。这种传统算法要求源骨架和目标骨架的层次结构一致,且在源骨架和目标骨架的身材比例差距较大时重定向的位置误差较大。
4.现有的运动重定向广泛采用深度学习技术,其在重定向时切除手部关节,仅重定向躯干、手臂和腿部等相关动作,因此对肢体运动较为有效。但手语动作关键在于手指手势,由于没有考虑手指重定向及重定向过程中其他骨骼对当前骨骼的影响,因此直接应用导致手指变形较为严重,手指位置重定向精度也较低。此外,现有深度学习方法需要提供成对数据进行训练,在运动重定向中,这种训练数据一般是难以获取的。
技术实现要素:
5.针对现有技术的不足,本发明提出一种基于运动重定向的手语动作迁移方法、装置,其使用循环生成对抗网络进行无监督训练,解决了成对训练数据获取困难的问题。
6.为了实现上述目的,本发明一方面提供一种基于运动重定向的手语动作迁移方法,包括:
7.构建编码器模型,所述编码器模型配置为运动编码器、静态编码器和潜层编码器;
8.所述运动编码器配置为:输入为骨架原始手语动画数据,输出为编码后的骨架动作信息;
9.所述静态编码器配置为:输入为骨架空间静态数据,输出为编码后的骨架结构信息;
10.所述潜层编码器与所述运动编码器、静态编码器耦接,配置为:将所述骨架动作信息与骨架结构信息解耦,提取手语抽象动作;
11.构建解码器模型,所述解码器模型与所述编码器模型耦接,配置为:将所述手语抽象动作和骨架结构信息重定向,生成骨架重构手语动画数据;
12.构建鉴别器模型,所述鉴别器模型与所述编码器模型以及所述解码器模型耦接,配置为:输入为所述骨架原始手语动画数据、所述骨架重构手语动画数据、所述骨架空间静态数据,输出鉴别结果包括关于所述骨架原始手语动画数据与骨架空间静态数据的第一鉴别结果、关于所述骨架重构手语动画数据与骨架空间静态数据的第二鉴别结果。
13.可选的,还包括构建目标损失函数,所述目标损失函数包括浅层损失函数,所述浅层损失函数用于约束源骨架与目标骨架两者的骨架动作信息情况;
14.依据源骨架的原始手语动画数据输入至所述运动编码器生成的骨架动作信息、以及重定向后的目标骨架的原始手语动画数据输入至所述运动编码器生成的骨架动作信息,确定所述浅层损失函数。
15.可选的,所述浅层损失函数表示为:
[0016][0017]
其中,表示源骨架a的原始手语动画数据qa输入至运动编码器生成的骨架动作信息,表示目标骨架b的原始手语动画数据qb输入至运动编码器生成的骨架动作信息,l
ltc
表示浅层损失函数。
[0018]
可选的,所述目标损失函数还包括重构损失函数,所述重构损失函数用于约束源骨架与目标骨架两者的重构信息情况;
[0019]
依据源骨架的原始手语动画数据与重构手语动画数据,以及目标骨架的原始手语动画数据与重构手语动画数据,确定所述重构损失函数。
[0020]
可选的,所述重构损失函数表示为:
[0021][0022]
其中,所述qa、分别表示源骨架a的原始手语动画数据与重构手语动画数据,
[0023]
qb、分别表示目标骨架b的原始手语动画数据与重构手语动画数据,l
rec
表示重构损失函数。
[0024]
可选的,所述目标损失函数还包括对抗损失函数,所述对抗损失函数用于约束源骨架与目标骨架两者的对抗信息情况;
[0025]
依据所述源骨架的第一鉴别结果与第二鉴别结果,以及所述目标骨架的第一鉴别结果与第二鉴别结果,确定所述对抗损失函数。
[0026]
可选的,所述对抗损失函数表示为:
[0027][0028]
其中,表示源骨架a的关于骨架重构手语动画数据与骨架空间静态数据sa的第二鉴别结果,ca(qa,sa)表示源骨架a的关于骨架原始手语动画数据qa与骨架
空间静态数据sa的第一鉴别结果;表示目标骨架b的关于骨架重构手语动画数据与骨架空间静态数据sb的第二鉴别结果,cb(qb,sb)表示目标骨架b的关于骨架原始手语动画数据qb与骨架空间静态数据sb的第一鉴别结果,l
adv
表示对抗损失函数。
[0029]
可选的,所述目标损失函数还包括末端损失函数,所述末端损失函数用于约束骨架末端各个骨骼关节的运动速度;
[0030]
依据源骨架末端各个骨骼关节的运动速度,以及目标骨架末端各个骨骼关节的运动速度,确定所述末端损失函数。
[0031]
可选的,所述末端损失函数表示为:
[0032][0033]
其中,表示源骨架a第i末端各个骨骼关节的速度、表示目标骨架b第i末端各个骨骼关节的速度;ha表示源骨架a骨架高度,hb表示目标骨架b的骨架高度,l
ee
表示末端损失函数。
[0034]
本发明另一方面还提供了一种基于运动重定向的手语动作迁移装置,采取上述的基于运动重定向的手语动作迁移方法,至少包括:
[0035]
编码器模块,用于构建编码器模型,所述编码器模型配置为运动编码器、静态编码器和潜层编码器;
[0036]
所述运动编码器配置为:输入为骨架原始手语动画数据,输出为编码后的骨架动作信息;
[0037]
所述静态编码器配置为:输入为骨架空间静态数据,输出为编码后的骨架结构信息;
[0038]
所述潜层编码器与所述运动编码器、静态编码器耦接,配置为:将所述骨架动作信息与骨架结构信息解耦,提取手语抽象动作;
[0039]
解码器模块,用于构建解码器模型,所述解码器模型与所述编码器模型耦接,配置为:将所述手语抽象动作和骨架结构信息重定向,生成骨架重构手语动画数据;
[0040]
鉴别器模块,用于构建鉴别器模型,所述鉴别器模型与所述编码器模型以及所述解码器模型耦接,配置为:输入为所述骨架原始手语动画数据、所述骨架重构手语动画数据、所述骨架空间静态数据,输出鉴别结果包括关于所述骨架原始手语动画数据与骨架空间静态数据的第一鉴别结果、关于所述骨架重构手语动画数据与骨架空间静态数据的第二鉴别结果。
[0041]
由以上方案可知,本发明的优点在于:
[0042]
本发明提供的基于运动重定向的手语动作迁移方法,使用循环生成对抗网络进行无监督训练,其具体构建编码器模型、解码器模型、以及鉴别器模型,将编码器模型配置为运动编码器、静态编码器和潜层编码器;其中运动编码器配置为:输入为骨架原始手语动画数据,输出为编码后的骨架动作信息;静态编码器配置为:输入为骨架空间静态数据,输出为编码后的骨架结构信息;潜层编码器配置为:将所述骨架动作信息与骨架结构信息解耦,提取手语抽象动作;解码器模型配置为:将所述手语抽象动作和骨架结构信息重定向,生成
骨架重构手语动画数据;鉴别器模型配置为:输入为所述骨架原始手语动画数据、所述骨架重构手语动画数据、所述骨架空间静态数据,输出鉴别结果包括关于所述骨架原始手语动画数据与骨架空间静态数据的第一鉴别结果、关于所述骨架重构手语动画数据与骨架空间静态数据的第二鉴别结果,解决了成对训练数据获取困难的问题。此外,相比传统方法,本发明不要求源骨架和目标骨架的层次结构一致,只要满足骨架是具有头、手、脚的人形结构即可,动作迁移适用范围更广;同时在源骨架和目标骨架的身材比例差距较大时具有显著优势,不仅迁移后的手势动作自然连贯,而且位置精度高,手语表达可靠准确。
附图说明
[0043]
图1示出了手语动作重定向模型总体结构;
[0044]
图2示出了基于运动重定向的手语动作迁移方法的流程示意图;
[0045]
图3示出了注意力层结构图;
[0046]
图4示出了手语动画数据集;
[0047]
图5示出了不同类型骨架尺寸结构;
[0048]
图6示出了本发明与其他模型的可视化比较;
[0049]
图7a-图7c展示了将原始动作迁移到不同尺寸骨架时的右手速度曲线图。
具体实施方式
[0050]
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
[0051]
本发明提出了一种基于运动重定向的手语动作迁移方法,该迁移模型为由编码器、解码器、鉴别器构成的循环生成对抗网络,总体网络结构如图1所示,图1示出了手语动作重定向模型总体结构,图2示出了基于运动重定向的手语动作迁移方法的流程示意图。
[0052]
具体的,一种基于运动重定向的手语动作迁移方法,包括:
[0053]
s1、构建编码器模型,所述编码器模型配置为运动编码器、静态编码器和潜层编码器。
[0054]
其中,运动编码器配置为:输入为骨架原始手语动画数据,输出为编码后的骨架动作信息,通过运动编码器,实现了将原始动作与重定向动作对齐的目的。
[0055]
具体的,运动编码器encoder
(q)
由若干个卷积层构成,其输入为原始手语动画数据q,卷积核大小为k
×
k。原始手语动画数据经过多个二维卷积,并利用leakey relu激活函数得到骨架动作信息l
(q)
。
[0056]
l
(q)
=conv(k
×
k)(q)
[0057][0058]
其中,静态编码器配置为:输入为骨架空间静态数据,包括骨骼节点的初始空间坐标等,输出为编码后的骨架结构信息,通过静态编码器,完成对不同骨架结构和比例的识别。
[0059]
具体的,静态编码器encoder
(s)
的卷积操作类比于运动编码器encoder
(q)
,其输入
为骨架空间静态数据s。骨架空间静态数据s经过多个一维卷积,并执行激活操作后生成骨架结构信息l
(s)
。
[0060]
l
(s)
=conv(k)(s)
[0061][0062]
其中,潜层编码器与所述运动编码器、静态编码器耦接,配置为:将所述骨架动作信息与骨架结构信息解耦,提取手语抽象动作。
[0063]
具体的,潜层编码器latent将骨架动作信息l
(q)
和骨架结构信息l
(s)
相连,然后通过卷积网络生成和骨架结构无关的动作结果l,提取手语抽象动作,具体公式如下所示:
[0064]
l=conv(k
×
k)(l
(q)
+broadcast(l
(s)
we+be))
[0065]
其中,we表示权重矩阵,be表示偏差矩阵,broadcast表示将向量广播成矩阵。
[0066]
s2、构建解码器模型,所述解码器模型与所述编码器模型耦接,配置为:将所述手语抽象动作和骨架结构信息重定向,生成骨架重构手语动画数据。
[0067]
具体的,解码器decoder将动作结果l和骨架结构信息l
(s)
重新解码成重构手语动画数据从而实现手语动作的重定向。
[0068]
首先执行与编码器相似的卷积操作生成矩阵u。
[0069]
u=conv(k
×
k)(conv(k
×
k)(l)+broadcast(l
(s)
wd+bd))
[0070]
其中,wd表示权重矩阵,bd表示偏差矩阵;
[0071]
其次将u送入注意力层计算注意力分数并重构,注意力层结构如图3所示,模型利用三个不同的权重wq、wk和wv得到三个矩阵query,key,value。
[0072]
query=wqu,key=wku,value=wvu
[0073]
然后矩阵query转置与矩阵key点乘后使用softmax函数计算注意力分数图score,具体公式如下所示,其中score
ji
表示重定向过程中第j个骨骼节点对第i个骨骼节点的关注程度。
[0074][0075][0076]
最后经过leakey relu激活函数形成与原始手语动画数据q具有相同大小的重构手语动画数据q
(rec)
,具体计算公式如下所示,其中δ是权重系数。
[0077]q(rec)
=δvaluescore+u
[0078][0079]
s3、构建鉴别器模型,所述鉴别器模型与所述编码器模型以及所述解码器模型耦接,配置为:输入为所述骨架原始手语动画数据、所述骨架重构手语动画数据、所述骨架空
间静态数据,输出鉴别结果包括关于所述骨架原始手语动画数据与骨架空间静态数据的第一鉴别结果、关于所述骨架重构手语动画数据与骨架空间静态数据的第二鉴别结果。
[0080]
具体的,鉴别器discriminator的结构和编码器类似,它的输入为原始手语动画数据q、或者重构手语动画数据q
(rec)
,骨架空间静态数据s,输出为鉴别结果c(q,s),其包括关于所述骨架原始手语动画数据与骨架空间静态数据的第一鉴别结果、关于所述骨架重构手语动画数据与骨架空间静态数据的第二鉴别结果,鉴别器和编码器的主要区别是在出口处增加了sigmoid激活函数。
[0081]
o=conv(k
×
k)(q)+broadcast(conv(k)(s)wc+bc)
[0082][0083]
其中,wc表示权重矩阵,bc表示偏差矩阵。
[0084]
s4、构建目标损失函数,构建的目标损失函数包括浅层损失函数、重构损失函数、对抗损失函数、以及末端损失函数等几部分。
[0085]
具体,以一在手语动作由源骨架a迁移到目标骨架b的重定向过程,进行说明。其中,源骨架a的骨骼节点的数量为n,手语动画的总帧数为t,目标骨架b的骨骼节点的数量为m。显然,手语动画由源骨架a迁移到目标骨架b后的总帧数也为t。源骨架a的原始手语动画数据可以表示为:
[0086][0087]
其中由第k帧手语动画中各个骨骼节点的姿态四元数及根节点的位置坐标拼接而成,具体形式表示为:
[0088][0089]
其中表示第i个骨骼节点对应的四元数,表示根节点的位置坐标。同样,可以将源骨架a的骨架空间静态数据表示为:
[0090][0091]
迁移到目标骨架b的原始手语动画数据表示为
[0092][0093]
首先,理论上,一个好的模型虽然会由于骨架参数不同导致源骨架a的原始手语动画数据qa和目标骨架b的原始手语动画数据qb差别较大,但将其映射到公共潜层空间所得到的动作矩阵即源骨架的骨架动作信息和目标骨架的骨架动作信息应是相同的,因此为对齐潜层空间向量,本发明引入潜层损失函数l
ltc
,浅层损失函数用于约束源骨架与目标骨架两者的骨架动作信息情况。
[0094]
具体的,依据源骨架的原始手语动画数据输入至所述运动编码器生成的骨架动作信息、以及重定向后的目标骨架的原始手语动画数据输入至所述运动编码器生成的骨架动作信息,确定所述浅层损失函数。所述浅层损失函数表示为:
[0095][0096]
其中,表示源骨架a的原始手语动画数据qa输入至运动编码器生成的骨架动作信息,表示目标骨架b的原始手语动画数据qb输入至运动编码器生成的骨架动作信息,l
ltc
表示浅层损失函数。
[0097]
此外,本发明借鉴了循环生成式对抗网络的结构,通过编解码过程中重构原始手语动画数据q实现模型的训练。同理,模型也将编码后的骨架动作信息l
(q)
输入到解码器,生成原始手语动画数据q对应的重构手语动画数据q
(rec)
。理论上,该重构手语动画数据q
(rec)
应接近于原始手语动画数据q,故引入重构损失l
rec
。重构损失函数用于约束源骨架与目标骨架两者的重构信息情况。
[0098]
具体的,依据源骨架的原始手语动画数据与重构手语动画数据,以及目标骨架的原始手语动画数据与重构手语动画数据,确定所述重构损失函数。所述重构损失函数表示为:
[0099][0100]
其中,qa、分别表示源骨架a的原始手语动画数据与重构手语动画数据,qb、分别表示目标骨架b的原始手语动画数据与重构手语动画数据,l
rec
表示重构损失函数。
[0101]
此外,为保证重构手语动画数据q
(rec)
是一个真实的手语动画数据,本发明引入对抗损失l
adv
来辨别重构结果的正确性。对抗损失函数用于约束源骨架与目标骨架两者的对抗信息情况。
[0102]
具体的,依据所述源骨架的第一鉴别结果与第二鉴别结果,以及所述目标骨架的第一鉴别结果与第二鉴别结果,确定所述对抗损失函数。对抗损失函数表示为:
[0103][0104]
其中,表示源骨架a的关于骨架重构手语动画数据与骨架空间静态数据sa的第二鉴别结果,ca(qa,sa)表示源骨架a的关于骨架原始手语动画数据qa与骨架空间静态数据sa的第一鉴别结果;表示目标骨架b的关于骨架重构手语动画数据与骨架空间静态数据sb的第二鉴别结果,cb(qb,sb)表示目标骨架b的关于骨架原始手语动画数据qb与骨架空间静态数据sb的第一鉴别结果,l
adv
表示对抗损失函数。
[0105]
此外,为保证骨架末端的运动速度不变,本发明引入末端损失l
ee
约束骨架末端(包括肢体末端及手部末端)各个骨骼关节的运动速度,确保生成符合正常运动规律的重定向结果,末端损失函数用于约束骨架末端各个骨骼关节的运动速度。
[0106]
具体的,依据源骨架末端各个骨骼关节的运动速度,以及目标骨架末端各个骨骼关节的运动速度,确定所述末端损失函数。末端损失函数表示为:
[0107][0108]
其中,表示源骨架a第i末端骨骼关节的速度、表示目标骨架b第i末端骨骼关节的速度;ha表示源骨架a骨架高度(对应源骨架肢体末端或手部末端),hb表示目标骨架b的骨架高度(对应目标骨架肢体末端或手部末端),l
ee
表示末端损失函数。
[0109]
因此,形成最终的目标损失函数l=l
ltc
+αl
rec
+βl
adv
+γl
ee
,α,β,γ表示权重系数。
[0110]
下面验证本发明构建的模型的有效性,将本发明在手语动画数据集上进行实验。
[0111]
(1)数据集
[0112]
首先,采用的手语动画数据来源于《国家通用手语词典》,由手语老师使用动捕设备采集,数据集由6707个手语动作构成。每个手语动作对应一个bvh格式的动画文件,帧率60,每帧动画由53个人体骨骼节点组成,以双臂自然抬起和下落表示手语动作的开始和结束,具体形式如图4所示。
[0113]
为验证模型对不同骨架手语动作的迁移能力,实验在保证源骨架手语动作相同的情况下,分别将目标骨架替换为high-bones、normal-bones和low-bones类型的骨架,图5展示了不同类型的骨架尺寸对比图,其中骨架高度的测量范围为脚跟至头部的高度,手部大小的测量范围为手部自然下垂状态下手腕至中指的长度。
[0114]
(2)实验结果
[0115]
本发明实验在进行结果量化时,采取计算骨骼节点的mse误差的方式表示重定向结果和实际结果之间的误差,实验结果如表1所示。
[0116]
表1不同骨架尺寸上执行重定向任务产生的mse误差
[0117][0118]
本发明实验将所提出的模型与现有的sota模型进行可视化对比。为反映重定向结果的普适性,实验展示了目标骨架为normal-bones时各个模型执行重定向任务时的可视化结果。如图5所示,其中最左侧的图像为输入的原始手语动画数据,其余4列图像表示不同模型的重定向结果,即重构手语动画数据,深色的骨架表示目标结果。
[0119]
在执行手语动作时,手语动作的速度也会影响对手语意义的解读,因此在执行重定向任务时,能否将原始动作的手语速度正常迁移到目标骨架上也是一个评判模型效果好坏的重要指标。本发明实验展示了表1中各个任务重定向后手部的速度和期望速度的曲线图。实验将速度分解至x、y、z三个方向,并且经过实际观察,同一重定向任务的左右手速度曲线差异不大,且考虑到手语动作以右手为主,因此仅展示右手的手部速度曲线图,具体实验结果如图7a-图7c所示,其中图7a、7b、7c分别显示了重定向到high-bones、重定向到low-bones、重定向到normal-bones的结果。
[0120]
(3)结果分析
[0121]
由表1可知,本发明所提模型的平均误差远小于nkn、pmnet、sad,表明本发明对于
不同尺寸骨架的重定向任务的效果在所有模型里是最佳的。
[0122]
由图6可以看出,图6中示出了本发明模型与其他模型的可视化比较结果,nkn模型的重定向结果较目标手部位置更高,pmnet模型的重定向结果较目标手部位置更低,在原始手语动画第二帧和第三帧手掌并拢时,pmnet模型重定向的手掌无法合拢。除此之外,pmnet模型的重定向结果在站立姿势上也出现了明显的误差。sad模型的重定向结果较nkn模型和pmnet模型更好,其在执行手语动作时手部的运动轨迹更接近真实轨迹,但也表现出较为明显的手部位置偏移,且在站立姿势上也出现了较为明显的误差。本发明所提模型的重定向结果在执行手语动作和站立姿势时都比其他三个模型更接近目标结果,在手掌合拢时也没有出现手掌分离的现象,且手指形状清晰可见,无明显形变。
[0123]
图7a-图7c展示了将原始动作迁移到不同尺寸骨架时的右手速度曲线图,可以看出nkn模型和pmnet模型存在严重的速度突变情况,且其最大的异常速度与目标速度差异较大,sad模型与nkn和pmnet模型相比,不存在差异较大的异常速度点,但也存在速度突变的时间点,且其曲线形状与目标曲线形状也有较大差异。本发明模型的速度曲线比较平稳,不存在速度突变点,且曲线走势与目标曲线高度吻合。
[0124]
综上,本发明提供的基于运动重定向的手语动作迁移方法,使用循环生成对抗网络进行无监督训练,解决了成对训练数据获取困难的问题。此外,本发明在重定向时将手部骨骼纳入重定向范畴并引入注意力机制解决重定向时手指变形的问题,提高了手部重定向精度。此外,相比传统方法,本发明不要求源骨架和目标骨架的层次结构一致,只要满足骨架是具有头、手、脚的人形结构即可,动作迁移适用范围更广;同时在源骨架和目标骨架的身材比例差距较大时具有显著优势,不仅迁移后的手势动作自然连贯,而且位置精度高,手语表达可靠准确。此外,在推理阶段,本发明仅需源骨架的运动编码器、静态编码器和潜层编码器以及目标骨架的静态编码器和解码器,无需循环和对抗,降低了推理过程的复杂性,即降低了手语动作迁移的执行耗时。
[0125]
此外,本发明上述实施例可以应用于基于运动重定向的手语动作迁移方法功能的终端设备中,该终端设备可以包括个人终端、以及上位机终端等,本发明实施例对此不加以限制。该终端可以支持windows、android(安卓)、ios、windowsphone等操作系统。
[0126]
一种基于运动重定向的手语动作迁移装置,应用于基于运动重定向的手语动作迁移方法可应用于个人终端、以及上位机终端设备中,其可实现通过如图2所示的基于运动重定向的手语动作迁移方法,本技术实施例提供的基于运动重定向的手语动作迁移装置能够实现上述基于运动重定向的手语动作迁移方法实现的各个过程。
[0127]
一种基于运动重定向的手语动作迁移装置,至少包括:
[0128]
编码器模块,用于构建编码器模型,所述编码器模型配置为运动编码器、静态编码器和潜层编码器;
[0129]
所述运动编码器配置为:输入为骨架原始手语动画数据,输出为编码后的骨架动作信息;
[0130]
所述静态编码器配置为:输入为骨架空间静态数据,输出为编码后的骨架结构信息;
[0131]
所述潜层编码器与所述运动编码器、静态编码器耦接,配置为:将所述骨架动作信息与骨架结构信息解耦,提取手语抽象动作;
[0132]
解码器模块,用于构建解码器模型,所述解码器模型与所述编码器模型耦接,配置为:将所述手语抽象动作和骨架结构信息重定向,生成骨架重构手语动画数据;
[0133]
鉴别器模块,用于构建鉴别器模型,所述鉴别器模型与所述编码器模型以及所述解码器模型耦接,配置为:输入为所述骨架原始手语动画数据、所述骨架重构手语动画数据、所述骨架空间静态数据,输出鉴别结果包括关于所述骨架原始手语动画数据与骨架空间静态数据的第一鉴别结果、关于所述骨架重构手语动画数据与骨架空间静态数据的第二鉴别结果。
[0134]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以施加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
[0135]
上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
技术特征:
1.一种基于运动重定向的手语动作迁移方法,其特征在于,包括:构建编码器模型,所述编码器模型配置为运动编码器、静态编码器和潜层编码器;所述运动编码器配置为:输入为骨架原始手语动画数据,输出为编码后的骨架动作信息;所述静态编码器配置为:输入为骨架空间静态数据,输出为编码后的骨架结构信息;所述潜层编码器与所述运动编码器、静态编码器耦接,配置为:将所述骨架动作信息与骨架结构信息解耦,提取手语抽象动作;构建解码器模型,所述解码器模型与所述编码器模型耦接,配置为:将所述手语抽象动作和骨架结构信息重定向,生成骨架重构手语动画数据;构建鉴别器模型,所述鉴别器模型与所述编码器模型以及所述解码器模型耦接,配置为:输入为所述骨架原始手语动画数据、所述骨架重构手语动画数据、所述骨架空间静态数据,输出鉴别结果包括关于所述骨架原始手语动画数据与骨架空间静态数据的第一鉴别结果、关于所述骨架重构手语动画数据与骨架空间静态数据的第二鉴别结果。2.根据权利要求1所述的方法,其特征在于,构建目标损失函数,所述目标损失函数包括浅层损失函数,所述浅层损失函数用于约束源骨架与目标骨架两者的骨架动作信息情况;依据源骨架的原始手语动画数据输入至所述运动编码器生成的骨架动作信息、以及重定向后的目标骨架的原始手语动画数据输入至所述运动编码器生成的骨架动作信息,确定所述浅层损失函数。3.根据权利要求2所述的方法,其特征在于,所述浅层损失函数表示为:其中,表示源骨架a的原始手语动画数据q
a
输入至运动编码器生成的骨架动作信息,表示目标骨架b的原始手语动画数据q
b
输入至运动编码器生成的骨架动作信息,l
ltc
表示浅层损失函数。4.根据权利要求2或3所述的方法,其特征在于,所述目标损失函数还包括重构损失函数,所述重构损失函数用于约束源骨架与目标骨架两者的重构信息情况;依据源骨架的原始手语动画数据与重构手语动画数据,以及目标骨架的原始手语动画数据与重构手语动画数据,确定所述重构损失函数。5.根据权利要求4所述的方法,其特征在于,所述重构损失函数表示为:其中,所述q
a
、分别表示源骨架a的原始手语动画数据与重构手语动画数据,q
b
、分别表示目标骨架b的原始手语动画数据与重构手语动画数据,l
rec
表示重构损失函
数。6.根据权利要求5所述的方法,其特征在于,所述目标损失函数还包括对抗损失函数,所述对抗损失函数用于约束源骨架与目标骨架两者的对抗信息情况;依据所述源骨架的第一鉴别结果与第二鉴别结果,以及所述目标骨架的第一鉴别结果与第二鉴别结果,确定所述对抗损失函数。7.根据权利要求6所述的方法,其特征在于,所述对抗损失函数表示为:其中,表示源骨架a的关于骨架重构手语动画数据与骨架空间静态数据s
a
的第二鉴别结果,c
a
(q
a
,s
a
)表示源骨架a的关于骨架原始手语动画数据q
a
与骨架空间静态数据s
a
的第一鉴别结果;表示目标骨架b的关于骨架重构手语动画数据与骨架空间静态数据s
b
的第二鉴别结果,c
b
(q
b
,s
b
)表示目标骨架b的关于骨架原始手语动画数据q
b
与骨架空间静态数据s
b
的第一鉴别结果,l
adv
表示对抗损失函数。8.根据权利要求7所述的方法,其特征在于,所述目标损失函数还包括末端损失函数,所述末端损失函数用于约束骨架末端各个骨骼关节的运动速度;依据源骨架末端各个骨骼关节的运动速度,以及目标骨架末端各个骨骼关节的运动速度,确定所述末端损失函数。9.根据权利要求8所述的方法,其特征在于,所述末端损失函数表示为:其中,表示源骨架a第i末端各个骨骼关节的速度、表示目标骨架b第i末端各个骨骼关节的速度;h
a
表示源骨架a骨架高度,h
b
表示目标骨架b的骨架高度,l
ee
表示末端损失函数。10.一种基于运动重定向的手语动作迁移装置,其特征在于,采取权利要求1-9任一项所述的基于运动重定向的手语动作迁移方法,至少包括:编码器模块,用于构建编码器模型,所述编码器模型配置为运动编码器、静态编码器和潜层编码器;所述运动编码器配置为:输入为骨架原始手语动画数据,输出为编码后的骨架动作信息;所述静态编码器配置为:输入为骨架空间静态数据,输出为编码后的骨架结构信息;所述潜层编码器与所述运动编码器、静态编码器耦接,配置为:将所述骨架动作信息与骨架结构信息解耦,提取手语抽象动作;解码器模块,用于构建解码器模型,所述解码器模型与所述编码器模型耦接,配置为:
将所述手语抽象动作和骨架结构信息重定向,生成骨架重构手语动画数据;鉴别器模块,用于构建鉴别器模型,所述鉴别器模型与所述编码器模型以及所述解码器模型耦接,配置为:输入为所述骨架原始手语动画数据、所述骨架重构手语动画数据、所述骨架空间静态数据,输出鉴别结果包括关于所述骨架原始手语动画数据与骨架空间静态数据的第一鉴别结果、关于所述骨架重构手语动画数据与骨架空间静态数据的第二鉴别结果。
技术总结
本发明提出一种基于运动重定向的手语动作迁移方法、装置,方法包括:构建编码器模型,配置为运动编码器、静态编码器和潜层编码器;运动编码器输入为骨架原始手语动画数据,输出为编码后的骨架动作信息;静态编码器输入为骨架空间静态数据,输出为编码后的骨架结构信息;潜层编码器将骨架动作信息与骨架结构信息解耦,提取手语抽象动作;构建解码器模型配置为将手语抽象动作和骨架结构信息重定向,生成骨架重构手语动画数据;构建鉴别器模型置为输入为骨架原始手语动画数据、骨架重构手语动画数据、骨架空间静态数据,输出鉴别结果;以及构建目标损失函数。其使用循环生成对抗网络进行无监督训练,解决了成对训练数据获取困难的问题。题。题。
技术研发人员:邢云冰 黄涵强 陈益强 李嘉豪
受保护的技术使用者:中国科学院计算技术研究所
技术研发日:2023.06.30
技术公布日:2023/10/7
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
