手势动作生成方法和电子设备
未命名
07-13
阅读:107
评论:0
1.本技术涉及计算机图形学技术领域,具体涉及一种手势动作生成方法和电子设备。
背景技术:
2.手势是指人类伴随着说话时所做的连续、风格化的手部运动。恰当的手势有利于增加谈话的生动性并具象化谈话内容。在计算机图形学领域中,为了让数字角色的肢体运动更加生动,人们会利用动作捕捉技术录制常见的手势动作来驱动数字角色进行仿生运动。然而,施行此类方案通常门槛较高。因此,借助计算机根据输入的语音文字自动生成高质量的手势动作成为一个技术热点。
3.当前主流的技术方案是利用神经网络技术从大量语音-手势数据集中学习规律,从而实现根据输入的语音和文字直接预测对应的手势动作。然而,该方案缺乏足够的可控性,使得用户较难根据个人意图自由地控制生成手势的风格。虽然已有诸多工作致力于语音文字驱动的数字人风格化手势动作生成,但如何准确地理解用户意图,并高效地实现手势生成的风格化控制依然是一个重要且尚未解决的问题。
技术实现要素:
4.为解决以上问题,本技术提供一种手势动作生成方法和电子设备,通过将接收到的待生成手势动作的语音信息、第一文本信息和第一生成风格信息通过预训练的手势动作生成模型生成对应的手势动作,由于同时从语音信息、第一文本信息和第一生成风格信息三个维度生成对应手势动作,能够准确地根据用户传达的意图生成对应的手势动作,高效地生成用户需要的风格的手势动作。
5.第一方面,本技术实施例提供了一种手势动作生成方法,包括:响应于接收到的待生成手势动作的语音信息、第一文本信息和第一生成风格信息;对第一文本信息和第一生成风格信息进行编码处理,得到第二文本信息和第二生成风格信息;根据语音信息、第二文本信息和第二生成风格信息预测噪声;根据预测到的噪声对语音信息、第二文本信息和第二生成风格信息进行去噪处理,得到待生成手势动作编码序列;将待生成手势动作编码序列输入到预训练的手势动作生成模型,生成对应的手势动作。
6.本技术第二方面的实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述第一方面所述的方法。
7.本技术第三方面的实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现上述第一方面所述的方法。
8.本技术第四方面的实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行以实现上述第一方面所述的方法。
9.本技术实施例中提供的技术方案,至少具有如下技术效果或优点:
10.本技术实施例响应于接收到的待生成手势动作的语音信息、第一文本信息和第一生成风格信息,对第一文本信息和第一生成风格信息进行编码处理,得到第二文本信息和第二生成风格信息,根据语音信息、第二文本信息和第二生成风格信息预测噪声。通过从语音信息、第一文本信息和第一生成风格信息三个维度进行编码以及预测噪声,能够从多维度理解并分析用户想要生成手势动作的意图,有效地提升了生成手势动作的智能程度。
11.进一步地,根据预测到的噪声对语音信息、第二文本信息和第二生成风格信息进行去噪处理,得到待生成手势动作编码序列,然后将待生成手势动作编码序列输入到预训练的手势动作生成模型,生成对应的手势动作。噪声会极大地影响手势生成的结果,通过对语音信息、第二文本信息和第二生成风格信息进行去噪处理,能够更好地保留其信息中的细节,降低噪声数据的干扰,提高待生成手势动作编码序列的准确率,缩小误差;此外,通过预先训练手势动作生成模型,使得在生成对应手势动作的生成速度快、准确性高。
12.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变的明显,或通过本技术的实践了解到。
附图说明
13.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
14.图1示出了本技术实施例所提供的一种手势动作生成方法的流程图;
15.图2示出了本技术实施例所提供的手势动作文本特征提取模型训练结构图;
16.图3示出了本技术实施所提供的去噪网络根据语音信息、第二文本信息和第二生成风格信息预测噪声的结构示意图;
17.图4示出了本技术实施例所提供的一种手势动作生成装置的结构示意图;
18.图5示出了本技术实施例所提供的一种电子设备的结构示意图。
具体实施方式
19.下面将参照附图更详细地描述本技术的示例性实施方式。虽然附图中显示了本技术的示例性实施方式,然而应当理解,可以以各种形式实现本技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本技术,并且能够将本技术的范围完整的传达给本领域的技术人员。
20.首先对本技术实施例中用到的名词进行解释:
21.手势动作:指人类伴随着说话时所做的连续、风格化的手部运动。
22.噪声:是指数据中存在着错误或异常(偏离期望值)的数据,这些数据对数据的分析造成了干扰。
23.在实际生活中,恰当的手势有利于增加谈话的生动性并具象化谈话内容。在计算机图形学领域中,为了让数字角色的肢体运动更加生动,人们会利用动作捕捉技术录制常见的手势动作来驱动数字角色进行仿生运动,首先利用神经网络技术从大量语音-手势数据集中学习规律,从而实现根据输入的语音和文字直接预测对应的手势动作,然而,这种基于神经网络的方法缺乏足够的可控性,难以准确地传达用户意图,使得用户较难根据个人
意图自由地控制生成手势的风格。
24.基于此,本技术实施例提供一种手势动作生成方法和电子设备,本技术将语音信息、文本信息和生成风格信息进行噪声预测,并根据预测到的噪声进行去噪处理后生成待生成手势动作编码序列,该去噪处理的过程能够去除语音信息、文本信息和生成风格信息中存在的错误或异常的数据,减少干扰,从而提高理解用户传达意图的准确性,最后通过预训练的手势动作生成模型根据该手势动作编码序列生成对应的手势动作,提高对应手势动作的生成速度和生成风格的多样性。下面结合附图对本技术实施例的方案进行具体说明。
25.参见图1示出的一种手势动作生成方法的流程图,该方法具体包括以下步骤:
26.步骤101:响应于接收到的待生成手势动作的语音信息、第一文本信息和第一生成风格信息。
27.本技术实施例中接收到的待生成手势动作的语音信息可以是mp3、wav、wma、mp2、flac、midi、ra、ape、aac、cda、mov等文件;第一文本信息可以是txt、word、excel、ppt、xml等文件;第一生成风格信息可以是文本格式、视频格式和三维动作格式中的一种或者多种格式的文件信息,本领域技术人员可以根据实际需要设置,本技术不作具体限定。
28.在一些实施例中,可以提供展示页面以及提供可以直接录入待生成手势动作的语音信息的录入按钮,以使用户直接将待生成手势动作的语音信息通过该录入按钮进行录入,生成语音信息;也可以提供上传待生成手势动作的语音信息的上传按钮,以使用户通过点击该上传按钮选择提前录制好的待生成手势动作的语音文件进行上传,生成语音信息。
29.进一步地,在展示页面还可以提供直接输入待生成手势动作的第一文本信息的输入框,以使用户直接将待生成手势动作的第一文本信息输入至该输入框,生成第一文本信息;也可以提供上传待生成手势动作的第一文本信息的上传按钮,以使用户通过点击该上传按钮选择提前生成的待生成手势动作的第一文本文件进行上传,生成第一文本信息。
30.进一步地,在展示页面也可以提供选择文件格式的按钮或者下拉框,当文件格式选择的是文本格式,则如上述生成第一文本信息的实施方式相同,提供待生成手势动作的第一生成风格信息输入框,以使用户直接将待生成手势动作的第一生成风格信息输入至该输入框,生成第一生成风格信息,或者提供上传待生成手势动作的一生成风格信息的上传按钮,以使用户通过点击该上传按钮选择提前生成的待生成手势动作的第一生成风格文本文件进行上传,生成第一生成风格信息;或者当文件格式选择的是视频格式或者三维动作格式时,则与上述选择文本格式的实现原理相同,即提供录入按钮或者上传按钮以进行数据的输入,此处不在进行重复赘述。
31.对于上述实施例,本领域技术人员可以根据实际情况进行设置,本技术不作具体限制。
32.步骤102:对第一文本信息和第一生成风格信息进行编码处理,得到第二文本信息和第二生成风格信息。
33.在通过步骤101获得待生成手势动作的第一文本信息和第一生成风格信息后,对第一文本信息和第一生成风格信息进行编码处理,得到第二文本信息和第二生成风格信息。
34.在一些实施例中,在对第一文本信息进行编码处理时,可以采用预选训练的手势动作文本特征提取模型对所述第一文本信息进行编码处理,得到所述第二文本信息;以及,
在对第一生成风格信息进行编码处理时,可以先判断该第一生成风格信息的格式是否为文本格式、视频格式或三维动作格式中的一种或多种,当该第一生成风格信息的格式为文字格式时,可以采用基于对比的语言-图像预训练clip模型的文本编码器对第一生成风格信息进行编码处理,得到第二生成风格信息;当该第一生成风格信息的格式为视频格式时,可以采用clip模型的视频编码器对第一生成风格信息进行编码处理,得到第二生成风格信息;当第一生成风格信息的格式为三维动作格式时,可以采用基于对比的语言-图像-动作预训练motionclip模型的动作编码器对第一生成风格信息进行编码处理,得到第二生成风格信息。
35.具体地,在采用预选训练的手势动作文本特征提取模型对所述第一文本信息进行编码处理,得到所述第二文本信息之前,可以先进行手势动作文本特征提取模型的训练,如图2所示,其中,手势动作文本特征提取模型可以包括手势编码器、文本编码器和联合向量空间,将预先准备的第三待训练手势动作信息输入至手势编码器进行编码,得到第一手势特征,然后对第一手势特征进行最大池化处理后得到第二手势特征;将第三待训练手势动作信息对应的待训练文本信息输入至文本编码器进行编码,得到第三文本特征,对第三文本特征进行最大池化处理后得到第四文本特征;将第二手势特征与第四文本特征映射到联合向量空间中并进行时序上的匹配,将匹配成功的第二手势特征与第四文本特征作为第一训练对,将第一训练对以外的其他训练对作为第二训练对,最后利用第一训练对和第二训练对训练网络,并确定第二训练值,基于该第二训练值确定达到第二预设收敛条件时,获得手势动作文本特征提取模型。
36.在获得手势动作文本特征提取模型后,可以将待生成手势动作的第一文本信息输入至该手势动作文本特征提取模型进行编码处理,得到第二文本信息。
37.需要说明的是,手势动作文本特征提取模型中的手势编码器和文本编码器都是以句子为单位进行数据的处理。
38.最大池化处理指的是获取处理数据中每个数据特征中序列值最大的数据的过程。上述对第一手势特征进行最大池化处理后得到第二手势特征,即获取第一手势特征的每个特征中序列值最大的特征作为第二手势特征;上述对第三文本特征进行最大池化处理后得到第四文本特征,即获取第三文本特征的每个特征中序列值最大的特征作为第四文本特征。
39.通过上述最大池化处理,能够分别聚合第一手势特征和第三文本特征的每个特征序列中最具语义相关性的信息,以确保在训练手势动作文本特征提取模型的过程中手势与文本之间的时间对应,有效地提升了手势动作文本特征提取模型提取特征的准确性,为之后生成手势动作打下了夯实的生成基础。
40.第二训练值可以指训练网络过程中的训练损失值,也可以指训练网络过程中的训练次数。当第二训练值表示的是训练损失值时,在该训练损失值小于等于预设第二训练损失值时,表示达到第二预设收敛条件;当第二训练值表示的是训练次数时,在该训练次数大于预设第二次数时,表示达到第二预设收敛条件。本领域技术人员可以根据实际情况进行设置,本技术不作具体限定。
41.通过预设收敛条件,来判断手势动作文本特征提取模型是否训练完成,能够显著地提升模型训练的精确度,提高模型输出的准确度,以达到用户实际需要的生成效果。
42.进一步地,在采用clip模型的视频编码器对第一生成风格信息进行编码处理,得到所述第二生成风格信息之前,可以先进行clip模型的视频编码器的训练,详细地,首先将预选准备的待训练手势三维动作数据输入到三维引擎中进行渲染,得到待训练手势三维动作数据对应的待训练二维视频数据;将该待训练手势三维动作数据输入到motionclip模型中的动作编码器中进行编码得到待训练手势三维动作手势特征;将待训练二维视频数据输入到待训练的基于clip模型的视频编码器中进行编码得到待训练二维视频特征;利用待训练手势三维动作手势特征和待训练二维视频特征训练网络,并确定第三训练值;基于第三训练值确定达到第三预设收敛条件时,获得基于clip模型的视频编码器。
43.需要说明的是,三维引擎是封装有图形算法,可用于三维场景以及三维对象的编辑、生成、渲染等的图形工具。常见的三维引擎包括ue(unreal engine,虚幻)系列引擎、unity系列引擎等等。
44.第三训练值可以指训练网络过程中的训练损失值,也可以指训练网络过程中的训练次数。当第三训练值表示的是训练损失值时,在该训练损失值小于等于预设第三训练损失值时,表示达到第三预设收敛条件;当第三训练值表示的是训练次数时,在该训练次数大于预设第三次数时,表示达到第三预设收敛条件。本领域技术人员可以根据实际情况进行设置,本技术不作具体限定。
45.由于clip模型的文本编码器和motionclip模型的动作编码器是本领域技术人员惯用的编码器,所以在本实施例中通过clip模型的文本编码器对第一生成风格信息进行编码处理以及通过motionclip模型的动作编码器对第一生成风格信息进行编码处理的运行原理此处不在进行详细赘述。
46.在另一些实施例中,在进行手势动作文本特征提取模型的训练的过程中,还可以通过指数移动平均的方式分别更新手势动作文本特征提取模型的手势编码器和手势动作文本特征提取模型的文本编码器的动量版本的网络参数,以在手势动作文本特征提取模型训练发生错误时,可以通过更新手势动作文本特征提取模型的手势编码器和手势动作文本特征提取模型的文本编码器的动量版本的网络参数进行修正。
47.需要说明的是,手势编码器和文本编码器的动量版本指的是与训练版本一致的备份版本;用于在手势动作文本特征提取模型训练发生错误时,能够使用该备份版本中的网络参数继续进行训练,以确保能够顺利进行训练,节省训练资源。
48.指数移动平均是以指数式递减加权的移动平均。各数值的加权影响力随时间而指数式递减,越近期的数据加权影响力越重,但较旧的数据也给予一定的加权值。使用指数移动平均的好处在于:不需要保存前面所有时刻的实际数值,因此可以减少内存的占用,能够有效地修正偏差。
49.在另一些实施例中,在利用第一训练对和第二训练对训练网络发生错误时,利用手势动作文本特征提取模型手势编码器和手势动作文本特征提取模型文本编码器的动量版本的网络参数重新将第二手势特征与第四文本特征进行时序上的匹配,将重新匹配成功的第二手势特征与述第四文本特征作为新的第一训练对,将新的第一训练对以外的其他训练对作为新的第二训练对,然后继续利用新的第一训练对和新的第二训练对进行网络训练。
50.步骤103:根据语音信息、第二文本信息和第二生成风格信息预测噪声。
51.在通过步骤102获得待生成手势动作的第二文本信息和第二生成风格信息后,根据步骤101接收到的语音信息以及该第二文本信息和第二生成风格信息预测噪声。
52.在一些实施例中,可以将所述语音信息、所述第二文本信息和所述第二生成风格信息输入到预训练的去噪扩散随机模型中,通过所述去噪扩散随机模型中的去噪网络预测所述噪声。
53.具体地,如图3所示,该去噪网络可以采用transformer网络架构,且包括因果注意力层、语义感知注意力层、自适应实例归一化层和子网络,然后通过因果注意力层将语音信息中的语音节奏特征和音强特征与预设的加噪手势编码进行拼接,得到新的语音信息特征,传输至所述自适应实例归一化层。
54.需要说明的是,预设的加噪手势编码是本领域技术人员根据实际需要进行设置的编码,也可以是本领域技术人员根据实际需要对已设置的编码进行调整后得到的编码,本实施例不作具体限定。
55.进一步地,通过语义感知注意力层将第二文本信息中的第一文本特征与预设的中间特征进行融合,得到新的中间特征,用新的中间特征替换预设的中间特征,传输至所述自适应实例归一化层。
56.需要说明的是,预设的中间特征是本领域技术人员根据实际需要进行设置的特征,也可以是本领域技术人员根据实际需要对已设置的特征进行调整后得到的特征,本实施例不作具体限定。
57.在一些实施方式中,还可以在通过语义感知注意力层将第二文本信息中的第一文本特征之后,对该第一文本特征进行最大池化处理,得到第二文本特征,将该第一文本特征和该第二文本特征的乘积作为该第二文本信息的语义显著度,将第一文本特征和语义显著度与预设的中间特征进行融合,得到新的中间特征。
58.通过计算第二文本信息的语义显著度,能够显著提升该语义感知注意力层识别语义的能力,与预设的中间特征进行融合,提升去噪网络预测噪声的准确性。
59.在另一些实施方式中,还可以采用交叉注意力机制,将第一文本特征映射为第一矩阵和第二矩阵,预设的中间特征映射为第三矩阵,根据该第一矩阵、第二矩阵、第三矩阵以及语义显著度,并通过下列公式进行融合,得到新的中间特征:
[0060][0061]
其中,ic表示新的中间特征,t
p
表示矩阵转置操作系数,k表示第一矩阵,v表示第二矩阵,q表示第三矩阵,s
t
表示语义显著度,c表示常数。
[0062]
进一步地,通过自适应实例归一化层将述第二生成风格信息中的第一生成风格特征映射为数值参数,根据数值参数修改传输到自适应实例归一化层中的新的语音信息特征和新的中间特征的均值和方差;最后利用子网络对修改后新的语音信息特征和新的中间特征进行融合计算,得到的计算结果作为预测到的噪声。
[0063]
在一些实施方式中,可以采用多层感知机网络将第二生成风格信息中的第一生成风格特征映射为数值参数,并根据数值参数修改传输到自适应实例归一化层中的新的语音信息特征和新的中间特征的均值和方差。
[0064]
步骤104:根据预测到的噪声对语音信息、第二文本信息和第二生成风格信息进行
去噪处理,得到待生成手势动作编码序列。
[0065]
在通过上述步骤103预测到噪声,对语音信息、第二文本信息和第二生成风格信息进行去噪处理,得到待生成手势动作编码序列。
[0066]
在一些实施例中,可以根据预测到的噪声,通过下列公式计算得到待生成手势动作编码序列:
[0067][0068]
其中,z
n-1
表示待生成手势动作编码序列,en表示预测到的噪声,x表示标准正态分布的随机噪声,n表示扩散步数,n、和σn均表示常系数。
[0069]
步骤105:将待生成手势动作编码序列输入到预训练的手势动作生成模型,生成对应的手势动作。
[0070]
将通过上述步骤104计算得到的待生成手势动作编码序列输入到预训练的手势动作生成模型,生成对应的手势动作。
[0071]
在一些实施例中,可以在将所述待生成手势动作编码序列输入到预训练的手势动作生成模型之前,对手势动作生成模型进行网络训练。
[0072]
具体地,手势动作生成模型包括编码器和解码器,将提前准备好的第一待训练手势动作信息输入编码器进行下采样,得到第一隐式编码序列,根据预设的离散码本,对该第一隐式编码序列中的每个隐向量进行映射,得到第二隐式编码序列,然后通过该解码器对第二隐式编码序列进行解码,得到第二待训练手势动作信息,最后根据第二待训练手势动作信息和第一待训练手势动作信息确定第一训练值,基于第一训练值确定达到第一预设收敛条件时,获得手势动作生成模型。
[0073]
需要说明的是,下采样指的是每隔预设时间间隔对第一待训练手势动作信息进行预设次数的采样,其中,预设时间间隔和预设次数可以是本领域技术人员根据实际需要进行设置,也可以是本领域技术人员根据实际需要对已设置的时间间隔和次数进行调整后得到的,本实施例不作具体限定。
[0074]
第一训练值可以指训练网络过程中的训练损失值,也可以指训练网络过程中的训练次数。当第一训练值表示的是训练损失值时,在该训练损失值小于等于预设第一训练损失值时,表示达到第一预设收敛条件;当第一训练值表示的是训练次数时,在该训练次数大于预设第一次数时,表示达到第一预设收敛条件。本领域技术人员可以根据实际情况进行设置,本实施例不作具体限定。
[0075]
本技术实施例提供一种手势动作生成方法和电子设备,本技术将语音信息、文本信息和生成风格信息进行噪声预测,并根据预测到的噪声进行去噪处理后生成待生成手势动作编码序列,该去噪处理的过程能够去除语音信息、文本信息和生成风格信息中存在的错误或异常的数据,从而提高理解用户传达意图的准确性,最后通过预训练的手势动作生成模型根据该手势动作编码序列生成对应的手势动作,提高对应手势动作的生成速度和生成风格的多样性。
[0076]
参见图4,本技术实施例还提供一种手势动作生成装置,该装置用于执行上述实施例所述的手势动作生成方法,该装置包括:
[0077]
响应模块11,用于响应接收到的待生成手势动作的语音信息、第一文本信息和第一生成风格信息;
[0078]
编码模块12,用于对所述第一文本信息和所述第一生成风格信息进行编码处理,得到第二文本信息和第二生成风格信息;
[0079]
预测模块13,用于根据所述语音信息、所述第二文本信息和所述第二生成风格信息预测噪声;
[0080]
去噪模块14,用于根据预测到的所述噪声对所述语音信息、所述第二文本信息和所述第二生成风格信息进行去噪处理,得到待生成手势动作编码序列;
[0081]
手势动作生成模块15,用于将所述待生成手势动作编码序列输入到预训练的手势动作生成模型,生成对应的手势动作。
[0082]
本技术实施例提供的手势动作生成装置与上述实施例提供的手势动作生成方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
[0083]
本技术实施方式还提供一种与前述实施方式所提供的手势动作生成方法对应的电子设备。请参考图5,其示出了本技术的一些实施方式所提供的一种电子设备的示意图。如图2所示,所述电子设备30可以包括:处理器300,存储器301,总线302和通信接口303,所述处理器300、通信接口303和存储器301通过总线302连接;所述存储器301中存储有可在所述处理器300上运行的计算机程序,所述处理器300运行所述计算机程序时执行本技术前述任一实施方式所提供的手势动作生成方法。
[0084]
其中,存储器301可能包含高速随机存取存储器(ram:random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个物理端口303(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
[0085]
总线302可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器301用于存储程序,所述处理器300在接收到执行指令后,执行所述程序,前述本技术实施例任一实施方式揭示的所述相机位姿估计方法可以应用于处理器300中,或者由处理器300实现。
[0086]
处理器300可能是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器300中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器300可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器301,处理器300读取存储器301中的信息,结合其硬件完成上述方法的步骤。
[0087]
本技术实施例提供的电子设备与本技术实施例提供的手势动作生成方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
[0088]
本技术实施方式还提供一种与前述实施方式所提供的手势动作生成方法对应的计算机可读存储介质,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的手势动作生成方法。
[0089]
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
[0090]
本技术实施方式还提供一种与前述实施方式所提供的手势动作生成方法对应的计算机程序产品,包括计算机程序,该计算机程序被处理器执行以实现上述各实施例提供的手势动作生成方法。
[0091]
本技术的上述实施例提供的计算机可读存储介质、计算机程序产品均与本技术实施例提供的手势动作生成方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
[0092]
需要说明的是:
[0093]
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本技术也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本技术的内容,并且上面对特定语言所做的描述是为了披露本技术的最佳实施方式。
[0094]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本技术的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0095]
类似地,应当理解,为了精简本技术并帮助理解各个发明方面中的一个或多个,在上面对本技术的示例性实施例的描述中,本技术的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本技术要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本技术的单独实施例。
[0096]
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0097]
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本技术的
范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0098]
本技术的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本技术实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本技术还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本技术的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0099]
应该注意的是上述实施例对本技术进行说明而不是对本技术进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本技术可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0100]
以上所述,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种手势动作生成方法,其特征在于,包括:响应于接收到的待生成手势动作的语音信息、第一文本信息和第一生成风格信息;对所述第一文本信息和所述第一生成风格信息进行编码处理,得到第二文本信息和第二生成风格信息;根据所述语音信息、所述第二文本信息和所述第二生成风格信息预测噪声;根据预测到的所述噪声对所述语音信息、所述第二文本信息和所述第二生成风格信息进行去噪处理,得到待生成手势动作编码序列;将所述待生成手势动作编码序列输入到预训练的手势动作生成模型,生成对应的手势动作。2.根据权利要求1所述的手势动作生成方法,其特征在于,所述手势动作生成模型包括编码器和解码器,所述将所述待生成手势动作编码序列输入到预训练的手势动作生成模型之前,还包括:将第一待训练手势动作信息输入所述编码器进行下采样,得到第一隐式编码序列;根据预设的离散码本,对所述第一隐式编码序列中的每个隐向量进行映射,得到第二隐式编码序列;通过所述解码器对所述第二隐式编码序列进行解码,得到第二待训练手势动作信息;根据所述第二待训练手势动作信息和所述第一待训练手势动作信息确定第一训练值;基于所述第一训练值确定达到第一预设收敛条件时,获得所述手势动作生成模型。3.根据权利要求1所述的手势动作生成方法,其特征在于,所述根据预测到的所述噪声对所述语音信息、所述第二文本信息和所述第二生成风格信息进行去噪处理,得到待生成手势动作编码序列,包括:根据预测到的所述噪声,通过下列公式计算得到所述待生成手势动作编码序列:其中,所述z
n-1
表示所述待生成手势动作编码序列,所述e
n
表示预测到的所述噪声,所述x表示标准正态分布的随机噪声,所述n表示扩散步数,所述
n
、和σ
n
均表示常系数。4.根据权利要求1所述的手势动作生成方法,其特征在于,所述根据所述语音信息、所述第二文本信息和所述第二生成风格信息预测噪声,包括:将所述语音信息、所述第二文本信息和所述第二生成风格信息输入到预训练的去噪扩散随机模型中,通过所述去噪扩散随机模型中的去噪网络预测所述噪声,其中,所述去噪网络包括因果注意力层、语义感知注意力层、自适应实例归一化层和子网络;其中,所述通过所述去噪扩散随机模型中的去噪网络预测所述噪声,包括:通过所述因果注意力层将所述语音信息中的语音节奏特征和音强特征与预设的加噪手势编码进行拼接,得到新的语音信息特征,传输至所述自适应实例归一化层;通过所述语义感知注意力层将所述第二文本信息中的第一文本特征与预设的中间特征进行融合,得到新的中间特征;用所述新的中间特征替换所述预设的中间特征,传输至所述自适应实例归一化层;通过所述自适应实例归一化层将所述第二生成风格信息中的第一生成风格特征映射
为数值参数;根据所述数值参数修改传输到所述自适应实例归一化层中的所述新的语音信息特征和所述新的中间特征的均值和方差;利用所述子网络对修改后新的语音信息特征和所述新的中间特征进行融合计算,得到的计算结果作为预测到的所述噪声。5.根据权利要求4所述的手势动作生成方法,其特征在于,所述通过所述语义感知注意力层将所述第二文本信息中的第一文本特征与预设的中间特征进行融合,得到新的中间特征,包括:获取所述第一文本特征经过最大池化处理后得到的第二文本特征;将所述第一文本特征和所述第二文本特征的乘积作为所述第二文本信息的语义显著度;将所述第一文本特征和所述语义显著度与所述预设的中间特征进行融合,得到新的中间特征。6.根据权利要求5所述的手势动作生成方法,其特征在于,所述将所述第一文本特征和所述语义显著度与所述预设的中间特征进行融合,得到新的中间特征,包括:采用交叉注意力机制,将所述第一文本特征映射为第一矩阵和第二矩阵,所述预设的中间特征映射为第三矩阵;根据所述第一矩阵、所述第二矩阵、所述第三矩阵以及所述语义显著度,并通过下列公式进行融合,得到新的中间特征:其中,所述i
c
表示新的中间特征,t
p
表示矩阵转置操作系数,k表示所述第一矩阵,v表示所述第二矩阵,q表示所述第三矩阵,s
t
表示所述语义显著度,c表示常数。7.根据权利要求1所述的手势动作生成方法,其特征在于,所述第一生成风格信息的格式至少包括文本格式、视频格式和三维动作格式中的一种格式,所述对所述第一文本信息和所述第一生成风格信息进行编码处理,得到第二文本信息和第二生成风格信息,包括:采用预训练的手势动作文本特征提取模型对所述第一文本信息进行编码处理,得到所述第二文本信息;判断所述第一生成风格信息的格式是否为文本格式、视频格式或三维动作格式;当所述第一生成风格信息的格式为文字格式时,采用基于对比的语言-图像预训练clip模型的文本编码器对所述第一生成风格信息进行编码处理,得到所述第二生成风格信息;当所述第一生成风格信息的格式为视频格式时,采用所述clip模型的视频编码器对所述第一生成风格信息进行编码处理,得到所述第二生成风格信息;当所述第一生成风格信息的格式为三维动作格式时,采用基于对比的语言-图像-动作预训练motionclip模型的动作编码器对所述第一生成风格信息进行编码处理,得到所述第二生成风格信息。8.根据权利要求7所述的手势动作生成方法,其特征在于,所述手势动作文本特征提取模型包括手势编码器、文本编码器和联合向量空间,所述采用预训练的手势动作文本特征提取模型对所述第一文本信息进行编码处理,得到所述第二文本信息之前,还包括:
将第三待训练手势动作信息输入至所述手势编码器进行编码,得到第一手势特征,对所述第一手势特征进行最大池化处理后得到第二手势特征;将所述第三待训练手势动作信息对应的待训练文本信息输入至所述文本编码器进行编码,得到第三文本特征,对所述第三文本特征进行最大池化处理后得到第四文本特征;将所述第二手势特征与所述第四文本特征映射到所述联合向量空间中并进行时序上的匹配,将匹配成功的所述第二手势特征与所述第四文本特征作为第一训练对,将第一训练对以外的其他训练对作为第二训练对;利用所述第一训练对和所述第二训练对训练网络,并确定第二训练值;基于所述第二训练值确定达到第二预设收敛条件时,获得所述手势动作文本特征提取模型;和/或,所述采用所述clip模型的视频编码器对所述第一生成风格信息进行编码处理,得到所述第二生成风格信息之前,还包括:将待训练手势三维动作数据输入到三维引擎中进行渲染,得到所述待训练手势三维动作数据对应的待训练二维视频数据;将所述待训练手势三维动作数据输入到所述motionclip模型中的动作编码器中进行编码得到待训练手势三维动作手势特征;将所述待训练二维视频数据输入到待训练的基于clip模型的视频编码器中进行编码得到待训练二维视频特征;利用所述待训练手势三维动作手势特征和所述待训练二维视频特征训练网络,并确定第三训练值;基于所述第三训练值确定达到第三预设收敛条件时,获得所述基于clip模型的视频编码器。9.根据权利要求8所述的手势动作生成方法,其特征在于,所述方法还包括:通过指数移动平均的方式分别更新所述手势编码器和所述文本编码器的动量版本的网络参数;和/或,利用所述第一训练对和所述第二训练对训练网络发生错误时,利用所述手势编码器和所述文本编码器的动量版本的网络参数重新将所述第二手势特征与所述第四文本特征进行时序上的匹配,将重新匹配成功的所述第二手势特征与所述第四文本特征作为新的第一训练对,将所述新的第一训练对以外的其他训练对作为新的第二训练对。10.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1-9任一项所述的方法。
技术总结
本申请公开一种手势动作生成方法和电子设备,该方法包括:响应于接收到的待生成手势动作的语音信息、第一文本信息和第一生成风格信息;对第一文本信息和第一生成风格信息进行编码处理,得到第二文本信息和第二生成风格信息;根据语音信息、第二文本信息和第二生成风格信息预测噪声;根据预测到的所述噪声对语音信息、第二文本信息和第二生成风格信息进行去噪处理,得到待生成手势动作编码序列;将待生成手势动作编码序列输入到预训练的手势动作生成模型,生成对应的手势动作。本申请通过手势动作生成模型将接收的待生成手势动作的语音信息、第一文本信息和第一生成风格信息生成对应的手势,使得手势能从多种传达方式中生成,提高了生成准确度。提高了生成准确度。提高了生成准确度。
技术研发人员:敖腾隆 刘利斌 张泽一
受保护的技术使用者:北京大学
技术研发日:2023.03.07
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种双点火脉冲输出电路及方法与流程 下一篇:一种五金件表面处理用传送机构的制作方法
