动画生成方法、模型训练方法及装置与流程

未命名 10-09 阅读:156 评论:0


1.本说明书实施例涉及计算机技术领域,具体地,涉及动画生成方法及装置。


背景技术:

2.在内容生产与人机交互的场景下,随着泛娱乐行业的发展与元宇宙概念的兴起,自动化生产内容与智能人机交互的需求变得越发迫切。在直播、短视频相关的内容生产中,利用ai算法自动化地生产虚拟形象(即,数字人)的内容讲解视频或直播视频,能提高内容生产效率并增加用户活跃度。在智能客服与同屏内容播报场景下,相比文字,合成的虚拟形象能够自动地为用户完成讲解,有助于提升内容的生动性,增强用户体验。
3.目前,在相关技术中,通常根据给定的文字或音频自动生成数字人动画,以简化动画制作过程。生成的动画仅与文字或音频的内容相关,生动性较低。如何生成生动性较高的数字人动画成为一个需要解决的问题。


技术实现要素:

4.本说明书实施例提供了动画生成方法、模型训练方法及装置。
5.第一方面,本说明书实施例提供了动画生成方法,包括:
6.获取用户针对目标音频自定义的情感序列,所述情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;
7.将所述目标音频和所述情感序列输入到参数预测模型进行模型处理,得到参数序列,所述参数序列包括按时序排列的多个参数组;
8.根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。
9.第二方面,本说明书实施例提供了模型训练方法,包括:
10.利用训练好的情感识别模型对训练视频进行情感识别,得到样本情感序列,所述样本情感序列包括:按时序排列的若干识别出的情感类别,各识别出的情感类别用于指示所述训练视频中呈现的面部情感或表情;
11.将所述训练视频对应的样本音频和所述样本情感序列输入到参数预测模型,得到针对所述样本音频的预测输出,所述预测输出包括按时序排列的、用于制作面部动画的多个参数组;
12.基于所述预测输出与所述训练视频,更新所述参数预测模型中模型参数。
13.第三方面,本说明书实施例提供了动画生成装置,包括:
14.获取单元,被配置为获取用户针对目标音频自定义的情感序列,所述情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;
15.参数序列生成单元,被配置为将所述目标音频和所述情感序列输入到参数预测模型进行模型处理,得到参数序列,所述参数序列包括按时序排列的多个参数组;
16.目标动画生成单元,被配置为根据各个参数组,生成对应的包括面部的动画片段,
从而生成目标动画。
17.第四方面,本说明书实施例提供了模型训练装置,包括:
18.样本情感序列生成单元,被配置为利用训练好的情感识别模型对训练视频进行情感识别,得到样本情感序列,所述样本情感序列包括:按时序排列的若干识别出的情感类别,各识别出的情感类别用于指示所述训练视频中呈现的面部情感或表情;
19.预测输出生成单元,被配置为将所述训练视频对应的样本音频和所述样本情感序列输入到参数预测模型,得到预测输出,所述预测输出包括按时序排列的、用于制作面部动画的多个参数组;
20.更新单元,被配置为基于所述预测输出与所述训练视频,更新所述参数预测模型中模型参数。
21.第五方面,本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当该计算机程序在计算机中执行时,令该计算机执行如第一方面和第二方面中任一实现方式描述的方法。
22.第六方面,本说明书实施例提供了一种计算设备,包括存储器和处理器,其中,该存储器中存储有可执行代码,该处理器执行该可执行代码时,实现如第一方面和第二方面中任一实现方式描述的方法。
23.第七方面,本说明书实施例提供了一种计算机程序产品,其中,当该计算机程序产品在计算机中执行时,令该计算机执行如第一方面和第二方面中任一实现方式描述的方法。
24.本说明书的上述实施例提供的动画生成方法,获取用户针对目标音频自定义的情感序列,情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;将目标音频和所述情感序列输入到参数预测模型进行模型处理,得到参数序列,参数序列包括按时序排列的多个参数组;根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。生成的动画可以指示按照时序排列的一系列的情感或表情,生成的动画的生动性较强。
附图说明
25.为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
26.图1是适用于本说明书的动画生成方法的实施例的应用场景图;
27.图2是根据本说明书的动画生成方法的一个实施例的流程图;
28.图3是利用参数预测模型生成参数序列的一个示例的流程图;
29.图4是根据本说明书的模型训练方法的一个实施例的流程图;
30.图5是模型训练的一个示例的流程图;
31.图6是根据本说明书的动画生成装置的一个结构示意图;
32.图7是根据本说明书的模型训练装置的一个结构示意图。
具体实施方式
33.下面结合附图和实施例对本说明书作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
34.需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本说明书中的实施例及实施例中的特征可以相互组合。
35.基于此,本说明书的一些实施例提供了动画生成方法,通过该方法,可以实现生成的动画可以指示按照时序排列的一系列的情感或表情,生成的动画的生动性较强。
36.请参看图1,其示出了示出了适用于本说明书的动画生成方法的实施例的应用场景图。
37.图1示例性地示出了情感序列,情感序列包括开心、惊喜、大笑等。
38.将目标音频和情感序列输入到参数预测模型,参数预测模型输出参数序列,参数序列包括按时序排列的参数组1、参数组2、参数组3等多个参数组;根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。
39.参数序列中第i个参数组用于生成第i个动画片段。作为示例,参数序列中第一个参数组用于生成第一个动画片段即动画片段1,参数序列中第二个参数组用于生成第二个动画片段即动画片段2,参数序列中第三个参数组用于生成第三个动画片段即动画片段3。
40.生成的动画片段对应情感类别。作为示例,动画片段1对应情感类别即开心,动画片段2对应情感类别惊喜,动画片段3对应情感类别大笑。动画片段1为生成的动画中0~1s的动画片段,生成的动画中第二个动画片段即动画片段2为生成的动画中1~2s的动画片段,生成的动画中第三个动画片段即动画片段3为生成的动画中2~3s的动画片段。
41.在播放生成的动画时,当播放到动画片段1时呈现指示开心的面部即具有开心情感的面部,当播放到动画片段2时呈现指示惊喜的面部,当播放到动画片段3时呈现指示大笑的面部即具有大笑表情的面部。从而,生成的动画可以指示开心、惊喜、大笑等按照时序排列的一系列的情感或表情,生成的动画的生动性较强。
42.下面,结合具体的实施例,描述上述方法的具体实施步骤。
43.请参看图2,其示出了动画生成方法的一个实施例的流程200。该方法的执行主体可以为服务器或终端,该方法包括以下步骤:
44.步骤202,获取用户针对目标音频自定义的情感序列。
45.可以理解,这里的目标音频是后续生成数字人动画的基础。在最终生成的数字人动画中,数字人将以合适的动画形象“说出”目标音频。实践中,可以通过人为阅读并录制的方式形成目标音频,也可以将一定文本内容输入文本转语音模型,通过合成的方式得到目标音频。
46.为了使得最终生成的数字人动画更加生动,富有情感或表情,用户(这里是数字人动画的生产方)可以针对目标音频定义一系列情感类别,例如开心、悲伤、惊喜、委屈等,以使得最终的数字人带着对应的表情或情感,“说出”目标音频。
47.具体地,用户针对目标音频自定义的情感序列可以包括:按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情,例如情感序列可以指
示,先是开心,然后惊喜,接着大笑等。
48.步骤204,将目标音频和情感序列输入到参数预测模型进行模型处理,得到参数序列,参数序列包括:按时序排列的多个参数组。
49.在一个实施方式中,模型处理的过程可以包括:s2041,提取目标音频的音频特征;s2042,对情感序列进行编码,得到第一特征;s2043,将该音频特征与第一特征在时序上融合,得到第二特征;s2044,利用自注意力机制处理第二特征,得到参数序列。下面详细描述。
50.首先在步骤s2041,对目标音频进行特征提取,得到音频特征。该步骤可以采用常规的音频特征提取方式进行。通常地,在进行音频特征提取时,会将音频划分为等间距的小的时间片段,然后对各个时间片段中的音频进行频谱特征(例如梅尔倒谱系数等)提取,得到该时间片段的音频向量。最终的音频特征a可以表示为依序排列的各个时间片段的音频向量的序列,a=(a1,a2,

,ai…
,an),其中ai为第i时间片段的音频向量。在典型的视频音频处理中,以(1/24)秒为一帧,一帧对应一个时间片段。则,ai为第i帧的音频向量。可选的,也可采用其他时长的时间片段。在下面的例子中,以时间片段例如为1s进行描述。该例子仅为描述的简单和清楚而举例。实践操作中,为了形成连贯的动画,通常设置的时间片段小于1s。
51.此外,在步骤s2042,对情感序列进行编码,得到第一特征。具体地,可以利用一个或多个全连接层分别对情感序列中每个情感类别进行编码(embedding),例如,将情感类别c1“开心”编码为嵌入向量e1,将情感类别c2“惊喜”编码为嵌入向量e2,等等。然后,将情感序列中对应于前述各个时间片段的情感类别的嵌入向量按时序排列,得到第一特征b=(b1,b2,

,bi,
…bn
),其中任意的bi选自集合{e1,e2,

,em},m为情感类别的总数目。
52.需要说明的是,在用户定义情感序列时,通常会指定每种表情/情感的持续时长,或者说,每种情感类别的作用时长。例如,在前述例子中,情感序列s可以指示,先是开心,然后惊喜,接着大笑。结合用户定义的时长,该情感序列s具体可以是:0-1s对应的情感类别为c1开心,1s-3s对应的情感类别为c2惊喜,3s-6s对应的情感类别为c3大笑。在这样的情况下,可以根据用户指定的时长,将情感序列整理为针对各个时间片段的情感类别序列。例如,在一个时间片段对应1s时长的情况下,可以将情感序列s整理为(c1,c2,c2,c3,c3,c3)。
53.然后,通过将各个情感类别编码转换为情感嵌入向量,可以得到第一特征,其体现为一个情感嵌入序列,该情感嵌入序列包括:按时序排序的多个情感嵌入向量,第i个情感嵌入向量通过对第i个时间片段的情感类别进行编码得到。延续之前的例子,得到的第一特征可以表示为b=(e1,e2,e2,e3,e3,e3)。
54.然后,在步骤s2043,将音频特征与第一特征在时序上融合,得到第二特征。也就是,将音频特征的序列和第一特征对应的情感嵌入序列在时序上对齐,分别进行融合。具体的,可以将该音频片段特征序列中第i个音频向量ai与第一特征中第i个情感嵌入向量bi融合(例如相加,对位相乘,拼接等),得到该时间片段i的融合嵌入。多个时间段的融合嵌入按序排列,形成的融合嵌入序列即作为第二特征。
55.然后,在步骤s2044,将上述第二特征输入基于注意力的模型,例如参数预测模型可以包括transformer网络,作为上述基于注意力的模型。具体的,transformer网络中的位置编码模块,可以为第二特征中各个融合嵌入向量添加位置编码,得到第三特征,第三特征中第i个嵌入向量在第二特征的第i个融合嵌入基础上附加对应的位置编码得到的。
56.然后,transformer网络利用其中的自注意力模块处理上述第三特征,输出目标嵌入序列。
57.该自注意力模块分别对第三特征中每个嵌入向量进行注意力编码,得到每个嵌入向量对应的目标嵌入。对第i个嵌入向量进行注意力编码的过程主要包括,通过自注意力模块中的q矩阵,k矩阵和v矩阵,计算各个嵌入向量相对于该第i个嵌入向量的注意力权重系数,基于各个注意力权重系数,对各个嵌入向量进行融合,得到第i个嵌入向量对应的第i个目标嵌入。
58.然后,参数预测模型中的预测网络可以基于上述目标嵌入序列,预测出参数序列。具体的,目标嵌入序列可以包括各个时间片段对应的目标嵌入;相应的,预测网络可以针对任意的第i目标嵌入,预测第i时间段所对应的用于制作动画表情的参数组pi,从而得到参数序列p=(p1,p2,

,pi,

pn)。相应的,参数序列中第i个参数组pi对应于待生成的动画中第i个动画片段,用于生成该第i个动画片段中数字人的表情。
59.通过以上过程,预测得到用于制作动画表情的参数序列。
60.于是,在步骤206,根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。
61.在不同实施例中,参数组可以具有不同的形式;相应的,可以根据对应的动画表情制作方式,生成对应的动画片段。
62.具体的,在一个实施例中,参数组pi可以包括:对应情感或表情的多个人脸关键点的位置。可以理解,不同关键点位置的组合,可以形成人脸的不同表情。在这样的情况下,对于每个参数组pi,根据其中的多个人脸关键点,生成具有这些关键点的面部图像,构成该参数组pi对应的动画片段。参数组序列p中各个参数组对应的动画片段构成目标动画。
63.在另一实施例中,参数组pi为混合形变参数(blend shape),其中的每个分量分别对应面部的一个部位,其数值用于描述该部位的形变程度。根据该分量,可以确定该分量对应的部位的形状。
64.在这样的情况下,对于每个参数组,根据其中各个分量,分别确定面部部位的形状,从而生成对应的面部表情。
65.作为一个示例,根据混合形变参数中对应嘴巴的分量,可以确定嘴巴的形状,根据混合形变参数中对应鼻子的分量,可以确定鼻子的形状。综合面部各个部位的形状,可以生成具有该参数组对应的情感类别的面部表情,从而生成包括面部图像。
66.具体的,可以预先构建一个没有情感和表情的人脸三维模型。在根据混合形变参数生成面部表情时,根据混合形变参数中的各个分量,确定该分量对应的部位的形状,然后分别将该人脸三维模型中人脸的各个部位的形状调整为该混合形变参数中对应的分量指示的形状,得到该混合形变参数对应的面部表情。
67.在一个实施例中,混合形变参数pi中各个分量的分量值,直接指示对应部位的形状参数。此时,可以直接将分量值赋值给人脸三维模型中对应部位的形状参数,得到通过该人脸三维模型呈现的面部表情。
68.在另一实施例中,针对上述人脸三维模型的各个部位,分别设置有(没有表情时)的缺省值或默认值作为默认形状参数。并且,混合形变参数pi中各个分量的分量值,指示相对于上述默认值的变化量。在这样的情况下,针对各个部位,通过将该部位对应的默认值与
混合形变参数中对应分量的分量值相加,得到该部位的最终形状参数。然后,将各个部位的最终形状参数赋值给人脸三维模型,得到通过该人脸三维模型呈现的面部表情。
69.通过以上过程,基于参数序列p中各个参数组,生成对应表情的动画片段,各个动画片段依序组合,形成与情感序列对应的目标动画。
70.请参看图3,其示出了利用参数预测模型生成参数序列的一个示例的流程图。
71.将目标音频和情感序列输入到参数预测模型。参数预测模型对情感序列进行编码,得到第一特征。参数预测模型将目标音频的音频特征与第一特征在时序上融合,得到第二特征。参数预测模型包括transformer网络、预测网络,该transformer网络中的位置编码模块,可以为第二特征中各个融合嵌入向量添加位置编码,得到第三特征。然后,transformer网络利用其中的自注意力模块处理该第三特征,输出目标嵌入序列。该预测网络可以基于目标嵌入序列,预测出参数序列。
72.请参看图4,其示出了模型训练方法的一个实施例的流程400。该方法的执行主体可以为服务器或终端,该方法包括以下步骤:
73.步骤402,利用训练好的情感识别模型对训练视频进行情感识别,得到样本情感序列。
74.当训练参数预测模型时,可以利用训练视频集合训练参数预测模型,步骤402-406为示例性的利用一个训练视频训练模型的过程。
75.将训练视频输入到训练好的情感识别模型,训练好的情感识别模型输出样本情感序列。
76.样本情感序列包括:按时序排列的若干识别出的情感类别,各识别出的情感类别用于指示该训练视频中呈现的面部情感或表情。
77.步骤404,将训练视频对应的样本音频和样本情感序列输入到参数预测模型,得到预测输出。
78.训练视频对应的样本音频为在播放训练视频时与训练视频一起播放的音频。将该样本音频与样本情感序列一起输入到参数预测模型,得到的预测输出可以包括:按时序排列的、用于制作面部动画的多个参数组。
79.在一个实施方式中,该参数组为预测出的混合形变参数。
80.在一个实施方式中,步骤404包括:提取该样本音频的音频特征;对样本情感序列进行编码,得到第四特征;将该样本音频的音频特征与第四特征在时序上融合,得到第五特征;将该第五特征输入基于注意力的模型,例如参数预测模型可以包括transformer网络,作为上述基于注意力的模型。基于注意力的模型输出样本目标嵌入序列,参数预测模型中的预测网络可以基于该样本目标嵌入序列,预测出针对该样本音频的预测输出。
81.步骤404的执行过程与上述动画生成方法的实施例中模型处理的执行过程同理,参考该模型处理的过程。在对样本情感序列进行整理时,根据样本情感序列中识别出的情感类别的持续时长,对样本情感序列进行整理,该持续时长由训练好的情感识别模型识别出。作为一个示例,样本情感序列具体可以是:识别出的0-1s对应的情感类别为d1开心,识别出的1s-3s对应的情感类别为d2惊喜,识别出的3s-6s对应的情感类别为d3大笑。在这样的情况下,将样本情感序列整理为针对各个时间片段的情感类别序列,该各个时间片段通过在对该样本音频进行音频特征提取时对样本音频进行划分得到。例如,在一个时间片段
对应1s时长的情况下,可以将样本情感序列整理为(d1,d2,d2,d3,d3,d3)。
82.步骤406,基于预测输出与训练视频,更新参数预测模型中模型参数。
83.如前所述,预测输出是包含用于动画制作的多个参数组的参数序列。为了训练参数预测模型,需要对模型预测结果与真实值(ground truth)进行比对。而直接的预测输出与作为真实值的样本视频,在数据形式上并不对应。
84.为此,在一个实施例中,基于预测输出中的参数序列,生成预测动画视频,通过比对预测动画视频与训练视频的相似度,确定预测损失并计算梯度,从而更新参数预测模型。在该实施例中,将比对数据对齐为视频形式。
85.在另一个实施方式中,将比对数据对齐为参数组。相应的,步骤406包括:从训练视频中提取出反映面部表情的目标参数组序列;根据预测输出中的多个参数组与目标参数组序列确定预测损失;以预测损失减小为目标,更新参数预测模型中模型参数。
86.具体的,首先从训练视频中提取反映面部表情的目标参数序列作为训练标签,该期望参数序列包括按时序排序的多个期望的参数组。该多个期望的参数组中第i个期望的参数组用于反映所述训练视频中第i个片段的面部表情。
87.在从训练视频中提取出反映面部表情的目标参数组序列之后,根据预测输出中的多个参数组与目标参数组序列确定预测损失。预测损失可以度量预测输出中的多个参数组与目标参数组序列之间的差异程度。
88.以预测损失减小为目标,更新参数预测模型中模型参数可以包括:以最小化预测损失为目标,计算参数预测模型中各个模型参数的梯度,根据该梯度,更新参数预测模型中模型参数。
89.请参看图5,其示出了模型训练的一个示例的流程图。
90.在一次训练期间,利用训练好的情感识别模型对训练视频进行情感识别,得到样本情感序列。将训练视频对应的样本音频和样本情感序列输入到参数预测模型。参数预测模型提取样本音频的音频特征。参数预测模型对样本情感序列进行编码,得到第四特征。参数预测模型将样本音频的音频特征与第四特征在时序上融合,得到第五特征。参数预测模型包括transformer网络、预测网络,该transformer网络中的位置编码模块,可以为第五特征中各个融合嵌入向量添加位置编码,得到第六特征。然后,该transformer网络利用其中的自注意力模块处理该第六特征,输出样本目标嵌入序列。该预测网络可以基于样本目标嵌入序列,预测出用于制作面部动画的多个参数组。在一次训练期间,从训练视频中提取出反映面部表情的目标参数组序列,根据预测输出中的多个参数组与目标参数组序列,计算用于更新参数预测模型中模型参数的梯度,根据该梯度,更新参数预测模型中模型参数。
91.参考图6,作为对以上一些图所示方法的实现,本说明书提供了一种动画生成装置的一个实施例,该装置实施例与图2所示的方法实施例相对应。
92.如图6所示,本实施例的动画生成装置600包括:获取单元601、参数序列生成单元602和目标动画生成单元603。
93.获取单元601被配置为获取用户针对目标音频自定义的情感序列,所述情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;
94.参数序列生成单元602被配置为将所述目标音频和所述情感序列输入到参数预测
模型进行模型处理,得到参数序列,所述参数序列包括按时序排列的多个参数组;
95.目标动画生成单元603被配置为根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。
96.在本实施例中,获取单元601、参数序列生成单元602和目标动画生成单元603的具体处理及其带来的技术效果可分别参考图2对应实施例中步骤202、步骤204和步骤206的相关说明,在此不再赘述。
97.在一个可能的实现方式中,所述模型处理包括:提取所述目标音频的音频特征;对所述情感序列进行编码,得到第一特征;将所述音频特征与所述第一特征在时序上融合,得到第二特征;利用自注意力机制处理所述第二特征,得到所述参数序列。
98.在一个可能的实现方式中,所述目标音频为人的语音音频或通过语音合成得到的合成音频。
99.在一个可能的实现方式中,所述参数组为混合形变参数。
100.在一个可能的实现方式中,目标动画生成单元603进一步被配置为:基于所述参数组和人脸三维模型,生成对应的面部;生成包括所述对应的面部的图像。
101.在一个可能的实现方式中,所述参数组中各个分量对应于人脸三维模型的各个部位,各个部位设置有默认参数值;目标动画生成单元603进一步被配置为:对于所述各个部位,将其默认参数值加上所述参数组中对应分量的分量值,得到该部位的最终参数值;根据各个部位的最终参数值,生成对应的面部。
102.参考图7,作为对以上一些图所示方法的实现,本说明书提供了一种模型训练装置的一个实施例,该装置实施例与图4所示的方法实施例相对应。
103.如图7所示,本实施例的模型训练装置700包括:样本情感序列生成单元701、预测输出生成单元702和更新单元703。
104.样本情感序列生成单元701被配置为利用训练好的情感识别模型对训练视频进行情感识别,得到样本情感序列,所述样本情感序列包括:按时序排列的若干识别出的情感类别,各识别出的情感类别用于指示所述训练视频中呈现的面部情感或表情;
105.预测输出生成单元702被配置为将所述训练视频对应的样本音频和所述样本情感序列输入到参数预测模型,得到预测输出,所述预测输出包括按时序排列的、用于制作面部动画的多个参数组;
106.更新单元703被配置为基于所述预测输出与所述训练视频,更新所述参数预测模型中模型参数。
107.在本实施例中,样本情感序列生成单元701、预测输出生成单元702和更新单元703的具体处理及其带来的技术效果可分别参考图4对应实施例中步骤402、步骤404和步骤406的相关说明,在此不再赘述。
108.在一个可能的实现方式中,更新单元703进一步被配置为:从所述训练视频中提取出反映面部表情的目标参数组序列;根据所述多个参数组与所述目标参数组序列确定预测损失;以所述预测损失减小为目标,更新所述模型参数。
109.本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当该计算机程序在计算机中执行时,令计算机执行以上每个方法实施例分别描述的方法。
110.本说明书实施例还提供了一种计算设备,包括存储器和处理器,其中,该存储器中存储有可执行代码,该处理器执行该可执行代码时,实现以上每个方法实施例分别描述的用于查看信息的方法。
111.本说明书实施例还提供了一种计算机程序产品,其中,当该计算机程序产品在计算机中执行时,令计算机执行以上每个方法实施例分别描述的用于查看信息的方法。
112.本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
113.在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
114.以上所述的具体实施方式,对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书披露的多个实施例的具体实施方式而已,并不用于限定本说明书披露的多个实施例的保护范围,凡在本说明书披露的多个实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书披露的多个实施例的保护范围之内。

技术特征:
1.一种动画生成方法,包括:获取用户针对目标音频自定义的情感序列,所述情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;将所述目标音频和所述情感序列输入到参数预测模型进行模型处理,得到参数序列,所述参数序列包括按时序排列的多个参数组;根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。2.根据权利要求1所述的方法,其中,所述模型处理包括:提取所述目标音频的音频特征;对所述情感序列进行编码,得到第一特征;将所述音频特征与所述第一特征在时序上融合,得到第二特征;利用自注意力机制处理所述第二特征,得到所述参数序列。3.根据权利要求1所述的方法,其中,所述目标音频为人的语音音频或通过语音合成得到的合成音频。4.根据权利要求1-3中任一项所述的方法,其中,所述参数组为混合形变参数。5.根据权利要求4所述的方法,根据各个参数组,生成对应的包括面部的动画片段包括:基于所述参数组和人脸三维模型,生成对应的面部;生成包括所述对应的面部的图像。6.根据权利要求5所述的方法,所述参数组中各个分量对应于人脸三维模型的各个部位,各个部位设置有默认参数值;基于所述参数组和人脸三维模型,生成对应的面部包括:对于所述各个部位,将其默认参数值加上所述参数组中对应分量的分量值,得到该部位的最终参数值;根据各个部位的最终参数值,生成对应的面部。7.一种模型训练方法,所述方法包括:利用训练好的情感识别模型对训练视频进行情感识别,得到样本情感序列,所述样本情感序列包括:按时序排列的若干识别出的情感类别,各识别出的情感类别用于指示所述训练视频中呈现的面部情感或表情;将所述训练视频对应的样本音频和所述样本情感序列输入到参数预测模型,得到预测输出,所述预测输出包括按时序排列的、用于制作面部动画的多个参数组;基于所述预测输出与所述训练视频,更新所述参数预测模型中模型参数。8.根据权利要求7所述的方法,其中,基于所述预测输出与所述训练视频,更新所述参数预测模型中模型参数,包括:从所述训练视频中提取出反映面部表情的目标参数组序列;根据所述多个参数组与所述目标参数组序列确定预测损失;以所述预测损失减小为目标,更新所述模型参数。9.一种动画生成装置,包括:获取单元,被配置为获取用户针对目标音频自定义的情感序列,所述情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;参数序列生成单元,被配置为将所述目标音频和所述情感序列输入到参数预测模型进
行模型处理,得到参数序列,所述参数序列包括按时序排列的多个参数组;目标动画生成单元,被配置为根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。10.一种模型训练装置,包括:样本情感序列生成单元,被配置为利用训练好的情感识别模型对训练视频进行情感识别,得到样本情感序列,所述样本情感序列包括:按时序排列的若干识别出的情感类别,各识别出的情感类别用于指示所述训练视频中呈现的面部情感或表情;预测输出生成单元,被配置为将所述训练视频对应的样本音频和所述样本情感序列输入到参数预测模型,得到预测输出,所述预测输出包括按时序排列的、用于制作面部动画的多个参数组;更新单元,被配置为基于所述预测输出与所述训练视频,更新所述参数预测模型中模型参数。11.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项所述的方法。12.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。

技术总结
本说明书实施例提供了动画生成方法、模型训练方法及装置,动画生成方法的一具体实施方式包括:获取用户针对目标音频自定义的情感序列,情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;将目标音频和情感序列输入到参数预测模型进行模型处理,得到参数序列,参数序列包括按时序排列的多个参数组;根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。生成的动画可以指示按照时序排列的一系列的情感或表情,生成的动画的生动性较强。强。强。


技术研发人员:李文 郑若冰 王萌 邹城 陈景东
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2023.07.03
技术公布日:2023/10/7
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐