图像处理模型训练、处理方法、系统、设备及其介质与流程

未命名 08-15 阅读：99 评论：0

1.本公开涉及图像处理技术领域，尤其是一种图像处理模型训练、处理方法、系统、设备及其介质。

背景技术：

2.在虚拟形象被广泛应用的当下。让虚拟形象更加生动、能说会动是一个非常重要的任务，其中语音驱动人脸、图像生成技术起到了关键作用。
3.语音驱动人脸、图像生成技术，当前主流技术主要使用了深度学习方法。基于深度学习的不同输出，可以将语音驱动人脸技术分为两类：一类是对人脸表面网格进行特征建模，产生高维空间的特征，并通过深度模型，由语音来生成相应的高维空间特征权重，以此来驱动人脸表面网格的变化，但特征建模方法主要关注人脸表面形状的变化，无法应对其他因素(如光线、背景等)对人脸的影响，其生成的模型鲁棒性和精度均较低。
4.另一类则是直接通过深度模型，由语音来驱动所有人脸表面网格的位置变化，但目前还没有成熟的深度模型，现有的深度模型精度、鲁棒性和泛用性较差。

技术实现要素：

5.本发明要解决的技术问题是为了克服现有技术中语音驱动人脸模型精度、鲁棒性和泛用性较差的缺陷，提供一种图像处理模型训练、处理方法、系统、设备及其介质。
6.本发明是通过下述技术方案来解决上述技术问题：
7.第一方面提供一种图像处理模型的训练方法，所述训练方法包括：
8.获取原始三维面部数据和若干样本音频数据；
9.提取所述原始三维面部数据的样本面部特征；
10.其中，所述样本面部特征用于表征若干面部区域中节点的节点特征信息和不同所述节点之间的拓扑关系的关系特征信息；
11.获取所述样本音频数据的样本音频特征；
12.基于所述样本音频特征调整所述样本面部特征，以得到对应的样本三维面部数据；
13.以每组的所述样本面部特征与所述样本音频特征作为输入，对应的所述样本三维面部数据作为输出，对预设网络进行训练，以得到所述图像处理模型。
14.较佳地，所述获取所述样本音频数据的音频特征的步骤包括：
15.识别得到所述样本音频数据中的表达特征；
16.其中，所述表达特征用于表征所述样本音频数据中的人声特征信息；
17.从所述表达特征中提取得到所述样本音频特征。
18.较佳地，所述识别所述样本音频数据的表达特征的步骤包括：
19.将所述样本音频数据输入预设音频识别模型，输出第一输出特征；
20.所述第一输出特征包括频谱特征和/或语义特征，将所述第一输出特征作为所述
表达特征；
21.和/或，
22.所述提取所述表达特征中的所述样本音频特征的步骤包括：
23.将所述表达特征输入预设音频特征提取模型，输出第二输出特征；
24.所述第二输出特征包括频率、振幅和共振峰中的至少一种特征；
25.将所述第二输出特征作为所述样本音频特征。
26.较佳地，所述训练方法还包括：
27.对所述样本音频特征设置基于所述样本音频数据的音源属性标签；
28.基于所述音源属性标签对所述样本音频特征进行更新，基于更新后的所述样本音频特征，更新得到新的所述图像处理模型。
29.较佳地，所述以每组的所述样本面部特征与所述样本音频特征作为输入，对应的所述样本三维面部数据作为输出，对预设网络进行训练，以得到所述图像处理模型的步骤包括：
30.将所述样本面部特征与所述样本音频特征拼接得到第一拼接特征；
31.将所述第一拼接特征输入第一预设卷积神经网络，以输出融合特征；
32.计算所述融合特征的第一损失值和/或所述样本三维面部数据的第二损失值，将所述第一损失值和/或所述第二损失值作为目标损失值；
33.若所述目标损失值不符合预设收敛条件，则返回所述获取所述样本面部特征和所述样本音频特征步骤进行迭代训练；
34.若所述目标损失值符合所述预设收敛条件，则保存将最新得到的模型作为最终的所述图像处理模型。
35.较佳地，所述训练方法还包括：
36.获取与所述样本音频数据处于同一时间帧的真实三维面部数据；
37.所述计算所述融合特征的第一损失值和/或所述样本三维面部数据的第二损失值的步骤包括：
38.将所述真实三维面部数据输入预设自编码器，得到校验特征数据；
39.基于所述融合特征与所述校验特征数据计算得到所述第一损失值；和/或，
40.基于所述真实三维面部数据与所述样本三维面部数据计算得到所述第二损失值。
41.较佳地，所述提取所述表达特征中的所述样本音频特征的步骤包括：
42.将所述表达特征作为输入，所述表达特征中若干第一输出特征与所述样本面部特征的关联权重作为输出，对第二预设卷积神经网络进行训练；
43.其中，所述第一预设卷积神经网络基于所述第一损失值进行迭代训练；
44.选取关联权重大于预设权重阈值的所述第一输出特征作为所述样本音频特征。
45.较佳地，所述训练方法还包括：
46.获取样本表情数据；
47.其中，所述样本表情数据包括设置表情标签的真实三维面部数据，所述真实三维面部数据表征与所述样本音频数据处于同一时间帧的三维面部数据；
48.获取所述样本表情数据中的表情特征；
49.其中，所述表情特征包括预设面部区域的所述节点信息；
50.以所述样本面部特征、所述样本音频特征和表情特征的第二拼接特征作为输入，以样本三维面部数据作为输出，对预设卷积神经网络进行训练得到图像处理模型。
51.第二方面提供一种面部图像的处理方法，所述处理方法包括：
52.获取目标音频数据和待处理面部图像；
53.获取所述目标音频数据的目标音频特征，以及待处理面部图像的目标面部特征；
54.将所述目标音频特征和所述目标图像特征输入图像处理模型，得到对应的目标三维面部数据；
55.其中，所述图像处理模型基于上述的图像处理模型的训练方法得到。
56.第三方面提供一种图像处理模型的训练系统，所述训练系统包括样本获取模块、图像处理模块、音频处理模块和模型训练模块；
57.所述样本获取模块，用于获取原始三维面部数据和若干样本音频数据；
58.所述图像处理模块，用于提取所述原始三维面部数据的样本面部特征；其中，所述样本面部特征用于表征若干面部区域中节点的节点特征信息和不同所述节点之间的拓扑关系的关系特征信息；
59.所述音频处理模块，用于获取所述样本音频数据的样本音频特征；其中，基于所述样本音频特征调整所述样本面部特征，以得到对应的样本三维面部数据；
60.所述模型训练模块，用于以每组的所述样本面部特征与所述样本音频特征作为输入，对应的所述样本三维面部数据作为输出，对预设网络进行训练，以得到所述图像处理模型。
61.较佳地，所述音频处理模块包括音频识别单元和样本音频特征提取单元；
62.所述音频识别单元，用于识别得到所述样本音频数据中的表达特征；
63.其中，所述表达特征用于表征所述样本音频数据中的人声特征信息；
64.所述样本音频特征提取单元，用于从所述表达特征中提取得到所述样本音频特征。
65.较佳地，所述样本音频特征提取单元还用于将所述样本音频数据输入预设音频识别模型，输出第一输出特征；
66.所述第一输出特征包括频谱特征和/或语义特征，将所述第一输出特征作为所述表达特征；
67.和/或，
68.所述样本音频特征提取单元，还用于将所述表达特征输入预设音频特征提取模型，输出第二输出特征；
69.所述第二输出特征包括频率、振幅和共振峰中的至少一种特征；
70.将所述第二输出特征作为所述样本音频特征。
71.较佳地，所述音频处理模块还包括标签单元；
72.所述标签单元，用于对所述样本音频特征设置基于所述样本音频数据的音源属性标签；
73.所述样本音频特征提取单元，还用于基于所述音源属性标签对所述样本音频特征进行更新，基于更新后的所述样本音频特征，更新得到新的所述图像处理模型。
74.较佳地，所述模型训练模块104包括拼接单元、融合单元、计算损失单元和迭代处
理单元；
75.所述拼接单元，用于将所述样本面部特征与所述样本音频特征拼接得到第一拼接特征
76.所述融合单元，用于将所述第一拼接特征输入第一预设卷积神经网络，以输出融合特征；
77.所述计算损失单元，用于计算所述融合特征的第一损失值和/或所述样本三维面部数据的第二损失值，将所述第一损失值和/或所述第二损失值作为目标损失值；
78.所述迭代处理单元，用于若所述目标损失值不符合预设收敛条件，则返回所述获取所述样本面部特征和所述样本音频特征步骤进行迭代训练；
79.若所述目标损失值符合所述预设收敛条件，则保存将最新得到的模型作为最终的所述图像处理模型。
80.较佳地，所述样本获取模块还用于获取与所述样本音频数据处于同一时间帧的真实三维面部数据；
81.所述计算损失单元，还用于将所述真实三维面部数据输入预设自编码器，得到校验特征数据；
82.基于所述融合特征与所述校验特征数据计算得到所述第一损失值；和/或，
83.基于所述真实三维面部数据与所述样本三维面部数据计算得到所述第二损失值。
84.较佳地，所述音频处理模块还包括权重处理单元；
85.所述权重处理单元，用于将所述表达特征作为输入，所述表达特征中若干第一输出特征与所述样本面部特征的关联权重作为输出，对第二预设卷积神经网络进行训练；
86.其中，所述第二预设卷积神经网络基于所述第一损失值进行迭代训练；
87.选取关联权重大于预设权重阈值的所述待处理特征作为所述样本音频特征。
88.较佳地，所述训练系统还包括表情特征模块；
89.所述样本获取模块101，还用于获取样本表情数据；
90.其中，所述样本表情数据包括设置表情标签的真实三维面部数据，所述真实三维面部数据表征与所述样本音频数据处于同一时间帧的三维面部数据；
91.所述表情特征模块，用于获取所述样本表情数据中的表情特征；
92.所述模型训练模块104，还用于以所述样本面部特征、所述样本音频特征和表情特征的第二拼接特征作为输入，以样本三维面部数据作为输出，对预设卷积神经网络进行训练得到图像处理模型。
93.第四方面提供一种面部图像的处理系统，所述处理系统包括数据获取模块、特征提取模块、数据处理模块和图像驱动模块；
94.所述数据获取模块，用于获取目标音频数据和待处理面部图像；
95.所述特征提取模块，用于获取所述目标音频数据的目标音频特征，以及待处理面部图像的目标面部特征；
96.所述数据处理模块，用于将所述目标音频特征和所述目标面部特征输入图像处理模型，得到对应的目标三维面部数据；
97.其中，所述图像处理模型基于上述的图像处理模型的训练系统得到；
98.所述图像驱动模块，用于将所述待处理面部图像基于所述目标三维面部数据调
整，得到目标面部图像。
99.第五方面提供一种电子设备，包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序，所述处理器执行计算机程序时实现如上述的图像处理模型的训练方法；或，实现如上述的面部图像的处理方法。
100.第六方面提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的图像处理模型的训练方法；或，实现如上述的面部图像的处理方法。
101.在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。
102.本发明的积极进步效果在于：通过图卷积神经网络获取面部特征和多层次处理得到音频特征，以面部特征和音频特征的拼接特征为输入，样本三维面部数据为输出，通过卷积神经网络的训练，得到的图像处理模型具有更高的精度、泛用性和鲁棒性。并通过计算融合特征的融合损失和样本三维面部数据的生成损失，精细化模型训练的调整，提高模型训练的效率和准确性。
附图说明
103.图1为本发明实施例1的图像处理模型的训练方法的第一流程示意图；
104.图2为本发明实施例1的图像处理模型的训练方法的第二流程示意图；
105.图3为本发明实施例1的图像处理模型的训练方法的第三流程示意图；
106.图4为本发明实施例1中的深度卷积神经网络的流程示意图；
107.图5为本发明实施例2的面部图像的处理方法的流程示意图；
108.图6为本发明实施例3的图像处理模型的训练系统的模块示意图；
109.图7为本发明实施例4的面部图像的处理系统的模块示意图；
110.图8为本发明实施例5的电子设备的硬件结构示意图。
具体实施方式
111.下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。
112.在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
113.此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
114.实施例1
115.本实施例提供一种图像处理模型的训练方法，如图1所示，所述训练方法包括：
116.s101、获取原始三维面部数据和样本音频数据；
117.s102、提取所述原始三维面部数据的样本面部特征；
118.其中，所述样本面部特征用于表征若干面部区域中节点的节点特征信息和不同所述节点之间的拓扑关系的关系特征信息；
119.s103、获取所述样本音频数据的样本音频特征；
120.基于所述样本音频特征调整所述样本面部特征，以得到对应的样本三维面部数据；
121.s104、以每组的所述样本面部特征与所述样本音频特征作为输入，对应的所述样本三维面部数据作为输出，对预设网络进行训练，以得到所述图像处理模型。
122.在本方案中，采用图卷积神经网络和多个卷积神经网络，实现样本面部特征和样本音频特征的提取，样本面部特征和样本音频特征的拼接和融合，以及输出生成样本三维面部图像。其中，将原始三维面部数据作为样本面部特征的提取基础，能够避免真实面部三维面部数据中的光线或背景的因素造成的图像干扰。在一个实施例中，原始三维面部数据可采用与真实三维面部数据不同的人脸三维面部网格模板，能够提高模型的泛用性和鲁棒性。
123.本方案中，还采用图卷积神经网络提取样本面部特征，图卷积神经网络对输入的面部数据要求更低，无需对面部数据进行降采样，能够保留更多的信息，并适用于处理面部不规则形状，能够更好的捕捉人脸的形状和细节，并从全局关系考虑面部特征，得到更精细和准确的样本面部特征。
124.通过图卷积神经网络得到包括人脸三维网格的节点和拓扑关系信息维度的面部特征；优选的使用三维网格节点中的顶点提取面部特征，能够使输入模型训练的面部特征利用人脸三维网格节点之间的局部和全局关系，对于人脸三维网格这种复杂结构的对象，能生成更准确和精细的特征。
125.在一个实施例中，通过图卷积神经网络对原始三维面部数据处理得到89个表示人脸形态、纹理等信息的样本面部特征。这些特征包括面部轮廓曲线的形状、眼睛、嘴巴、鼻子的几何形状、皮肤色调和纹理等。通过这些局部面部特征信息和组成的全局面部信息，可以用于音频驱动人脸的任务。
126.将面部特征与音频特征通过卷积神经网络进行训练，最终得到的图像处理模型具有较好的泛用性、鲁棒性和精度。
127.作为一种可实现的方式，所述原始三维面部数据为真实三维面部数据的中立态。
128.在本方案中，原始三维面部数据采用与采样音频数据对应的人脸三维表面网格的中立态，能够提高训练得到的模型精度，降低模型训练过程中的损失，提高模型训练的效率。
129.作为一种可实现的方式，如图2所示，步骤s103包括：
130.s1031、识别得到所述样本音频数据中的表达特征；
131.其中，所述表达特征用于表征所述样本音频数据中的人声特征信息；
132.s1032、从所述表达特征中提取得到所述样本音频特征。
133.在本方案中，为避免语音质量较差或含有干扰时，对获取的样本音频特征以及生成的高维空间特征造成影响，对获取的样本样本音频数据进行预处理，用于去除噪音和识
别样本音频中的表达特征，并基于预处理后的表达特征获取与面部特征关联的样本音频特征，提高样本音频特征的准确性。
134.作为一种可实现的方式，步骤s1031包括：
135.将所述样本音频数据输入预设音频识别模型，输出第一输出特征；
136.所述第一输出特征包括频谱特征和/或语义特征，将所述第一输出特征作为所述表达特征。
137.在本方案中，通过预训练的基础模型作为预设音频识别模型，用于输出充分刻画样本音频数据中的表达特征，其中主要的表达特征包括识别音频数据中的频谱和/或语义信息，频谱与语义信息可相互转换和补全，并对后续提取与样本面部特征相关的样本音频特征提供准确的音频数据，提高模型训练的精度。
138.作为一种可实现的方式，所述预设音频识别模型包括deepspeech模型(一种语音识别模型)和/或wav2vec模型。以deepspeech模型和/或wav2vec模型(一种语音识别模型)的深度模型对样本音频数据进行识别，能够扩大样本音频数据的语言、语音的范围，适用不同方言和口音的识别，具有较高的鲁棒性和稳定性，能应用于嘈杂环境和低snr(signal-noise ratio，信噪比
)
情况下的音频识别，为后续提取音频特征提供数据保障。
139.作为一种可实现的方式，步骤s1032包括：
140.将所述表达特征输入预设音频特征提取模型，输出第二输出特征；
141.所述第二输出特征包括频率、振幅和共振峰中的至少一种特征；
142.将所述第二输出特征作为所述样本音频特征。
143.在本方案中，通过将表达特征输入已训练的音频特征提取模型，输出与驱动面部高度关联的样本音频特征；其中，频率特征表征人声不同音调和音量，并基于时频表示或梅尔频率提取不同频率的声音信息，并充当驱动面部三维网格的输入；强度或振幅特征表征音量的增大或减小，从而进一步控制面部三维网格的表情和口型；共振峰特征表征声音的持续时间和共振峰，进而控制面部三维网格的情绪关联的表情和口型。通过样本音频特征实现样本音频与样本面部三维数据的关联，提高音频驱动人脸三维图像的准确性和泛用性。
144.作为一种可实现的方式，所述训练方法还包括：
145.s1033、对所述样本音频特征设置基于所述样本音频数据的音源属性标签。
146.在本方案中，通过对样本音频特征设置音源属性标签，提高输入模型训练的特征数据的准确性，帮助模型更好的解析音频的特征信息，通过提高样本音频特征数据的可解释性，加快模型的训练效率。
147.作为一种可实现的方式，所述音源属性标签表征所述音源的年龄、性别和方言中的至少一种属性。
148.在本方案中，为提高输入模型训练的特征数据的准确性，在样本音频特征上设置音源的年龄和性别标签，对不同年龄段和性别的面部三维网格，在音频驱动时生成与年龄和性别相关联的面部三维网格，使训练得到的模型在驱动对应年龄与性别的面部三维网格时具有更高的准确性；在样本音频特征上设置方言标签，能对在模型训练过程中提高对音频的解释性，使训练得到的模型具有更高的精度。
149.作为一种可实现的方式，如图3所示，步骤s104包括：
150.s1041、将所述样本面部特征与所述样本音频特征拼接得到第一拼接特征；
151.s1042、将所述第一拼接特征输入第一预设卷积神经网络，以输出融合特征；
152.s1043、计算所述融合特征的第一损失值和/或所述样本三维面部数据的第二损失值，将所述第一损失值和/或所述第二损失值作为目标损失值；
153.s1044、若所述目标损失值不符合预设收敛条件，则返回所述获取所述样本面部特征和所述样本音频特征步骤进行迭代训练；
154.s1045、若所述目标损失值符合所述预设收敛条件，则保存将最新得到的模型作为最终的所述图像处理模型。
155.在本方案中，先将样本面部特征和样本音频特征进行向量化处理，并将对应的样本面部特征向量和样本音频特征向量进行拼接，通过第一预设卷积神经网络将拼接特征融合，第一预设卷积神经网络由卷积层、跳层连接、正则化层和反卷积层组成，卷积层的层数基于实际需求进行调整；对第一预设卷积神经网络输出的融合特征进行第一次损失计算；将融合特征输入第三预设卷积神经网络，用于生成样本三维面部数据。对基于融合特征生成的样本三维面部数据进行第二此损失计算，通过在损失计算中增加对融合特征的损失计算，提高模型训练的准确性。
156.作为一种可实现的方式，所述训练方法还包括：
157.获取真实三维面部数据，所述真实三维面部数据与所述样本音频数据的时间帧一致；
158.计算所述融合特征的第一损失值和/或所述样本三维面部数据的第二损失值的步骤包括：
159.将所述真实三维面部数据输入预设自编码器，得到校验特征数据；
160.基于所述融合特征与所述校验特征数据计算得到所述第一损失值；和/或，
161.基于所述真实三维面部数据与所述样本三维面部数据计算得到所述第二损失值。
162.在本方案中，校验特征是将真实人脸三维表面网格通过一个训练好的自编码器产生的编码特征。自编码器由编码和解码两部分组成，其目的是对输入信息进行更好的特征表达，通过校验特征引入第一损失值，能有效提升网络的训练效率和效果。进一步的，结合第一损失值和第二损失值内存复用于模型迭代训练，提高模型性能。
163.作为一种可实现的方式，步骤s1032包括：
164.将所述表达特征作为输入，所述表达特征中若干第一输出特征与所述样本面部特征的关联权重作为输出，对第二预设卷积神经网络进行训练；
165.其中，所述第二预设卷积神经网络基于所述第一损失值进行迭代训练；
166.选取关联权重大于预设权重阈值的所述第一输出特征作为所述样本音频特征。
167.作为一种可实现的方式，所述第二预设卷积神经网络包括一维卷积层、relu层和全连接层。
168.在本方案中，将表达特征输入深度卷积网络中的第二预设卷积神经网络，通过一维卷积层、relu层(rectified layer unit，线性整流层)和全连接层组成第二预设卷积神经网络，能够将音频的表达特征分类和回归，在模型迭代的机器学习过程中，从表达特征的若干待处理特征中提取与驱动面部三维网格关联权重较高的音频特征，训练需要的参数较少，训练速度较快，且适用于处理音频数据这类高维度数据。
169.下面以实例具体说明本实施例图像处理模型的训练方法的工作原理：
170.如图4所示，将人脸三维网格输入图卷积神经网络提取样本面部特征；将音频数据输入第二预设卷积神经网络，提取音频特征；将面部特征和音频特征拼接输入第一预设卷积神经网络，得到面部特征和音频特征的融合特征；将融合特征与自编码器输出的校验特征计算得到l1损失值；将融合特征输入第三预设卷积神经网络，生成目标人脸三维网格；将目标人脸三维网格与真实人脸三维网格计算得到l2损失值；返回面部特征和音频特征提取步骤，将l1损失值和l2损失值内存复用到深度卷积神经网络的下一次迭代，直至深度卷积神经网络的损失值小于预设损失阈值。
171.自编码器的训练流程如下：假设输入数据为x，将其输入自编码器，其输出值表示为f(x),则训练目的是使得||x-f(x)||达到最小，即：对于输入数据x，我们希望自编码器的输出f(x)就是x。输入人脸三维表面网格，通过一个训练好的自编码器可以得到相应的特征。自编码器中的编码部分是由若干组卷积层、正则化层和跳层连接组成，而解码部分则是由相对应的若干组反卷积层、正则化层和跳层连接组成。
172.同时，通过真实人脸三维面部数据引入第二损失，结合第一损失与第二损失得到整个模型的当次训练迭代中的总体损失，基于总体损失对下一次迭代过程中的参数进行调整，提高模型训练的效率和准确性。
173.作为一种可实现的方式，整个模型的训练采用端到端的训练过程，其中的损失计算步骤为：
174.假设模型输入为三维面部数据x和音频，输出为和音频相对应的三维表面网格顶点位置信息而和音频对应的真实三维表面网格顶点位置信息是(y1,y2,
…
,yn),则该部分l1损失为：
[0175][0176]
由输入x,将其输入自编码器的编码模块，得到特征(z1,z2,
…
,zm),以及输入x和音频，得到特征融合网络的输出则该部分l2损失为：
[0177][0178]
作为一种可实现的方式，所述训练方法还包括：
[0179]
获取样本表情数据；
[0180]
其中，所述样本表情数据包括设置表情标签的真实三维面部数据，所述真实三维面部数据表征与所述样本音频数据处于同一时间帧的三维面部数据；
[0181]
获取所述样本表情数据中的表情特征；
[0182]
其中，所述表情特征包括预设面部区域的所述节点信息；
[0183]
以所述样本面部特征、所述样本音频特征和表情特征的第二拼接特征作为输入，以样本三维面部数据作为输出，对预设卷积神经网络进行训练得到图像处理模型。
[0184]
在本方案中，进一步增加表情特征的获取，基于表情特征的输入能够提高模型输出的目标面部三维网格数据更为准确和生动。
[0185]
本实施例提供的一种图像处理模型的训练方法，通过图卷积神经网络获取面部特征和多层次处理得到音频特征，以面部特征和音频特征的拼接特征为输入，样本三维面部数据为输出，通过卷积神经网络的训练，得到的图像处理模型具有更高的精度、泛用性和鲁
棒性。并通过计算融合特征的融合损失和样本三维面部数据的生成损失，精细化模型训练的调整，提高模型训练的效率和准确性。
[0186]
实施例2
[0187]
本实施例提供一种面部图像的处理方法，如图5所示，所述处理方法包括：
[0188]
s201、获取目标音频数据和待处理面部图像；
[0189]
s202、获取所述目标音频数据的目标音频特征，以及待处理面部图像的目标面部特征；
[0190]
s203、将所述目标音频特征和所述目标图像特征输入图像处理模型，得到对应的目标三维面部数据；
[0191]
其中，所述图像处理模型基于实施例1所述的图像处理模型的训练方法得到。
[0192]
在本方案中，提取目标音频数据和待处理处理面部图像的音频特征和的面部特征，输入图像处理模型，得到基于音频特征预测的待处理面部图像的目标三维面部图像数据，实现音频数据对待处理面部图像的驱动。
[0193]
本实施例提供的面部图像的处理方法，基于实施例1训练得到的图像处理模型并能泛用于不同的面部图像，通过面部图像表现音频内容，准确驱动面部图像的口型和表情，实现音频对待处理面部图像的精准、生动的驱动。
[0194]
实施例3
[0195]
本实施例提供一种图像处理模型的训练系统100，如图6所示，所述训练系统100包括样本获取模块101、图像处理模块102、音频处理模块103和模型训练模块104；
[0196]
所述样本获取模块101，用于获取原始三维面部数据和若干样本音频数据；
[0197]
所述图像处理模块102，用于提取所述原始三维面部数据的样本面部特征；其中，所述样本面部特征用于表征若干面部区域中节点的节点特征信息和不同所述节点之间的拓扑关系的关系特征信息；
[0198]
所述音频处理模块103，用于获取所述样本音频数据的样本音频特征；其中，基于所述样本音频特征调整所述样本面部特征，以得到对应的样本三维面部数据；
[0199]
所述模型训练模块104，用于以每组的所述样本面部特征与所述样本音频特征作为输入，对应的所述样本三维面部数据作为输出，对预设网络进行训练，以得到所述图像处理模型。
[0200]
作为一种可实现的方式，所述音频处理模块103包括音频识别单元和样本音频特征提取单元；
[0201]
所述音频识别单元，用于识别得到所述样本音频数据中的表达特征；
[0202]
其中，所述表达特征用于表征所述样本音频数据中的人声特征信息；
[0203]
所述样本音频特征提取单元，用于从所述表达特征中提取得到所述样本音频特征。
[0204]
作为一种可实现的方式，所述样本音频特征提取单元还用于将所述样本音频数据输入预设音频识别模型，输出第一输出特征；
[0205]
所述第一输出特征包括频谱特征和/或语义特征，将所述第一输出特征作为所述表达特征；
[0206]
和/或，
[0207]
所述样本音频特征提取单元，还用于将所述表达特征输入预设音频特征提取模型，输出第二输出特征；
[0208]
所述第二输出特征包括频率、振幅和共振峰中的至少一种特征；
[0209]
将所述第二输出特征作为所述样本音频特征。
[0210]
作为一种可实现的方式，所述音频处理模块103还包括标签单元；
[0211]
所述标签单元，用于对所述样本音频特征设置基于所述样本音频数据的音源属性标签；
[0212]
所述样本音频特征提取单元，还用于基于所述音源属性标签对所述样本音频特征进行更新，基于更新后的所述样本音频特征，更新得到新的所述图像处理模型。
[0213]
作为一种可实现的方式，所述模型训练模块104包括拼接单元、融合单元、计算损失单元和迭代处理单元；
[0214]
所述拼接单元，用于将所述样本面部特征与所述样本音频特征拼接得到第一拼接特征
[0215]
所述融合单元，用于将所述第一拼接特征输入第一预设卷积神经网络，以输出融合特征；
[0216]
所述计算损失单元，用于计算所述融合特征的第一损失值和/或所述样本三维面部数据的第二损失值，将所述第一损失值和/或所述第二损失值作为目标损失值；
[0217]
所述迭代处理单元，用于若所述目标损失值不符合预设收敛条件，则返回所述获取所述样本面部特征和所述样本音频特征步骤进行迭代训练；
[0218]
若所述目标损失值符合所述预设收敛条件，则保存将最新得到的模型作为最终的所述图像处理模型。
[0219]
作为一种可实现的方式，所述样本获取模块101还用于获取与所述样本音频数据处于同一时间帧的真实三维面部数据；
[0220]
所述计算损失单元，还用于将所述真实三维面部数据输入预设自编码器，得到校验特征数据；
[0221]
基于所述融合特征与所述校验特征数据计算得到所述第一损失值；和/或，
[0222]
基于所述真实三维面部数据与所述样本三维面部数据计算得到所述第二损失值。
[0223]
作为一种可实现的方式，所述音频处理模块还包括权重处理单元；
[0224]
所述权重处理单元，用于将所述表达特征作为输入，所述表达特征中若干第一输出特征与所述样本面部特征的关联权重作为输出，对第二预设卷积神经网络进行训练；
[0225]
其中，所述第二预设卷积神经网络基于所述第一损失值进行迭代训练；
[0226]
选取关联权重大于预设权重阈值的所述待处理特征作为所述样本音频特征。
[0227]
作为一种可实现的方式，所述训练系统还包括表情特征模块；
[0228]
所述样本获取模块101，还用于获取样本表情数据；
[0229]
其中，所述样本表情数据包括设置表情标签的真实三维面部数据，所述真实三维面部数据表征与所述样本音频数据处于同一时间帧的三维面部数据；
[0230]
所述表情特征模块，用于获取所述样本表情数据中的表情特征；
[0231]
所述模型训练模块104，还用于以所述样本面部特征、所述样本音频特征和表情特征的第二拼接特征作为输入，以样本三维面部数据作为输出，对预设卷积神经网络进行训
练得到图像处理模型。
[0232]
需要说明的是，本实施例的图像处理模型的训练系统100的工作原理与实施例1中的图像处理模型的训练方法的工作原理相同，因此在此不再赘述。
[0233]
本实施例提供的图像处理模型的训练系统，通过图卷积神经网络获取面部特征和多层次处理得到音频特征，以面部特征和音频特征的拼接特征为输入，样本三维面部数据为输出，通过卷积神经网络的训练，得到的图像处理模型具有更高的精度、泛用性和鲁棒性。并通过计算融合特征的融合损失和样本三维面部数据的生成损失，精细化模型训练的调整，提高模型训练的效率和准确性。
[0234]
实施例4
[0235]
本实施例提供一种面部图像的处理系统200，如图7所示，所述处理系统包括数据获取模块201、特征提取模块202、数据处理模块203和图像驱动模块204；
[0236]
所述数据获取模块201，用于获取目标音频数据和待处理面部图像；
[0237]
所述特征提取模块202，用于获取所述目标音频数据的目标音频特征，以及待处理面部图像的目标面部特征；
[0238]
所述数据处理模块203，用于将所述目标音频特征和所述目标面部特征输入图像处理模型，得到对应的目标三维面部数据；
[0239]
其中，所述图像处理模型基于实施例3所述的图像处理模型的训练系统得到；
[0240]
所述图像驱动模块204，用于将所述待处理面部图像基于所述目标三维面部数据调整，得到目标面部图像。
[0241]
需要说明的是，本实施例的面部图像的处理系统200的工作原理与实施例2中的面部图像的处理方法的工作原理相同，因此在此不再赘述。
[0242]
本实施例提供的面部图像的处理系统，基于实施例3训练得到的图像处理模型并能泛用于不同的面部图像，通过面部图像表现音频内容，准确驱动面部图像的口型和表情，实现音频对待处理面部图像的精准、生动的驱动。
[0243]
实施例5
[0244]
如图8所示，为本发明实施例5提供的一种电子设备的结构示意图。包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现前述实施例1的图像处理模型的训练方法；或者，实施例2的面部图像的处理方法。图8显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0245]
电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
[0246]
总线33包括数据总线、地址总线和控制总线。
[0247]
存储器32可以包括易失性存储器，例如随机存取存储器(ram)321和/或高速缓存存储器322，还可以进一步包括只读存储器(rom)323。
[0248]
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0249]
处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及
数据处理，例如本发明实施例1的图像处理模型的训练方法；或者，实施例2的面部图像的处理方法。
[0250]
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
[0251]
应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0252]
实施例6
[0253]
本发明还提供一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例1的图像处理模型的训练方法；或者，实施例2的面部图像的处理方法。
[0254]
其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
[0255]
在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例1的图像处理模型的训练方法；或者，实施例2的面部图像的处理方法。
[0256]
其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
[0257]
虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

技术特征：
1.一种图像处理模型的训练方法，其特征在于，所述训练方法包括：获取原始三维面部数据和若干样本音频数据；提取所述原始三维面部数据的样本面部特征；其中，所述样本面部特征用于表征若干面部区域中节点的节点特征信息和不同所述节点之间的拓扑关系的关系特征信息；获取所述样本音频数据的样本音频特征；基于所述样本音频特征调整所述样本面部特征，以得到对应的样本三维面部数据；以每组的所述样本面部特征与所述样本音频特征作为输入，对应的所述样本三维面部数据作为输出，对预设网络进行训练，以得到所述图像处理模型。2.根据权利要求1所述的图像处理模型的训练方法，其特征在于，所述获取所述样本音频数据的音频特征的步骤包括：识别得到所述样本音频数据中的表达特征；其中，所述表达特征用于表征所述样本音频数据中的人声特征信息；从所述表达特征中提取得到所述样本音频特征。3.根据权利要求2所述的图像处理模型的训练方法，其特征在于，所述识别所述样本音频数据的表达特征的步骤包括：将所述样本音频数据输入预设音频识别模型，输出第一输出特征；所述第一输出特征包括频谱特征和/或语义特征，将所述第一输出特征作为所述表达特征；和/或，所述提取所述表达特征中的所述样本音频特征的步骤包括：将所述表达特征输入预设音频特征提取模型，输出第二输出特征；所述第二输出特征包括频率、振幅和共振峰中的至少一种特征；将所述第二输出特征作为所述样本音频特征。4.根据权利要求2所述的图像处理模型的训练方法，其特征在于，所述训练方法还包括：对所述样本音频特征设置基于所述样本音频数据的音源属性标签；基于所述音源属性标签对所述样本音频特征进行更新，基于更新后的所述样本音频特征，更新得到新的所述图像处理模型。5.根据权利要求1-4中任一项所述的图像处理模型的训练方法，其特征在于，所述以每组的所述样本面部特征与所述样本音频特征作为输入，对应的所述样本三维面部数据作为输出，对预设网络进行训练，以得到所述图像处理模型的步骤包括：将所述样本面部特征与所述样本音频特征拼接得到第一拼接特征；将所述第一拼接特征输入第一预设卷积神经网络，以输出融合特征；计算所述融合特征的第一损失值和/或所述样本三维面部数据的第二损失值，将所述第一损失值和/或所述第二损失值作为目标损失值；若所述目标损失值不符合预设收敛条件，则返回所述获取所述样本面部特征和所述样本音频特征步骤进行迭代训练；若所述目标损失值符合所述预设收敛条件，则保存将最新得到的模型作为最终的所述
图像处理模型。6.根据权利要求5所述的图像处理模型的训练方法，其特征在于，所述训练方法还包括：获取与所述样本音频数据处于同一时间帧的真实三维面部数据；所述计算所述融合特征的第一损失值和/或所述样本三维面部数据的第二损失值的步骤包括：将所述真实三维面部数据输入预设自编码器，得到校验特征数据；基于所述融合特征与所述校验特征数据计算得到所述第一损失值；和/或，基于所述真实三维面部数据与所述样本三维面部数据计算得到所述第二损失值。7.根据权利要求5所述的图像处理模型的训练方法，其特征在于，所述提取所述表达特征中的所述样本音频特征的步骤包括：将所述表达特征作为输入，所述表达特征中若干第一输出特征与所述样本面部特征的关联权重作为输出，对第二预设卷积神经网络进行训练；其中，所述第二预设卷积神经网络基于所述第一损失值进行迭代训练；选取关联权重大于预设权重阈值的所述第一输出特征作为所述样本音频特征。8.根据权利要求1所述的图像处理模型的训练方法，其特征在于，所述训练方法还包括：获取样本表情数据；其中，所述样本表情数据包括设置表情标签的真实三维面部数据，所述真实三维面部数据表征与所述样本音频数据处于同一时间帧的三维面部数据；获取所述样本表情数据中的表情特征；其中，所述表情特征包括预设面部区域的所述节点信息；以所述样本面部特征、所述样本音频特征和表情特征的第二拼接特征作为输入，以所述样本三维面部数据作为输出，对预设卷积神经网络进行训练得到所述图像处理模型。9.一种面部图像的处理方法，其特征在于，所述处理方法包括：获取目标音频数据和待处理面部图像；获取所述目标音频数据的目标音频特征，以及待处理面部图像的目标面部特征；将所述目标音频特征和所述目标图像特征输入图像处理模型，得到对应的目标三维面部数据；其中，所述图像处理模型基于权利要求1-8任一项所述的图像处理模型的训练方法得到。10.一种图像处理模型的训练系统，其特征在于，所述训练系统包括样本获取模块、图像处理模块、音频处理模块和模型训练模块；所述样本获取模块，用于获取原始三维面部数据和若干样本音频数据；所述图像处理模块，用于提取所述原始三维面部数据的样本面部特征；其中，所述样本面部特征用于表征若干面部区域中节点的节点特征信息和不同所述节点之间的拓扑关系的关系特征信息；所述音频处理模块，用于获取所述样本音频数据的样本音频特征；其中，基于所述样本音频特征调整所述样本面部特征，以得到对应的样本三维面部数据；
所述模型训练模块，用于以每组的所述样本面部特征与所述样本音频特征作为输入，对应的所述样本三维面部数据作为输出，对预设网络进行训练，以得到所述图像处理模型。11.一种面部图像的处理系统，其特征在于，所述处理系统包括数据获取模块、特征提取模块、数据处理模块和图像驱动模块；所述数据获取模块，用于获取目标音频数据和待处理面部图像；所述特征提取模块，用于获取所述目标音频数据的目标音频特征，以及待处理面部图像的目标面部特征；所述数据处理模块，用于将所述目标音频特征和所述目标面部特征输入图像处理模型，得到对应的目标三维面部数据；其中，所述图像处理模型基于权利要求10所述的图像处理模型的训练系统得到；所述图像驱动模块，用于将所述待处理面部图像基于所述目标三维面部数据调整，得到目标面部图像。12.一种电子设备，包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现如权利要求1-8中任一项所述的图像处理模型的训练方法；或，实现如权利要求9所述的面部图像的处理方法。13.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的图像处理模型的训练方法；或，实现如权利要求9所述的面部图像的处理方法。

技术总结
本发明公开了一种图像处理模型训练、处理方法、系统、设备及其介质。该模型的训练方法包括：获取原始三维面部数据和若干样本音频数据；提取原始三维面部数据的样本面部特征；获取样本音频数据的样本音频特征；基于样本音频特征调整样本面部特征，以得到对应的样本三维面部数据；以每组的样本面部特征与样本音频特征作为输入，对应的样本三维面部数据作为输出，对预设网络进行训练，以得到图像处理模型。通过图卷积神经网络获取面部特征和多层次处理得到音频特征，通过卷积神经网络的训练，得到的图像处理模型具有更高的精度、泛用性和鲁棒性。计算融合特征的融合损失和样本三维面部数据的生成损失，提高模型训练的效率和准确性。性。性。

技术研发人员：虞钉钉徐清王晓梅沈伟林沈旭立曹培
受保护的技术使用者：华院计算技术（上海）股份有限公司
技术研发日：2023.05.18
技术公布日：2023/8/14

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种防水复合牛皮纸生产加工系统的制作方法 下一篇：密码输入方法、装置、密码输入系统及存储介质与流程

图像处理模型训练、处理方法、系统、设备及其介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

图像处理模型训练、处理方法、系统、设备及其介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表