无约束人脸表情合成和识别方法及系统与流程
未命名
08-13
阅读:237
评论:0
1.本发明属于图像处理技术领域,尤其涉及无约束人脸表情合成和识别方法及系统。
背景技术:
2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.人脸表情识别是计算机视觉领域中的一个重要分支,它在医学诊断、疲劳监测和人机交互等应用中发挥着至关重要的作用。然而,由于人脸的外观十分容易受到光照、遮挡以及无约束成像环境因素(如传感器噪声,低分辨率和运动模糊等)的影响,自然环境下的人脸表情识别仍是一个巨大的挑战。
4.传统的人脸表情识别方法主要手段是设计合适的手工特征,如局部二值模式(local binary pattern,lbp)、梯度方向直方图(histogram of gradients,hog)和尺度不变特征变换(scale-invariant feature transform,sift)等,但是这些特征难以克服人脸外观变化带来的干扰,在自然环境下不能得到令人满意的表情识别性能。
5.近年来,基于深度学习的方法在计算机视觉领域取得了非常优秀的成果,这主要得益于深度神经网络的强大的特征表示能力和可利用的大规模训练数据。然而,现有的大部分人脸表情数据集都比较小,如自然环境数据集sfew仅包含1394张图像,它不能涵盖多种无约束成像环境因素引起的自然变化,其数据量也无法支撑深度神经网络的训练,十分容易产生过拟合的问题,难以得到较好的表情识别性能。
6.解决上述问题的一种方案是构建一个大规模的无约束人脸表情数据集,然而一个包含数万个甚至几十万个身份的数据集收集起来非常困难,既会涉及到隐私问题,又会涉及到劳动力成本问题。另一个解决方案是开发一个人脸表情图像生成模型,生成具有所需属性的人脸表情图像,并用这些图像来扩充表情数据集。近年来,基于生成对抗网络的图像合成方法在人脸合成、图像翻译和语义操纵等领域取得了非常优秀的成果,一些研究学者提出使用基于生成对抗网络的方法设计人脸表情合成模型,将人脸中的语义信息进行分离,控制显式面部属性(姿势,表情,发色和肤色等),以生成逼真的高质量的表情图像。
7.zhang等人提出使用人脸几何信息来引导人脸表情图像的合成,它通过一组人脸标志点传递几何信息,进而将人脸身份特征与表情以及姿势特征明确分离,可以在保持身份信息不变的情况下合成其他姿势和其他表情的新表情图像。stargan将多种表情视为多个域,并且仅使用单个模型就可执行多个域的图像到图像的转换,可以在身份信息不变的情况改变人脸的表情类别。zhang等人将不同的表情在潜在空间中以解纠缠的方式编码,通过交换潜在空间中一部分特征来实现交换两张人脸图像的表情,合成的人脸表情图像也十分逼真。
8.这些方法都可以控制显式面部属性,从而为表情训练数据集生成额外的数据。然而,这些表情合成方法侧重于高质量的人脸表情合成,它们可以对人脸的姿态和表情等显
式面部属性信息进行更改,最后合成十分逼真的人脸表情图像。但对于人脸表情识别来说,在现实生活中应用时,输入的人脸表情图像往往是无约束的,可能分辨率比较低,也可能图像中存在固有的传感器噪声以及运动模糊,图像质量一般都不会太高。如果只使用这类高质量的图像去扩充数据集,并不能使数据集涵盖以上无约束因素引起的多种自然变化,这样扩充后的数据集训练出的表情识别模型也并不能适应于复杂的现实环境中。
技术实现要素:
9.为克服上述现有技术的不足,本发明提供了无约束人脸表情合成和识别方法,能提升自然环境下的人脸表情识别性能。
10.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
11.第一方面,公开了无约束人脸表情合成和识别方法,包括:
12.表情合成步骤:捕捉无约束人脸数据集图像中的无约束风格属性,实现从一个人脸表情图像到一组风格转换图像的条件映射;
13.内容一致性步骤:在对人脸表情图像进行风格转换时,保持人脸表情图像中的内容信息不被改变,保证内容一致性;
14.表情识别步骤:对生成的风格转换图像进行表情分类,分类产生的损失反馈到生成器,然后生成器不再执行盲目的数据增强,以合成更利于表情识别性能提升的图像。
15.作为进一步的技术方案,所述表情合成步骤具体实现方式为:
16.将人脸表情图像输入生成器后,通过自适应实例归一化将风格样式向量注入生成器中,得到合成的表情图像;
17.判别器对合成的表情图像和无约束人脸图像区分,进行真假的判别;其中,生成器期望生成的表情图像能够骗过判别器,被判别器判别为真;而判别器期望能够将表情图像区分出来,判别为假。
18.作为进一步的技术方案,所述风格样式向量用于实现从一个图像到一组风格转换图像的条件映射。
19.作为进一步的技术方案,所述内容一致性步骤具体实现方式为:
20.利用风格编码器分别从输入的人脸表情图像和无约束人脸图像提取风格样式向量,然后将提取的风格样式向量注入生成器之中,得到重建图像。
21.作为进一步的技术方案,得到重建图像的过程中,使用重建损失保证图像的内容一致性;
22.其中,重建损失由感知损失和均值平方误差共同构成;
23.感知损失采用从vgg模型中提取的特征来度量图像之间的相似性。
24.作为进一步的技术方案,利用判别器dz使eu的分布能够与先验分布n 0,1匹配;
25.风格样式向量的作用是改变人脸表情图像的风格样式,保证合成的图像与无约束人脸图像拥有相似的无约束风格信息;
26.其中,eu是从无约束人脸图像中提取的风格样式向量。
27.作为进一步的技术方案,表情识别步骤中采用了典型的交叉熵损失函数。
28.第二方面,公开了无约束人脸表情合成和识别系统,包括:
29.表情合成模块:捕捉无约束人脸数据集图像中的无约束风格属性,实现从一个人
脸表情图像到一组风格转换图像的条件映射;
30.内容一致性模块:在于对人脸表情图像进行风格转换时,保持人脸表情图像中的内容信息不被改变,保证内容一致性;
31.表情识别模块:对生成的风格转换图像进行表情分类,分类产生的损失会反馈到生成器,然后生成器不再执行盲目的数据增强,以合成更利于表情识别性能提升的图像。
32.以上一个或多个技术方案存在以下有益效果:
33.本发明使用了无约束人脸表情合成,将人脸表情合成的焦点聚集在图像的无约束风格上,而不再追求图像的高质量和逼真性。具体来说,给定一个小型的表情数据集x和一个额外的大规模无约束人脸数据集u,无约束人脸表情合成模型被训练来发现数据集u的无约束风格属性,并将这些属性引入到数据集x之中。在生成对抗训练过程中,无约束人脸表情合成模型试图捕捉数据集u在风格潜在空间中的属性,在引入一组风格样式向量z~n 0,1作为条件后,将数据集x中的表情图像进行从一个图像到一组风格转换图像的条件映射,最终合成具有无约束风格的新表情图像。
34.与此同时,在人脸表情合成模型之后嵌入人脸表情识别模型,进行端到端的人脸表情合成和识别。表情合成模型合成新的表情图像扩充数据集,以提升表情识别模型的性能;表情识别模型将识别结果反馈于表情合成模型,这样表情合成模型不再盲目的执行数据增强,可以合成更有利于表情识别性能提升的图像。两个模型中的自由参数可以通过特定于任务的损失来共同适应和协作,以促进彼此性能的提升。
35.本发明使用了端到端的结构,将表情合成任务和表情识别任务相结合,在一个模型中同时进行,两个任务相互协作,共同促进性能的提升。
36.本发明合成无约束风格的表情图像,保证在图像的合成中内容信息不变,对合成的图像进行分类识别。本发明合成具有无约束风格的表情图像,合成的图像涵盖无约束成像因素引起的多种自然变化,包括不同的噪声、分辨率和运动模糊等。
37.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
38.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
39.图1为本发明实施例无约束人脸表情合成和识别示意图;x表示人脸表情数据集图像,u表示无约束的人脸数据集图像。g表示生成器,e表示风格编码器,dimg是图像判别器,dz是风格判别器,fer表示人脸表情识别模块。
40.图2为本发明实施例raf-db数据集图像;
41.图3为本发明实施例widerface数据集图像;
42.图4人脸表情合成图像;第一列是人脸表情数据集x中的图像,其他列是在风格样式向量z~n0,1作用下生成的图像,其中每一列的风格样式向量相同。
43.图5消融实验的表情合成图像。(a)是指人脸表情数据集x中的图像,(b)是在不使用风格样式向量时生成的图像,用no_style表示;(c)是不使用重建损失和判别器dz时生成的图像,用no_rec+dz表示;(d)是不使用判别器dz时生成的图像,用no_dz表示;(e)是不使
用端到端的结构时生成的图像,用no_end_to_end表示;(f)是本文的方法生成的图像。
具体实施方式
44.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
45.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
46.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
47.实施例一
48.本实施例公开了无约束人脸表情合成和识别方法,如图1所示:
49.构建两个数据集:
50.数据集x=x1,y1,x2,y2,
…
,xi,yi,
…
,xn,yn是一个人脸表情数据集,其中yi是xi的表情标签。人脸表情数据集x缺少无约束成像环境因素引起的多种自然变化。
51.无约束人脸数据集u=u1,u2,
…
,ui,
…
,un是一个较大规模的包含多种无约束成像因素的数据集,它涵盖多种无约束因素引起的自然变化,本文希望将这些自然变化引入到数据集x之中。
52.表情合成步骤:
53.如图1中的(a)所示,将人脸表情图像x输入生成器g后,通过自适应实例归一化(adain)将风格样式向量z~n 0,1注入生成器g中,得到合成的表情图像g x,z。风格样式向量z在这里作为条件,实现从一个图像x到一组风格转换图像g x,z的条件映射。判别器d
img
会对g x,z和无约束人脸图像u区分,进行真假的判别。这会产生一个对抗的过程:生成器g期望生成的g x,z能够骗过判别器d
img
,被d
img
判别为真;而判别器d
img
期望能够将g x,z区分出来,判别为假。对抗损失函数为:
[0054][0055][0056]
其中,x表示人脸表情图像,x表示人脸表情数据集,u表示无约束人脸图像,u表示无约束人脸数据集,d
img
表示判别器,g表示生成器,z表示风格样式向量。
[0057]
内容一致性处理步骤:
[0058]
生成器g和判别器d
img
之间的对抗学习能够保证合成图像g x,z的风格样式信息被改变。当对抗训练达到平衡时,d
img
认为合成图像g x,z的数据分布和无约束人脸图像u的数据分布是匹配的。但是这会出现一个问题:风格样式向量z注入生成器g后是否只改变了表情图像x的风格样式信息,表情图像x中的人脸身份和表情等内容信息是否被完整地保留。为了解决上述问题,本实施例子增加了一个风格编码器e和第二个判别器dz,如图1中的(b)和(c)所示。
[0059]
在图1中的(b)和(c)中,风格编码器e分别从输入的人脸表情图像x和无约束人脸
图像u提取风格样式向量e x和e u,然后将e x和e u注入生成器g之中,得到重建图像g x,e x和g u,e u。为了保证图像的内容一致性,本实施例子使用了重建损失。重建损失由感知损失(perceptual loss,pl)和均值平方误差(mean squared error,mse)共同构成。这里,感知损失采用从vgg模型中提取的特征来度量图像之间的相似性,感知损失函数为:
[0060][0061]
其中,f.是指的vgg特征提取模型。其中,x表示人脸表情图像,x表示人脸表情数据集,u表示无约束人脸图像,u表示无约束人脸数据集,g表示生成器,f表示vgg特征提取模型,e表示风格编码器。
[0062]
均值平方误差损失函数为:
[0063][0064]
其中,x表示人脸表情图像,x表示人脸表情数据集,u表示无约束人脸图像,u表示无约束人脸数据集,g表示生成器,e表示风格编码器。
[0065]
在图1的(c)中,除了风格编码器e之外,还有一个判别器dz,其作用是使e u的分布能够与先验分布n 0,1匹配。风格样式向量z~n 0,1的作用是改变人脸表情图像x的风格样式,保证合成的图像g x,z与无约束人脸图像u拥有相似的无约束风格信息。而e u正是从无约束人脸图像u中提取的风格样式向量,如果风格样式向量z的分布和e u的分布不是匹配的,则不能保证使用风格样式向量z合成的图像g x,z与无约束人脸图像u拥有相似的无约束风格。
[0066]
这是无约束人脸表情合成和识别模型的第二个对抗过程,对抗损失函数如下:
[0067][0068][0069]
其中,u表示无约束人脸图像,u表示无约束人脸数据集,dz表示风格判别器,e表示风格编码器,z表示风格样式向量。
[0070]
表情识别步骤:
[0071]
利用表情识别模型fer对人脸表情图像进行表情分类。在端到端的系统中,其分类产生的损失不仅用于优化fer网络模型的参数,还会反馈于生成器g。表情识别模型fer采用了典型的交叉熵损失函数(cross entropy loss,cel):
[0072][0073]
其中,x表示人脸表情图像,y是表情图像x的表情标签,x表示人脸表情数据集,z表示风格样式向量,g表示生成器,fer表示表情识别模型。
[0074]
综上所述,对于生成器g、风格编码器e和表情识别模型fer,其总的目标损失函数为:
[0075][0076]
其中,λ1、λ2、λ3、λ4和λ5是权重参数。
[0077]
无约束人脸表情合成,将表情合成的焦点聚集在图像的无约束风格上,而不再追求图像的高质量和逼真性。最终合成具有无约束风格的人脸表情图像,这些图像涵盖更多的自然变化,更能提升自然环境下的人脸表情识别性能。
[0078]
基于端到端的人脸表情合成和识别,表情合成可以扩充数据集提升表情识别性能,而表情识别可以反过来引导表情合成,两个任务组合在一起,共同适应和协作,互相提升彼此的性能。
[0079]
实施例二
[0080]
本实施例的目的是提供一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
[0081]
实施例三
[0082]
本实施例的目的是提供一种计算机可读存储介质。
[0083]
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
[0084]
实施例四
[0085]
本实施例的目的是提供无约束人脸表情合成和识别系统,包括:
[0086]
表情合成模块:捕捉无约束人脸数据集图像中的无约束风格属性,实现从一个人脸表情图像到一组风格转换图像的条件映射;
[0087]
内容一致性模块:在于对人脸表情图像进行风格转换时,保持人脸表情图像中的内容信息不被改变,保证内容一致性;
[0088]
表情识别模块:对生成的风格转换图像进行表情分类,分类产生的损失会反馈到生成器,然后生成器不再执行盲目的数据增强,以合成更利于表情识别性能提升的图像。
[0089]
具体的,表情合成模块由生成器g和判别器d
img
构成,主要作用是捕捉无约束人脸数据集图像u中的无约束风格属性,实现从一个图像x到一组风格转换图像g x,z的条件映射。内容一致性模块由风格编码器e和判别器dz构成,它的目标在于对人脸表情图像x进行风格转换时,保持x中的内容信息不被改变,保证内容一致性。表情识别模块由表情识别模型fer构成,它会对生成的表情图像g x,z进行表情分类,分类产生的损失会反馈到生成器g,然后g不再执行盲目的数据增强,进而合成更利于表情识别性能提升的图像。下面根据三个模块详细介绍无约束人脸表情合成和识别流程。
[0090]
实验
[0091]
数据集
[0092]
在实验中,需要两类数据集:人脸表情数据集x和无约束人脸数据集u。其中,人脸表情数据集x使用的是raf-db数据集,无约束人脸数据集u使用的是widerface数据集。
[0093]
(1)raf-db数据集
[0094]
raf-db数据集是一个自然环境下的人脸表情数据集,总共有29,672张图像,并且使用基本表情或复合表情所标注,如图2所示。其中,15,339张图像被7种基本表情标注:愤
怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。在本文实验中,使用了被7种基本表情标注的表情图像,其中12,271张图像用于训练和3,068张图像用于测试。
[0095]
(2)widerface数据集
[0096]
widerface数据集是一个人脸检测数据集,是通过从搜索引擎中检索具有不同事件关键字的图像收集的。它包含了一组多样性更高的人脸,人脸图像中包含多种的噪声和分辨率,如图3所示。
[0097]
widerface数据集中的许多人脸仍然无法被先进的检测方法检测到。本实施例子只保留可检测到的人脸作为训练数据,大约70000张人脸图像。
[0098]
应用例子:首先,将人脸表情图进行像进行预处理,图像大小调整为112
×
112;然后,在包含gpu的机器上部署模型,安装好pytorch工具箱,并将预处理后的图像输入模型之中,进行模型的训练;最后训练完成后,可得到合成的表情图像,以及对输入图像的表情类别预测。
[0099]
实验设置
[0100]
(1)网络结构
[0101]
表情识别模块fer采用的是resnet18网络,并将resnet18的预测层数改为表情类别数。fer首先在imagenet上进行预训练,再将预训练的fer嵌入到表情合成模块之后。
[0102]
表情合成模块涉及到的网络模型有生成器g和判别器d
img
,内容一致性模块涉及到的网络模型有风格编码器e和判别器dz。为了保持图像的几何结构,本实施例子的生成器g不涉及任何下采样或上采样。判别器d
img
,判别器dz和风格编码器e的网络模型结构如表1所示。
[0103]
表1网络结构
[0104][0105]
k表示卷积核的大小,f表示滤波器的个数,s表示步长,fc表示全连接层。
[0106]
(2)训练过程
[0107]
本实施例子提出的方法是基于pytorch v1.6实现的。其中,pytorch工具箱中提供了多种构造好的cnn基础网络模型,并提供了基于imagenet数据集进行预训练的网络模型参数,可以直接进行模型的加载。本方案直接从pytorch工具箱中加载resnet18模型作为表情识别模块fer。在训练开始之前,使用人脸检测算法剪裁出包含68个面部标志点的表情图像,并将其大小调整为112
×
112。在公式(2-8)中,权重参数λ1=1,λ2=10,λ3=10,λ4=1,λ5=0.2。在训练模型时,使用adam优化器,β1=0.5,β2=0.99,学习率为0.0001,模型总共训练150000次步骤,mini-batch大小设置为16。
[0108]
实验结果
[0109]
(1)人脸表情合成结果
[0110]
人脸表情合成结果如图4所示,本实施例子方案提出的模型能够以不同的模糊和照明风格合成新的表情图像。在不同的风格样式向量z~n 0,1作用下,合成的图像拥有不同的噪声和分辨率,涵盖了更多的自然变化,可以明显地增加人脸表情数据集x的丰富性。在图4中,合成图像的风格明显是无约束的,但是图像的内容信息被完全保留,表情、姿态和身份都没有被改变。这些合成的图像不是高质量的,也不是逼真的,但是为人脸表情数据集x增加了许多无约束成像环境因素,进而使得人脸表情数据集x训练出的表情识别模型更加适应无约束成像环境,得到更好的表情识别性能。在图4中,本实施例子合成的图像达到了无约束人脸表情合成的目标。
[0111]
(2)表情识别结果
[0112]
将本方案提出的模型的表情识别结果与先进的人脸表情识别算法进行比较,结果如表2所示。对于resnet18和vgg16,训练时先在imagenet上进行预训练,然后再在raf-db数据集上微调,最后得到它们的表情识别准确率。对于stargan,本方案首先训练stargan以生成新的表情图像,然后将这些图像扩充表情数据集,再使用扩充的表情数据集训练resnet18,以得到表情识别的准确率。
[0113]
从表2中可以看出,本方案提出的模型取得了最高的准确率87.35%,比vgg16模型高出6.91%,比resnet18高出2.77%。与其他先进的人脸表情识别算法相比,本方案的方法高出了0.39%-4.72%,这充分证明了本方案方法的优越性。与stargan相比,本方案的方法高出了2.47%,这表明本方案的模型拥有更好的表情识别性能。
[0114]
表2表情识别结果
[0115]
[0116][0117]
消融实验
[0118]
为了验证本方案提出的模型各个模块的有效性,进行了消融实验研究。no_style表示不使用风格样式向量z。由于风格编码器e是用来提取图像的风格样式向量e u,判别器dz是用来判断e u的分布与风格样式向量z是否匹配,因此当不使用风格潜在向量z时,风格编码器e和判别器dz也不再使用。no_rec+dz表示不使用重建损失和判别器dz。no_dz表示不使用判别器dz。no_end_to_end表示不再使用端到端的结构,表情合成和表情识别两个任务分开进行。在进行no_end_to_end实验中,首先将合成的表情图像扩充人脸表情数据集,然后再使用扩充后的数据集训练表情识别模块fer。
[0119]
(1)表情合成结果
[0120]
消融实验的表情合成图像如图5所示。在图5中,(a)是输入的表情图像,(b)是不使用风格样式向量z时合成的图像。在(b)中,由于没有风格样式向量z的注入,对于每张输入的表情图像,只能输出一个定性的模糊的图像,无法像图4中那样输出多种具有不同噪声和分辨率的图像。
[0121]
图5中(c)和(d)是为了验证内容一致性模块的作用,其中(c)和(d)使用了相同的风格样式向量z。在(c)中,没有使用重建损失和判别器dz,可以看出合成的图像出现了清晰的伪影。在(d)中,使用了重建损失,而没有使用判别器dz,但是合成的图像中仍然有清晰的伪影。出现这种问题的原因是,在不使用判别器dz时,通过风格编码器e得到的风格样式向量e u与先验分布n 0,i并不匹配,这会导致风格样式向量z~n 0,i被注入生成器g后不止改变输入图像的风格信息,还会改变图像的内容信息,所以出现了伪影。
[0122]
图5中的(e)是不使用端到端的结构时合成的图像,(f)是使用完整模型时合成的图像,两类图像使用了相同的风格样式向量z,都没有明显的伪影。从(e)和(f)的对比可以看出,即使在相同的风格样式向量z的作用下,两个模型合成的表情图像也是有明显区别的。这表明在端到端的结构中,表情识别模块fer对合成模型进行了引导,所以训练完成之后两个模型合成的图像不同。
[0123]
(2)表情识别结果
[0124]
消融实验的表情识别结果如表3所示。no_style得到的表情识别准确率为84.71%,比本方案的方法降低了2.64%,比resnet18也只高了0.13%。从图5(b)可以看到,在没有风格样式向量z的帮助下,只能合成的定性的模糊图像,这些合成图像的风格十分的
单一,无法涵盖多种噪声和照明情况,所以对表情识别性能的提升十分的有限。
[0125]
no_rec+dz和no_dz的准确率分别是85.50%和85.72%,与本文的方法相比分别降低了1.85%和1.63%。在no_rec+dz和no_dz合成的图像中,都产生了明显的伪影(如图5(c)和(d)),而表情识别结果也说明了表情识别性能的下降,这侧面表明图像伪影对表情识别性能的损害,以及本方案提出模型中的内容一致性模块的重要性。
[0126]
no_end_to_end没有使用端到端的结构,表情合成和表情识别两个任务是分开的,最终得到了86.51%的准确率,与本文的方法相比降低了0.84%。在端到端的结构中,表情识别模块可以引导表情合成模块,表情合成模块合成的表情图像反过来更有利于表情识别模块性能的提升,上述实验结果充分证明了端到端的结构的优越性。
[0127]
表3消融实验的表情识别结果
[0128][0129]
本实施例子中提出了无约束人脸表情合成和识别方法,合成了具有无约束风格的人脸表情图像,这些图像涵盖了更多无约束成像环境因素引起的自然变化,能够增加人脸表情数据集的丰富度,进而使得训练出来的人脸表情识别模型更能适用于无约束的自然环境。与此同时,本文提出的模型采用了端到端的结构,将表情合成和表情识别两个任务进行结合,表情合成任务合成的图像扩充数据集,缓解数据量较少的问题,表情识别任务反过来引导表情合成任务,合成更有利于表情识别性能提升的图像。两个任务相互协助,共同促进性能的体现。多个实验已经证明本文提出的方法在raf-db表情数据集上得到良好的性能。
[0130]
在raf-db数据集和widerface数据集上的实验表明,本发明的方法合成了多种具有无约束风格的表情图像,并且得到了良好的表情识别的性能。
[0131]
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0132]
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0133]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范
围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
技术特征:
1.无约束人脸表情合成和识别方法,其特征是,包括:表情合成步骤:捕捉无约束人脸数据集图像中的无约束风格属性,实现从一个人脸表情图像到一组风格转换图像的条件映射;内容一致性步骤:在对人脸表情图像进行风格转换时,保持人脸表情图像中的内容信息不被改变,保证内容一致性;表情识别步骤:对生成的风格转换图像进行表情分类,分类产生的损失反馈到生成器,然后生成器不再执行盲目的数据增强,以合成更利于表情识别性能提升的图像。2.如权利要求1所述的无约束人脸表情合成和识别方法,其特征是,所述表情合成步骤具体实现方式为:将人脸表情图像输入生成器后,通过自适应实例归一化将风格样式向量注入生成器中,得到合成的表情图像;判别器对合成的表情图像和无约束人脸图像区分,进行真假的判别;其中,生成器期望生成的表情图像能够骗过判别器,被判别器判别为真;而判别器期望能够将表情图像区分出来,判别为假。3.如权利要求1所述的无约束人脸表情合成和识别方法,其特征是,所述风格样式向量用于实现从一个图像到一组风格转换图像的条件映射。4.如权利要求1所述的无约束人脸表情合成和识别方法,其特征是,所述内容一致性步骤具体实现方式为:利用风格编码器分别从输入的人脸表情图像和无约束人脸图像提取风格样式向量,然后将提取的风格样式向量注入生成器之中,得到重建图像。5.如权利要求1所述的无约束人脸表情合成和识别方法,其特征是,得到重建图像的过程中,使用重建损失保证图像的内容一致性;其中,重建损失由感知损失和均值平方误差共同构成;感知损失采用从vgg模型中提取的特征来度量图像之间的相似性。6.如权利要求1所述的无约束人脸表情合成和识别方法,其特征是,利用判别器dz使eu的分布能够与先验分布n 0,1匹配;风格样式向量的作用是改变人脸表情图像的风格样式,保证合成的图像与无约束人脸图像拥有相似的无约束风格信息;其中,eu是从无约束人脸图像中提取的风格样式向量。7.如权利要求1所述的无约束人脸表情合成和识别方法,其特征是,表情识别步骤中采用了典型的交叉熵损失函数。8.无约束人脸表情合成和识别系统,其特征是,包括:表情合成模块:捕捉无约束人脸数据集图像中的无约束风格属性,实现从一个人脸表情图像到一组风格转换图像的条件映射;内容一致性模块:在于对人脸表情图像进行风格转换时,保持人脸表情图像中的内容信息不被改变,保证内容一致性;表情识别模块:对生成的风格转换图像进行表情分类,分类产生的损失会反馈到生成器,然后生成器不再执行盲目的数据增强,以合成更利于表情识别性能提升的图像。9.一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计
算机程序,其特征是,所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行上述权利要求1-7任一所述的方法的步骤。
技术总结
本发明提出了无约束人脸表情合成和识别方法及系统,包括:表情合成步骤:捕捉无约束人脸数据集图像中的无约束风格属性,实现从一个人脸表情图像到一组风格转换图像的条件映射;内容一致性步骤:在对人脸表情图像进行风格转换时,保持人脸表情图像中的内容信息不被改变,保证内容一致性;表情识别步骤:对生成的风格转换图像进行表情分类,分类产生的损失反馈到生成器,然后生成器不再执行盲目的数据增强,以合成更利于表情识别性能提升的图像。以合成更利于表情识别性能提升的图像。以合成更利于表情识别性能提升的图像。
技术研发人员:马昕 翟晓琴 李锐 姜凯 段强
受保护的技术使用者:山东浪潮科学研究院有限公司
技术研发日:2023.02.14
技术公布日:2023/8/9
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种直流充电桩用绝缘监测设备的制作方法 下一篇:基于电阻抗检测的压疮柔性传感器
