基于图卷积网络的表情识别方法和系统
未命名
07-15
阅读:91
评论:0
1.本发明涉及表情识别技术领域,具体涉及一种基于图卷积网络的表情识别方法和系统。
背景技术:
2.情感是人类表达情绪的一种重要方式。它们可以通过改变我们的注意力,察觉能力以及记忆力从而来影响我们的日常生活,帮助我们理解他人的意图。20世纪ekman等专家就通过跨文化调研提出了七类基础表情,分别是生气,害怕,厌恶,开心,悲伤,惊讶以及中立。albert mehrabian等心理学家提出,情感的表达方式中7%是通过语言,38%通过语言的辅助信息,如讲话的节奏,声音频率及语调轮廓等,而55%则是通过面部表情。
3.也就是说,非语言形式的人脸面部表情是最强有力的情感表达方式和推测指标。近年来,随着人工智能与人机交互技术的发展,人脸检测、对齐、识别技术的不断跟进,自动人脸表情分析作为临床心理学、精神病学、认知科学等学术领域中的重要研究工具,在特定测试数据库上取得了良好的效果,有着巨大的商业应用前景,例如:人机交互,虚拟现实,现实增强,智能驾驶,远程医疗(如疼痛估测,自闭症关照,抑郁症识别),课堂状态监测,测谎和娱乐互动。
4.有研究提出构建一个人脸动作单元感知深度网络人脸动作单元dn,通过精心利用预先的知识,即表情引起的外观变化可以分解为一批局部的面部动作单元人脸动作单元,来进行面部表情识别。所提出的人脸动作单元dn由三个连续的模块组成:第一个模块由两层组成,即卷积层和最大值-最小值模块。在第二个模块中,设计了一个人脸动作单元感知的接受场层来搜索超完整表示的子集,每个子集都旨在最好地模拟人脸动作单元的组合;在最后一个模块中,利用多层受限玻尔兹曼机(rbm)来学习分层特征,然后将其连接起来用于最终的表情识别。
5.但是,人脸动作单元之间是相互耦合的,例如,当发生痛苦表情时,人脸动作单元4(眉毛整体低垂),人脸动作单元7(眼睛收缩)和人脸动作单元9(收缩提起鼻子)等相互作用相互影响,独立的识别人脸动作单元来评估表情忽略了其相关性,识别的准确率不高。而且,很多研究都是基于公开标准数据集上进行实验的,这类数据集测试的面部基本都暴露在外,且面部正对前方。当真实场景中,可能会存在遮挡,头部转动等会大幅影响识别的准确率。例如,佩戴口罩的行人,头部易发生转动的儿童。当面部特征较少时,很难准确识别其表情,导致识别准确率进一步下降。
技术实现要素:
6.(一)解决的技术问题
7.针对现有技术的不足,本发明提供了一种基于图卷积网络的表情识别方法和系统,解决了表情识别准确率不高的问题。
8.(二)技术方案
9.为实现以上目的,本发明通过以下技术方案予以实现:
10.一种基于图卷积网络的表情识别方法,所述表情识别方法包括步骤如下:
11.s1、获取人脸信息,基于人脸信息和人脸定位模型,得到与人脸动作单元对应的面部区域信息;
12.s2、基于人脸动作单元对应的面部区域信息和resnet-50网络,得到人脸动作单元信息特征;
13.s3、基于人脸动作单元信息特征和图卷积网络,得到完整的人脸动作单元信息特征;
14.s4、基于完整的人脸动作单元信息特征和表情识别模型,得到对应的情绪状态;
15.其中,图卷积网络是以人脸动作单元为节点,各节点之间的关系程度为边训练构建而成。
16.优选的,所述人脸信息包括:人脸图片和人脸视频;
17.人脸信息为人脸图片时,直接输入人脸定位模型;
18.人脸信息为人脸视频时,先利用opencv将视频转化为帧数据,然后逐帧输入人脸定位模型。
19.优选的,所述人脸信息为人脸视频时,根据所得各帧的人脸动作单元信息特征,计算其平均值,最大值,最小值,标准差,第95%值,第85%值,第75%值,第50%值,第25%值得到每个人脸动作单元的这9个视频特征向量;得到的特征向量展平后输入表情识别模型中评估该视频的情绪状态。
20.优选的,所述人脸动作单元信息特征组成矩阵x,各节点之间的关系程度形成邻接矩阵a;节点vi和vj是相连接时,邻接矩阵a
ij
中的值为1,反之为0;将x和a输入图卷积网络,通过下式输出完整的人脸动作单元信息特征:
[0021][0022]
其中,i是单位矩阵;
[0023]
是的度矩阵;
[0024]
h是每一层的信息特征;
[0025]
σ是非线性激活函数;
[0026]
w是权重参数;
[0027]
l表示图卷积网络的第l层。
[0028]
优选的,所述图卷积网络构建过程中,初始将每个顶点与一阶邻居,二阶邻居,三阶邻居的边设置为1,其余所有的边均设置为0。
[0029]
优选的,所述表情识别模型包括:全连接层、relu层、dropout层和输出层。
[0030]
优选的,所述表情识别模型通过交叉熵损失函数训练,如下式所示:
[0031][0032]
其中,l为交叉熵损失值;
[0033]
为预测的表情;
[0034]
y(i)为实际表情;
[0035]
n为样本数。
[0036]
一种基于图卷积网络的表情识别系统,所述表情识别系统包括:人脸定位模块、信息特征提取模块、完整信息特征获取模块和表情识别模块;
[0037]
所述人脸定位模块用于获取人脸信息,基于人脸信息和人脸定位模型,得到与人脸动作单元对应的面部区域信息;
[0038]
所述信息特征提取模块用于基于人脸动作单元对应的面部区域信息和resnet-50网络,得到人脸动作单元信息特征;
[0039]
所述完整信息特征获取模块用于基于人脸动作单元信息特征和图卷积网络,得到完整的人脸动作单元信息特征;
[0040]
所述表情识别模块用于基于完整的人脸动作单元信息特征和表情识别模型,得到对应的情绪状态;
[0041]
其中,图卷积网络是以人脸动作单元为节点,各节点之间的关系程度为边训练构建而成。
[0042]
优选的,所述人脸动作单元信息特征组成矩阵x,各节点之间的关系程度形成邻接矩阵a;节点vi和vj是相连接时,邻接矩阵a
ij
中的值为1,反之为0;将x和a输入图卷积网络,通过下式输出完整的人脸动作单元信息特征:
[0043][0044]
其中,i是单位矩阵;
[0045]
是的度矩阵;
[0046]
h是每一层的信息特征;
[0047]
σ是非线性激活函数;
[0048]
w是权重参数;
[0049]
l表示图卷积网络的第l层。
[0050]
优选的,所述图卷积网络构建过程中,初始将每个顶点与一阶邻居,二阶邻居,三阶邻居的边设置为1,其余所有的边均设置为0。
[0051]
(三)有益效果
[0052]
本发明提供了一种基于图卷积网络的表情识别方法和系统。与现有技术相比,具备以下有益效果:
[0053]
本发明中,以人脸动作单元为节点,各节点之间的关系程度为边构建图卷积网络,利用图卷积网络训练学习人脸动作单元信息特征与各节点间关系程度的联系,探索潜在的表情特征,能够有效提升表情识别的准确率;并且在面部存在遮挡的情况下,图卷积网络也能根据未被遮挡的人脸动作单元信息特征,以及边的重要性权重,推算出被遮挡的人脸动作单元信息特征,最终输出完整的人脸动作单元信息特征,以此识别出的表情准确率进一步提升。
附图说明
[0054]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0055]
图1为本发明实施例中表情识别方法的流程图;
[0056]
图2为本发明实施例中人脸检测的流程图;
[0057]
图3为本发明实施例中表情识别系统训练过程中训练损失与迭代次数的关系坐标图;
[0058]
图4为本发明实施例中表情识别系统训练过程中测试损失与迭代次数的关系坐标图;
[0059]
图5为本发明实施例中表情识别系统训练过程中训练准确率与迭代次数的关系坐标图;
[0060]
图6为本发明实施例中表情识别系统训练过程中测试准确率与迭代次数的关系坐标图。
具体实施方式
[0061]
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0062]
本技术实施例通过提供一种基于图卷积网络的表情识别方法和系统,解决了表情识别准确率不高的问题。
[0063]
本技术实施例中的技术方案为解决上述技术问题,总体思路如下:
[0064]
本发明实施例中,以人脸动作单元为节点,各节点之间的关系程度为边构建图卷积网络,利用图卷积网络训练学习人脸动作单元信息特征与各节点间关系程度的联系,探索潜在的表情特征,能够有效提升表情识别的准确率;并且在面部存在遮挡的情况下,图卷积网络也能根据未被遮挡的人脸动作单元信息特征,以及边的重要性权重,推算出被遮挡的人脸动作单元信息特征,最终输出完整的人脸动作单元信息特征,以此识别出的表情准确率进一步提升。
[0065]
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0066]
实施例:
[0067]
如图1、图2所示,本发明提供了一种基于图卷积网络的表情识别方法,所述表情识别方法包括步骤如下:
[0068]
s1、将人脸信息输入mediapipe人脸定位模型,实时定位人脸的468个3d面部地标,根据3d面部地标的定位裁剪出与人脸动作单元对应的43个面部区域。
[0069]
s2、将采集的43个面部区域信息输入resnet-50网络中提取其纹理特征,得到256维的特征向量,根据面部特征点的3d坐标和其空间位置,以人脸动作单元为节点v,各节点
之间的关系程度为边,构建图卷积网络。
[0070]
所述边携带的是各节点之间的关系,即权重值;训练过程中,边会随着节点的更新而更新,可以自主的探索未知的人脸动作单元区域的隐性特征。同时,为了让其能更快的朝着正确的方向学习,根据人类的先验知识,表情变化时,临近部位相互关联。例如发生痛苦表情时,眼睛收缩,眉毛皱起,印堂内收。于是,为了能让网络能向loss最小,准确率最高的方向收敛,我们将初始将每个顶点的一阶邻居,二阶邻居,三阶邻居的边设置为1,其余所有的边均设置为0。以此来更好的训练该模型,最终的输出为43维的特征向量,该特征向量就是对应各区域的人脸动作单元信息特征。
[0071]
每个节点v都有自己的信息特征,这里就是resnet-50网络输出的256维的向量。这些节点v的信息特征组成一个n
×
d维的矩阵x,其中,n=43,d=256。各个节点之间的关系程度形成一个n
×
n维的邻接矩阵a,邻接矩阵a是一个43
×
43的矩阵,vi和vj是相连接时,邻接矩阵a
ij
中的值为1,反之则为0。将x和a输入图卷积网络,最终输出43个人脸动作单元信息特征。
[0072]
利用图卷积网络的训练学习,探索潜在的表情特征。
[0073]
s3、图卷积网络构建成功后,即使面部存在遮挡的情况下,所述图卷积网络也能根据未被遮挡的人脸动作单元信息特征,以及边的重要性权重,推算出被遮挡的人脸动作单元信息特征,最终输出也还是43个人脸动作单元信息特征。
[0074][0075]
其中,i是单位矩阵;
[0076]
是的度矩阵,表示从顶点出去的有向边的数量和进入顶点的有向边的数量;
[0077]
h是每一层的信息特征,对于输入层的话,h就是x;
[0078]
σ是非线性激活函数;
[0079]
w是权重参数;
[0080]
l表示图卷积网络的第l层;
[0081]
s4、将得到的43个人脸动作单元信息特征输入到表情识别模型。所述表情识别模型包括:全连接层、relu层、dropout层和输出层。relu激活函数可以使表情识别模型加入非线性因素,提高表情识别模型的表达能力。为了防止训练出来的表情识别模型产生过拟合的现象,所以在模型中添加dropout,它在一定程度上达到正则化的效果。
[0082]
训练该分类任务,采用的是交叉熵损失函数,最小化观测值和估计值的相对熵。实际采用时无需计算损失函数,直接由表情识别模型输出对应的情绪状态。
[0083][0084]
其中,l为交叉熵损失值;
[0085]
为预测的表情;
[0086]
y(i)为实际表情;
[0087]
n为样本数。
[0088]
所述人脸信息包括:人脸图片和人脸视频;
[0089]
人脸信息为人脸图片时,直接输入即可。
[0090]
人脸信息为人脸视频时,先利用opencv将视频转化为帧数据,然后逐帧输入,进行表情识别。
[0091]
人脸信息为人脸视频时,根据所得各帧的人脸动作单元信息特征,计算其平均值,最大值,最小值,标准差,第95%值,第85%值,第75%值,第50%值,第25%值得到每个人脸动作单元的这9个视频特征向量。上述得到的43
×
9个特征向量展平后输入到表情识别模型中评估该视频的情绪状态。
[0092]
我们首次引入图卷积网络到表情识别领域,以人脸动作单元为节点,关系程度为边构建图卷积网络,利用图卷积网络自主学习,探索潜在的表情特征。我们将本方法应用到raf-db数据集。这是一个真实世界的表情数据集,里面存在部分头偏向面部物体遮挡的情况。包含29672张图像。在实验中,使用了raf-db中提供的单标签子集,包含了15339张图像,分为7种典型表情。
[0093]
如图3~图6所示,所有网络结构使用pytorch深度学习库进行搭建。在图像处理部分主要使用的是pil库。所有实验训练和测试均在dell工作站上进行,该工作搭载的是dell xeon gold 6226r cpu,nvidia rtx 3090gpu。初始化权重为随机初始化。优化器使用的是深度学习中最流行的优化器之一adam。它是基于动量的算法,利用了梯度的历史信息易于精调的特性使得它能够快速获得很好的结果。对于分类任务,lose函数采用的是交叉熵函数,回归任务loss采用的是均方误差。初始的学习率为0.0001,batchsize为128。在所有任务中,迭代次数epoch都设置为60。最终在测试集达到的准确率为94%。
[0094]
本发明提供了一种基于图卷积网络的表情识别系统,所述表情识别系统包括:人脸定位模块、信息特征提取模块、完整信息特征获取模块和表情识别模块;
[0095]
所述人脸定位模块用于获取人脸信息,基于人脸信息和人脸定位模型,得到与人脸动作单元对应的面部区域信息;
[0096]
所述信息特征提取模块用于基于人脸动作单元对应的面部区域信息和resnet-50网络,得到人脸动作单元信息特征;
[0097]
所述完整信息特征获取模块用于基于人脸动作单元信息特征和图卷积网络,得到完整的人脸动作单元信息特征;
[0098]
所述表情识别模块用于基于完整的人脸动作单元信息特征和表情识别模型,得到对应的情绪状态;
[0099]
其中,图卷积网络是以人脸动作单元为节点,各节点之间的关系程度为边训练构建而成。
[0100]
可理解的是,本发明实施例提供的基于图卷积网络的表情识别系统与基于图卷积网络的表情识别方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于图卷积网络的表情识别方法中的相应内容,此处不再赘述。
[0101]
综上所述,与现有技术相比,本发明具备以下有益效果:
[0102]
1、本发明实施例中,以人脸动作单元为节点,各节点之间的关系程度为边构建图卷积网络,利用图卷积网络训练学习人脸动作单元信息特征与各节点间关系程度的联系,探索潜在的表情特征,能够有效提升表情识别的准确率;并且在面部存在遮挡的情况下,图
卷积网络也能根据未被遮挡的人脸动作单元信息特征,以及边的重要性权重,推算出被遮挡的人脸动作单元信息特征,最终输出完整的人脸动作单元信息特征,以此识别出的表情准确率进一步提升。
[0103]
2、本发明实施例中,设计双评估系统模型,不仅可以识别图片的表情,还可以识别视频级别的表情。
[0104]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0105]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:
1.一种基于图卷积网络的表情识别方法,其特征在于,所述表情识别方法包括步骤如下:s1、获取人脸信息,基于人脸信息和人脸定位模型,得到与人脸动作单元对应的面部区域信息;s2、基于人脸动作单元对应的面部区域信息和resnet-50网络,得到人脸动作单元信息特征;s3、基于人脸动作单元信息特征和图卷积网络,得到完整的人脸动作单元信息特征;s4、基于完整的人脸动作单元信息特征和表情识别模型,得到对应的情绪状态;其中,图卷积网络是以人脸动作单元为节点,各节点之间的关系程度为边训练构建而成。2.如权利要求1所述的基于图卷积网络的表情识别方法,其特征在于,所述人脸信息包括:人脸图片和人脸视频;人脸信息为人脸图片时,直接输入人脸定位模型;人脸信息为人脸视频时,先利用opencv将视频转化为帧数据,然后逐帧输入人脸定位模型。3.如权利要求2所述的基于图卷积网络的表情识别方法,其特征在于,所述人脸信息为人脸视频时,根据所得各帧的人脸动作单元信息特征,计算其平均值,最大值,最小值,标准差,第95%值,第85%值,第75%值,第50%值,第25%值得到每个人脸动作单元的这9个视频特征向量;得到的特征向量展平后输入表情识别模型中评估该视频的情绪状态。4.如权利要求1所述的基于图卷积网络的表情识别方法,其特征在于,所述人脸动作单元信息特征组成矩阵x,各节点之间的关系程度形成邻接矩阵a;节点v
i
和v
j
是相连接时,邻接矩阵a
ij
中的值为1,反之为0;将x和a输入图卷积网络,通过下式输出完整的人脸动作单元信息特征:其中,i是单位矩阵;是的度矩阵;h是每一层的信息特征;σ是非线性激活函数;w是权重参数;l表示图卷积网络的第l层。5.如权利要求1所述的基于图卷积网络的表情识别方法,其特征在于,所述图卷积网络构建过程中,初始将每个顶点与一阶邻居,二阶邻居,三阶邻居的边设置为1,其余所有的边均设置为0。6.如权利要求1所述的基于图卷积网络的表情识别方法,其特征在于,所述表情识别模型包括:全连接层、relu层、dropout层和输出层。7.如权利要求1所述的基于图卷积网络的表情识别方法,其特征在于,所述表情识别模型通过交叉熵损失函数训练,如下式所示:
其中,l为交叉熵损失值;为预测的表情;y
(i)
为实际表情;n为样本数。8.一种基于图卷积网络的表情识别系统,其特征在于,所述表情识别系统包括:人脸定位模块、信息特征提取模块、完整信息特征获取模块和表情识别模块;所述人脸定位模块用于获取人脸信息,基于人脸信息和人脸定位模型,得到与人脸动作单元对应的面部区域信息;所述信息特征提取模块用于基于人脸动作单元对应的面部区域信息和resnet-50网络,得到人脸动作单元信息特征;所述完整信息特征获取模块用于基于人脸动作单元信息特征和图卷积网络,得到完整的人脸动作单元信息特征;所述表情识别模块用于基于完整的人脸动作单元信息特征和表情识别模型,得到对应的情绪状态;其中,图卷积网络是以人脸动作单元为节点,各节点之间的关系程度为边训练构建而成。9.如权利要求8所述的基于图卷积网络的表情识别系统,其特征在于,所述人脸动作单元信息特征组成矩阵x,各节点之间的关系程度形成邻接矩阵a;节点v
i
和v
j
是相连接时,邻接矩阵a
ij
中的值为1,反之为0;将x和a输入图卷积网络,通过下式输出完整的人脸动作单元信息特征:其中,i是单位矩阵;是的度矩阵;h是每一层的信息特征;σ是非线性激活函数;w是权重参数;l表示图卷积网络的第l层。10.如权利要求8所述的基于图卷积网络的表情识别系统,其特征在于,所述图卷积网络构建过程中,初始将每个顶点与一阶邻居,二阶邻居,三阶邻居的边设置为1,其余所有的边均设置为0。
技术总结
本发明提供了一种基于图卷积网络的表情识别方法和系统,涉及表情识别技术领域。以人脸动作单元为节点,各节点之间的关系程度为边构建图卷积网络,利用图卷积网络训练学习人脸动作单元信息特征与各节点间关系程度的联系,探索潜在的表情特征,能够有效提升表情识别的准确率;并且在面部存在遮挡的情况下,图卷积网络也能根据未被遮挡的人脸动作单元信息特征,以及边的重要性权重,推算出被遮挡的人脸动作单元信息特征,最终输出完整的人脸动作单元信息特征,以此识别出的表情准确率进一步提升。升。升。
技术研发人员:欧阳波 袁新 丁帅 杨善林
受保护的技术使用者:合肥工业大学
技术研发日:2023.04.28
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:制动机构及轨道车辆的制作方法 下一篇:一种乘用车后侧窗风振控制装置及方法
