一种基于人体特征融合的学业情绪识别方法
未命名
08-12
阅读:318
评论:0
1.本发明属于情绪识别领域,尤其是一种基于人体特征融合的学业情绪识别方法。
背景技术:
2.学业情绪识别是指对学习者在学习过程中的情绪状态进行识别和分析。利用人工智能技术赋能线下课堂教学活动,对学生的课堂学业情绪进行分析,有助于及时发现教学过程中存在的问题,有针对性地调整教学方法,提高教学质量。
3.目前主流的课堂环境下学习者学业情绪识别方法仅基于面部表情识别,通过课堂监视器采集到的数据进行分析,进而推断出学生的情感。lasri等构建了一个学生情绪识别系统,该系统的第一个阶段使用haar特征的级联分类器进行人脸检测,然后使用卷积神经网络在fer2013数据集上进行训练,使得卷积神经网络具备识别七种基本表情的能力进而推断学习者情绪。bian等构建了一个公开的在线学习者的面部表情数据集,包含五种常见的学业情绪(困惑、享受、疲劳、分心和中立)的面部表情,该数据库采集自82名学生志愿者。并在该研究中引入了一种基于空间变换网络的自适应数据增强算法,去除原始图像中的混杂干扰,最终通过卷积神经网络进行情绪识别。韩丽等提出了基于面部表情分析的高效课堂评价方法,该方法首先结合aam模型与局部约束模型,在通过智能监控设备获取的图像上进行人脸特征点检测,再通过嘴角、眼睛与眉毛夹角、面部偏移角度的特征变化判断五种表情(倾听、疑惑、理解、抗拒、不屑),最终通过参与度、关注度、活跃时间和疑惑程度衡量课堂全景教学效果;孙波等基于面部活动单元编码系统,提出了针对七种学业情绪和面部活动特征的详细对应关系,并通过特征分解可将个体特征及表情特征分解到不同的子空间,排除了个体特征对于表情识别的干扰。
4.归纳而言,现有的学业情绪识别的方法主要仅仅基于面部表情识别,很少考虑到面部表情以外的其他人体特征。但在线下课堂场景中,由于学生面部表情分辨率差异较大、表情激活度较低、存在面部遮挡等原因导致表情特征差异性较小或不可用,使得仅基于表情的学业情绪识别方法识别准确率较低,鲁棒性较差,难以实现落地应用。学习者的情绪表达媒介并非只有面部表情,身体其他部位对于情绪的表达也是显而易见的,因此,结合更多的人体特征进行学业情绪识别是提升识别准确度的重要途径。
技术实现要素:
5.本发明的目的在于克服上述现有技术的缺点,提供一种基于人体特征融合的学业情绪识别方法。
6.为达到上述目的,本发明采用以下技术方案予以实现:
7.一种基于人体特征融合的学业情绪识别方法,包括以下步骤:
8.1)将监控视频的原始数据p输入人体目标检测模块faster r-cnn内,基于目标检测算法处理输出待识别的学生个体框,进而提取得到每个学生的局部区域图像信息oi及对应的人体边界框bi;
9.2)将待识别学生的局部区域图像信息oi经过人脸对齐模块mtcnn对齐,再通过数据增强得到预处理后的人脸图像,将所述预处理后的人脸图像输入到表情特征提取网络中进行表情特征学习,最后输出表情特征x1;
10.将待识别学生个体框与全局图像共同输入到crowdpose算法中的联合候选单人姿态估计模块中,对人体关节点进行估计输出一组指示人体关节位置信息的热图,之后经全局平均池化层和一个多层感知器,将所述热图转化为512维的向量,作为所述待识别学生的姿态特征x2;
11.3)将表情特征x1和姿态特征x2进行拼接得到xb,将xb输入学业情绪分类器进行学习者学业情绪识别。
12.进一步的,步骤2)中,所述表情特征学习的特征提取网络在预训练的vggface人脸识别模型的基础上做以下调整进行构建:
13.(1)在原始的vggface网络中的最后一个卷积层之后插入一个全局平均池化层;
14.(2)将原始的vggface中的最后3层全连接层改为2层全连接层;
15.(3)将最后一个全连接层的输出通道设置为512;
16.(4)在最后一个全连接层后添加一层dropout层,随机失活概率设置为0.3;
17.(5)训练时将原始的分类损失softmax损失函数替换为岛损失函数,损失函数表示为:
18.l
cls
=lc+αl
p
19.其中,lc代表样本与该类样本特征聚类中心之间的距离;l
cls
代表分类模块的损失值,α代表类间的距离权重,l
p
代表不同类别的样本特征聚类中心之间的距离。
20.进一步的,步骤2)中,人脸图像的预处理方法为:
21.经mtcnn对齐后的人脸图像,使用图像区域随机擦除、直方图均衡化及图像水平翻转三种方法对所述人脸图像进行数据增强操作。
22.进一步的,步骤2)中,姿态特征估计采用基于crowdpose算法的自顶向下的多人姿态估计策略。
23.进一步的,17个关节点为鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左踝及右踝。
24.进一步的,步骤3)中,表情特征x1和姿态特征x2均为512维向量,因此拼接后得到的xb为1024维向量。
25.进一步的,步骤3)中,所述情绪分类器由全连接层、批标准化层、dropout层和输出层组成:
26.全连接层:将输入的xb映射到一个256维的特征向量中;
27.批标准化层:对输入的256维特征向量进行标准化,即将每个特征维度上的数据进行归一化处理;
28.dropout层:随机将一部分神经元的输出设置为零;所述dropout层内有一个超参数p,表示随机将神经元输出设为零的概率;
29.输出层:为一个全连接层,将所述dropout层输出向量映射到一个7维的向量中,表示7种不同情绪分类结果。
30.进一步的,超参数p设置为0.6,即将60%的神经元输出随机设为零。
31.进一步的,7种不同情绪分类结果为无聊、放松、专注、困惑、沮丧、快乐和疲劳。
32.与现有技术相比,本发明具有以下有益效果:
33.本发明基于人体特征融合的学业情绪识别算法在操作时,通过结合面部表情识别与人体姿态估计技术,综合考虑学习者表情与姿态特征来进行学业情绪识别。在神经网络结构设计中,基于vggface进行网络结构调整,利用迁移学习思想提升了模型在数据量较少的情况下的泛化能力。同时,引入岛损失函数,指导神经网络进行“类内聚、类间开”的表情特征学习,提高了表情识别准确率。该方法将姿态特征与表情特征融合进行学业情绪识别,使得在学业情绪识别任务中对表情特征的鲁棒性增强。通过实验表明:在教室真实场景的学习者学业情绪识别任务中,本发明的识别效果优于经典的基于表情的学业情绪识别方法。
附图说明
34.图1为本发明的框架图;
35.图2为本发明使用的数据集标注示例图;
36.图3为本发明使用的数据集情绪分类示例图。
具体实施方式
37.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
38.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
39.下面结合附图对本发明做进一步详细描述:
40.参见图1,本发明基于人体特征融合的学业情绪识别方法,包括以下步骤:
41.1)表情特征提取分支的数据预处理
42.原始数据p首先由在ms coco数据集上训练好的目标检测算法faster r-cnn处理得到待识别的学习者局部图像oi及学习者个体框bi。在此基础上,再通过mtcnn算法进行人脸对齐,将不同个体图像中的人脸部分归一化到相同的位置、大小和方向,以便更好地提取人脸特征,从而表情识别准确性。如果待识别的学生处在低头状态或者被周围的人或物遮挡住面部,导致mtcnn无法检测到人脸,则会生成一个固定大小的图像,该图像被填充为1,代替人脸图像输入到表情特征提取网络中。接下来对得到的人脸图像进行数据增强操作,目的是降低深度神经网络的过拟合风险,提高模型的泛化能力。采用的数据增强方法包括
以下三种:
43.(1)图像区域随机擦除:具体操作为随机选择图像中的一个矩形区域并将其像素值替换为0值。将输入图像数据中的部分区域进行随机擦除操作以模拟真实教室场景下的各种遮挡情况。
44.(2)直方图均衡化:直方图均衡化通过重新分配图像的像素值,使得像素值在整个亮度范围内更均匀地分布,从而增加图像的对比度。通过直方图均衡化使原来难以分辨的纹理变得更加易于区分,进而缓解教室内局部光线较亮或较暗的情况对模型学习带来的负面影响。
45.(3)图像水平翻转:将一张图像水平翻转180度,从而得到一张镜像对称的新图像。通过对图像水平翻转,可以更好地缓解因教室内监控图像视角的不同导致的学生外观差异,这些差异在后续神经网络学习过程中可能导致学习到的特征是有偏的。
46.2)表情特征提取分支的网络模型构建
47.近年来人脸识别领域发展迅速,并且在一些真实场景下已经达到了非常高的准确率,因此,本方法基于迁移学习思想,将预训练的vggface人脸识别模型作为迁移学习的源模型,并在此基础上进行调整得到面部表情识别分支的模型。vggface的模型参数是在260万张人脸图片的数据集基础上训练得到的,在人脸识别数据集lfw上的准确率为98.95%,在ytf人脸识别数据集上的准确率为97.3%。vggface的原始网络结构如表1所示,共有5个卷积块,每个卷积块包括2个或者3个卷积层,每个卷积层后面都后接一个relu激活函数单元和一个池化层,vggface中的所有卷积核大小均为3*3,所有池化层的步长均为2,在网络的最后一层是3个全连接层和一个softmax层。
48.表1 vggface网络结构
49.[0050][0051]
本发明的表情特征提取分支网络在预训练的vggface人脸识别模型的基础上做如下调整:
[0052]
(1)在原始的vggface网络中的最后一个卷积层之后插入一个全局平均池化层(avg poll),因为全局平均池化层可以有效地减少网络模型参数,使得训练过程中的过拟合风险降低。
[0053]
(2)将原始vggface中的最后3层全连接层改为2层全连接层。这是因为在实际训练过程中发现,在原始网络模型的基础上适当减少全连接层的层数并不会对表情识别的结果产生影响。
[0054]
(3)将最后一个全连接层的输出通道数设置为512。
[0055]
(4)在最后一个全连接层后添加一层dropout层,随机失活概率设置为0.3,降低模型过拟合的风险。
[0056]
(5)训练时将原始的分类损失softmax损失函数替换为岛损失函数,以帮助神经网络学习到更加具有区分性的表情特征。损失函数表示为:
[0057]
l
cls
=lc+αl
p
[0058]
其中,lc代表某个样本与该类样本特征聚类中心之间的距离,以惩罚类内距离;l
cls
代表分类模块的损失值,α代表类间的距离权重,设置为0.2,l
p
代表不同类别的样本特征聚类中心之间的距离,以惩罚类间距离。经过调整后的网络结构如表2所示,其中的cnn layers表示表1中的若干卷积层的集合。dropout(0.3)表示dropout的随机失活概率为0.3。
[0059]
表2调整后的表情特征提取分支网络结构
[0060][0061]
3)人体姿态特征提取
[0062]
姿态特征提取分支采用基于crowdpose算法的自顶向下的多人姿态估计策略,该算法采用了一种新颖且有效的方式来解决人群中的姿态估计问题,整个模型由两个关键组成部分组成:联合候选单人姿态估计(joint-candidate sppe)和全局最大关节关联(global association)。该方法首先检测个体,然后执行单人姿态估计,对拥挤场景中不可避免的干扰具有鲁棒性,且推理效率较高。
[0063]
在1)中经由人体目标检测模块处理得到待识别的学习者局部图像oi及学习者个体框bi的基础上,首先将人体框bi和全局图像p共同输入到姿态估计网络中,首先使用faster r-cnn检测器进行人体检测得到待识别学生个体框,接着将待识别学生个体框与全局图像共同输入到crowdpose算法中的联合候选单人姿态估计模块中,对人体的17个关节点(鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左踝、右踝)进行估计进而得到一组指示人体关节位置信息的热图。最后在联合候选单人姿态估计器joint-candidate sppe后拼接一个全局平均池化层和一个多层感知器,将输出的热图转化为512维的向量,作为该人的姿态特征x2,表示为:
[0064]
x2=mlp(avgpool(x
iheatmap
))
[0065]
其中,mlp表示多层感知器,在本发明中为一个全连接层,avgpool表示全局平均池化层,x
iheatmap
表示第i个人的关节点热力图。joint-candidates sppe采用在crowdpose dataset数据集上预训练好的参数。
[0066]
4)人体特征融合
[0067]
在本方法的最后阶段,将以上得到的表情特征向量x1和姿态特征向量x2进行拼接得到xb以综合考虑面部表情和身体姿态特征,接着将xb输入学业情绪分类器进行学习者学业情绪识别。由于表情特征x1和姿态特征x2均为512维向量,因此拼接后得到的xb为1024维向量。学业情绪分类器由以下几部分组成:
[0068]
(1)全连接层fc_in:将输入的联合特征向量xb映射到一个256维的特征向量中。
[0069]
(2)批标准化层bn:对输入的256维特征向量进行标准化,即将每个特征维度上的数据进行归一化处理,以加速收敛并增强泛化性能。
[0070]
(3)dropout层dp:随机地将一部分神经元的输出设置为零,以防止过拟合。这个层有一个超参数p,表示随机将神经元输出设为零的概率,这里设置为0.6,即将60%的神经元输出随机设为零。
[0071]
(4)输出层fc_out:这个层由一个全连接层构成,将上一层的输出向量映射到一个n维的向量中。结合以往的相关研究和对教室监视器图像的调查和分析,本方法将课堂学业情绪分为七类(无聊、放松、专注、困惑、沮丧、快乐和疲劳),因此将n设置为7以表示模型最终针对7种学业情绪的分类结果。
[0072]
本发明基于人体特征融合的学业情绪识别算法在训练时的总损失函数表示为:
[0073]
l
bf
=α*l1+β*l2[0074]
其中,l1是表情特征提取分支的损失函数,l2是姿态特征提取分支的损失函数。超参数α和β分别控制两个损失函数的权重,统一设置为0.5。在训练过程中,将表情特征提取网络和crowdpose热力图学习网络的参数都固定,仅学习全连接层的参数。
[0075]
实施例
[0076]
(1)数据集说明
[0077]
本发明使用来源于高校“教育教学质量实时检测大数据平台”实时采集的课堂场景监控摄像视频作为线下课堂场景学生学业情绪识别数据集,参照公有数据集emotic数据集和csre-s数据集中对于离散情绪的标注格式,同时对学生人体框与头部框进行了标注,标注出的学业情绪共七种类别:无聊、放松、专注、困惑、沮丧、高兴、疲乏。
[0078]
(2)对比模型说明
[0079]
本文的baseline基准对比模型为bian等人提出的vgg-rda-ada。该对比模型所使用的数据集与本发明所提出方法使用的数据集一致。
[0080]
(3)学生学业情绪识别
[0081]
基于以上构建的数据集,将每一个学生个体图像区域从整幅图像中切割出来,成为单独的图像,筛选出包含正脸或脸部被部分遮挡甚至完全遮挡的单人图像区域共计24000张,并按照4:1的比例进行训练集测试集划分。使用深度学习框架为pytorch1.4版本,在单个titanx gpu上进行训练。初始学习率设置为0.001,并在训练过程中采用余弦退火学习率执行策略,训练批次大小(batch size)设置为16。在实验中采用各类学业情绪识别的平均准确率来衡量模型的性能。本发明所提出的方法与baseline效果对比如表1所示。
[0082]
表1学业情绪识别实验结果
[0083][0084]
由表1可知,本发明提出的融合表情特征和姿态特征的学业情绪识别方法在学业情绪分类的平均准确率上要优于baseline方法,且相比baseline方法在平均准确率上提高了7.04%,证实了本发明所提出方法的有效性。
[0085]
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
技术特征:
1.一种基于人体特征融合的学业情绪识别方法,其特征在于,包括以下步骤:1)将监控视频的原始数据p输入人体目标检测模块faster r-cnn内,基于目标检测算法处理输出待识别的学生个体框,进而提取得到每个学生的局部区域图像信息o
i
及对应的人体边界框b
i
;2)将待识别学生的局部区域图像信息o
i
经过人脸对齐模块mtcnn对齐,再通过数据增强得到预处理后的人脸图像,将所述预处理后的人脸图像输入到表情特征提取网络中进行表情特征学习,最后输出表情特征x1;将待识别学生个体框与全局图像共同输入到crowdpose算法中的联合候选单人姿态估计模块中,对人体关节点进行估计输出一组指示人体关节位置信息的热图,之后经全局平均池化层和一个多层感知器,将所述热图转化为512维的向量,作为所述待识别学生的姿态特征x2;3)将表情特征x1和姿态特征x2进行拼接得到x
b
,将x
b
输入学业情绪分类器进行学习者学业情绪识别。2.根据权利要求1所述的基于人体特征融合的学业情绪识别方法,其特征在于,步骤2)中,所述表情特征学习的特征提取网络在预训练的vggface人脸识别模型的基础上做以下调整进行构建:(1)在原始的vggface网络中的最后一个卷积层之后插入一个全局平均池化层;(2)将原始的vggface中的最后3层全连接层改为2层全连接层;(3)将最后一个全连接层的输出通道设置为512;(4)在最后一个全连接层后添加一层dropout层,随机失活概率设置为0.3;(5)训练时将原始的分类损失softmax损失函数替换为岛损失函数,损失函数表示为:l
cls
=l
c
+αl
p
其中,l
c
代表样本与该类样本特征聚类中心之间的距离;l
cls
代表分类模块的损失值,α代表类间的距离权重,l
p
代表不同类别的样本特征聚类中心之间的距离。3.根据权利要求1所述的基于人体特征融合的学业情绪识别方法,其特征在于,步骤2)中,人脸图像的预处理方法为:经mtcnn对齐后的人脸图像,使用图像区域随机擦除、直方图均衡化及图像水平翻转三种方法对所述人脸图像进行数据增强操作。4.根据权利要求1所述的基于人体特征融合的学业情绪识别方法,其特征在于,步骤2)中,姿态特征估计采用基于crowdpose算法的自顶向下的多人姿态估计策略。5.根据权利要求1所述的基于人体特征融合的学业情绪识别方法,其特征在于,17个关节点为鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左踝及右踝。6.根据权利要求1所述的基于人体特征融合的学业情绪识别方法,其特征在于,步骤3)中,表情特征x1和姿态特征x2均为512维向量,因此拼接后得到的x
b
为1024维向量。7.根据权利要求1所述的基于人体特征融合的学业情绪识别方法,其特征在于,步骤3)中,所述情绪分类器由全连接层、批标准化层、dropout层和输出层组成:全连接层:将输入的x
b
映射到一个256维的特征向量中;批标准化层:对输入的256维特征向量进行标准化,即将每个特征维度上的数据进行归
一化处理;dropout层:随机将一部分神经元的输出设置为零;所述dropout层内有一个超参数p,表示随机将神经元输出设为零的概率;输出层:为一个全连接层,将所述dropout层输出向量映射到一个7维的向量中,表示7种不同情绪分类结果。8.根据权利要求7所述的基于人体特征融合的学业情绪识别方法,其特征在于,超参数p设置为0.6,即将60%的神经元输出随机设为零。9.根据权利要求7所述的基于人体特征融合的学业情绪识别方法,其特征在于,7种不同情绪分类结果为无聊、放松、专注、困惑、沮丧、快乐和疲劳。
技术总结
本发明公开了一种基于人体特征融合的学业情绪识别方法,属于情绪识别领域。本发明基于教室监控图像数据,通过目标检测与特征提取模块分别对学习者的面部表情和肢体姿态进行特征提取,获得学习者表情与姿态特征的向量表征。以此为基础,将得到的特征向量进行拼接融合,进而提出一个双分支学业情绪识别网络,对学习者在课堂中的学业情绪进行识别。本发明解决了传统的学业情绪识别方法准确度低、鲁棒性差的问题,有助于教师更准确了解学生的学习状态和知识掌握程度以提升教学质量。态和知识掌握程度以提升教学质量。态和知识掌握程度以提升教学质量。
技术研发人员:陈妍 沈铭宇 刘嘉欣 苑超 田锋 朱海萍 郑庆华
受保护的技术使用者:西安交通大学
技术研发日:2023.05.29
技术公布日:2023/8/9
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种水果采摘机械臂 下一篇:一种双芯片并联功率模块及封装方法与流程
