基于深度学习的渐进式情绪识别方法、系统、设备及介质
未命名
07-28
阅读:87
评论:0
1.本发明属于深度学习领域,具体涉及一种基于深度学习的渐进式情绪识别方法、系统、设备及介质。
背景技术:
2.情绪是对一系列主观认知经验的通称,会影响人类的感知、决策等日常活动。,早在20世纪初,美国心理学家ekman和friesen通过对多种文化背景下的人进行长期地研究总结出6种人类基本情绪。
3.近些年来,情绪识别成为情感计算、自然人机交互与人工智能领域的重要研究内容之一。情绪识别主要是通过算法从数据中情感预测人类的情绪状态,这项技术有利于创造更好地交互环境,在诸多领域都有着广泛应用前景,例如医疗,娱乐,安保等领域。而之前的研究大多是基于静态的人脸图像,但情绪从产生到表现是一个动态的过程,缺少对人脸特征关联性的进一步研究,会产生致识别准确率降低的问题。
4.鉴于此,如何提取视频中的不同情绪特征,并对这些特征进行有效研究和分析从而提高识别准确率成为本领域技术人员亟待解决的问题。
技术实现要素:
5.本发明的目的在于提出一种基于深度学习的渐进式情绪识别方法、系统、设备及介质,更好地理解视频人脸情绪,完成视频情绪识别。
6.本发明的技术方案如下:
7.一种基于深度学习的渐进式情绪识别方法,包括:
8.采集情绪数据视频,建立情绪视频数据集;
9.构建渐进式图模型,将所述情绪视频数据集输入到所述渐进式图模型进行情绪视频识别;所述渐进式图模型由中层语义图模型、高层语义图模型和视频特征提取器构成。
10.进一步的,所述方法为:
11.s1采集人脸视频数据,提取人脸部件特征、人脸特征;
12.s2基于人脸部件特征、人脸特征得到中层语义情绪表征;
13.s3基于中层语义情绪表征和自然的人脸结构信息与视频中的人的时间和空间结合,得到高层语义情绪表征;
14.s4最后,将高层语义特征和独立的视频特征提取器提取的视频特征进行特征融合,得到视频情绪识别结果。
15.进一步的,所述s2具体为:
16.对于人脸局部特征,使用resnet50神经网络模型提取图像特征,再用两层卷积神经网络以及一层全连接层降维;
17.对于人脸特征,使用maskrcnn he作为面部局部特征检测器,提取人脸图像的局部特征,再用两层卷积神经网络以及一层全连接层进行降维;
18.通过注意力机制将所述人脸部件特征聚合到所述人脸特征,得到所述人脸部件特征的上下文信息,然后再将此上下文信息回传到每个人脸部件特征,和图像特征融合起来,得到最终的中层语义情绪表征。
19.进一步的,所述s3具体为:
20.使用part-tree架构将人脸部件的中层语义情绪特征融合成人脸级别的特征,采用逐步融合的方式,自下而上分级融合;
21.根据视频帧各节点之间的相对位置关系,将每一帧对应的人脸作为图的节点连接起来,得到代表节点运动的视频时序信息;接着使用图卷积神经网络提取整个视频连接图中的人脸特征,即可以得到高层语义情绪表征。
22.进一步的,所述s4具体为:
23.首先将中层语义情绪表征输入高层语义图模块进行融合,得到高层语义情绪表征,接着使用平均池化操作融合每一帧上的所有人脸特征;
24.将视频特征提取器提取的单帧视频特征和池化后得到的人脸特征进行融合,形成帧级别的特征;
25.将帧级别特征输入全连接层计算视频帧情绪预测分数,对每一帧的分类结果进行均值计算,从而得到最终视频的情绪预测分数。
26.本发明还提供了一种基于深度学习的渐进式情绪识别系统,包括:
27.数据采集模块,用于采集情绪视频数据;
28.中层语义情绪识别模块,用于提取中层语义情绪表征;
29.高层语义情绪识别模块,用于提取高层语义情绪表征;
30.输出模块,用于输出情绪视频识别结果。
31.本发明还提供一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据上述的基于深度学习的渐进式情绪识别方法。
32.本发明还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述的基于深度学习的渐进式情绪识别方法。
33.本发明的技术效果:
34.本发明旨在解决传统深度学习情绪识别方法中忽视对人类情绪的细节的中层语义的理解;通过图结构提取到中层语义表征后,通过自下而上地逐步融合人脸部件特征以及根据视频帧序列每一帧的动作关联性,可以更好地进行视频高层语义情绪识别。
附图说明
35.附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所发明的实施例进行说明。
36.图1示出了本发明的一种基于深度学习的渐进式情绪识别方法流程示意图;
37.图2示出了本发明的一种中层语义图模型示意图;
38.图3示出了本发明的一种渐进式情绪识别图模型示意图。
具体实施方式
39.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
40.请参阅图一,本发明具体方法实施包括:
41.一种基于深度学习的渐进式情绪识别算法,具体包括以下步骤:
42.步骤一:提取人脸部件特征、人脸特征和视频帧全局特征。
43.提取人脸部件特征。使用resnet模型提取图像特征,之后使用roi align操作,根据人脸部件位置框提取原始人脸部件特征,经过两层卷积神经网络以及一层全连接层进行降维,重排列成1
×
d维特征向量f
p
;
44.提取人脸特征。使用keypoint rcnn模型提取图像特征,之后使用roi align操作,根据人脸位置框提取原始人脸特征,经过两层卷积神经网络以及一层全连接层进行降维,重排列成1
×
d维特征向量fh;
45.提取图像特征。通过在imagenet数据集上预训练的resnet模型提取图像特征;
46.步骤二:提取中层语义表征
47.通过注意力机制将人脸部件特征聚合到人脸节点特征中。每个人脸部件特征对整个人脸的情绪表征都有不同的重要性,故而使用了注意力机制来学习人脸节点与从属的各个人脸部件节点的关联度,并将此关联度作为他们之间的边的权重,然后根据此权重进行信息传播,得到人脸部件的最终的上下文信息
48.公式如下所示:
49.α
h,p
=σ(mlp(concat(fh,f
p
)))
50.f
context
=fh+∑α
h,p
*f
′
p
51.得到人脸部件特征的上下文信息,然后再将此上下文信息回传到每个人脸部件特征,和图像特征融合起来。也就是该模型将人脸部件的上下文信息fcontext、人脸部件特征fp和图像特征fimg拼接在一起,输入mlp网络提取人脸部件的中层语义表征fpmid。
52.公式如下所示:
53.f
pmid
=mlp(contact(f
context
,f
p
,f
img
)).
54.步骤三:提出一个高层语义图模型,可以利用人脸部件的中层语义表征,综合自然的人脸结构信息与视频中的人的时间与空间联系,提取视频的高层语义情绪表征。
55.人脸部件特征逐步融合。首先需要将中层语义图模型提取到的人脸部件的中层语义表征逐级融合成人脸级别的特征f
mid
,根据人脸的自然结构,采用part-tree架构进行树结构的逐步融合,不会受到视频分辨率的影响。
56.人脸特征增强。根据视频帧序列中人脸节点的动作关联性,将每一帧相应的人脸部件节点连接起来,构成视频特征的边,即使各个人的人脸特征增强,得到视频的高层语义情绪表征。根据视频帧序列的时序性,同一个人在不同的视频帧上的变化具有先后顺序关系,所以该模型首先根据视频帧之间的相对位置关系,对人体特征加上时序位置编码,由此体现视频行为的时序信息。
57.用t表示视频帧在视频帧序列中的位置,d表示编码的维度,频率为则视频帧在视频帧序列中的时序位置编码可以定义为:
[0058][0059]
可判断出,频率沿着向量维度递减,编码函数通过向量中不同位置的不同波长表示时序信息。将每一帧都可以生成的时序位置编码与将每一帧上的人脸特征融合,即在人脸特征中加上了时序信息,由于人体节点之间的关系非常丰富,所以该模型构建了多个关系矩阵表示边的特征,它们之间权重不共享。然后该模型使用多层图卷积网络来进行信息传播,并且在图卷积网络的输入和输出层之前加上了残差连接,得到由人体的高层语义行为表征f
ig
组成的特征矩阵f。
[0060]
步骤四:提出渐进式图模型,此模型将中层语义情绪图模型与高层语义情绪图模型结合起来,进行视频高层语义情绪识别任务,该模型首先利用中层图模型提取中层语义行为表征,之后输入高层语义图模块,得到高层语义情绪表征,随后与视频特征提取器提取的视频特征结合,进行视频高层语义情绪识别。
[0061]
具体来讲,得到高层语义情绪表征后,首先使用平均池化操作融合每一帧上所有的人脸特征f
ig
,然后与视频特征提取器提取的特征融合在一起,形成帧级别特征f
frame
。
[0062]
在这之后,该方法将帧级别特征输入全连接层计算视频帧行为预测分数s
frame
,之后对所有视频帧情绪预测分数使用平均池化操作,得到视频情绪预测分数
[0063]
最后,该方法使用较差熵损失函数来训练该模型,具体公式如下所示,其中,yv为真实的视频情绪标签。
[0064]sframe
=fc(f
frame
)
[0065][0066][0067]
本发明还提供了一种基于深度学习的渐进式情绪识别系统,包括:
[0068]
数据采集模块,用于采集情绪视频数据;
[0069]
中层语义情绪识别模块,用于提取中层语义情绪表征;
[0070]
高层语义情绪识别模块,用于提取高层语义情绪表征;
[0071]
输出模块,用于输出情绪视频识别结果。
[0072]
本发明还提供一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据上述的基于深度学习的渐进式情绪识别方法。
[0073]
本发明还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述的基于深度学习的渐进式情绪识别方法。
[0074]
以上所述,仅为本发明优选的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
技术特征:
1.一种基于深度学习的渐进式情绪识别方法,其特征在于,包括:采集情绪数据视频,建立情绪视频数据集;构建渐进式图模型,将所述情绪视频数据集输入到所述渐进式图模型进行情绪视频识别;所述渐进式图模型由中层语义图模型、高层语义图模型和视频特征提取器构成。2.根据权利要求1所述的情绪识别方法,其特征在于,所述方法为:s1采集人脸视频数据,提取人脸部件特征、人脸特征;s2基于人脸部件特征、人脸特征得到中层语义情绪表征;s3基于中层语义情绪表征和自然的人脸结构信息与视频中的人的时间和空间结合,得到高层语义情绪表征;s4最后,将高层语义特征和独立的视频特征提取器提取的视频特征进行特征融合,得到视频情绪识别结果。3.根据权利要求2所述的情绪识别方法,其特征在于,所述s2具体为:对于人脸局部特征,使用resnet50神经网络模型提取图像特征,再用两层卷积神经网络以及一层全连接层降维;对于人脸特征,使用maskrcnn he作为面部局部特征检测器,提取人脸图像的局部特征,再用两层卷积神经网络以及一层全连接层进行降维;通过注意力机制将所述人脸部件特征聚合到所述人脸特征,得到所述人脸部件特征的上下文信息,然后再将此上下文信息回传到每个人脸部件特征,和图像特征融合起来,得到最终的中层语义情绪表征。4.根据权利要求2所述情绪识别方法,其特征在于,所述s3具体为:使用part-tree架构将人脸部件的中层语义情绪特征融合成人脸级别的特征,采用逐步融合的方式,自下而上分级融合;根据视频帧各节点之间的相对位置关系,将每一帧对应的人脸作为图的节点连接起来,得到代表节点运动的视频时序信息;接着使用图卷积神经网络提取整个视频连接图中的人脸特征,即可以得到高层语义情绪表征。5.根据权利要求2所述情绪识别方法,其特征在于,所述s4具体为:首先将中层语义情绪表征输入高层语义图模块进行融合,得到高层语义情绪表征,接着使用平均池化操作融合每一帧上的所有人脸特征;将视频特征提取器提取的单帧视频特征和池化后得到的人脸特征进行融合,形成帧级别的特征;将帧级别特征输入全连接层计算视频帧情绪预测分数,对每一帧的分类结果进行均值计算,从而得到最终视频的情绪预测分数。6.一种基于深度学习的渐进式情绪识别系统,其特征在于,包括:数据采集模块,用于采集情绪视频数据;中层语义情绪识别模块,用于提取中层语义情绪表征;高层语义情绪识别模块,用于提取高层语义情绪表征;输出模块,用于输出情绪视频识别结果。7.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1-5中所述的基
于深度学习的渐进式情绪识别方法。8.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中所述的基于深度学习的渐进式情绪识别方法。
技术总结
本发明提供一种基于深度学习的渐进式情绪识别方法、系统、设备及介质,包括:采集情绪数据视频,建立情绪视频数据集;构建渐进式图模型,将所述情绪视频数据集输入到所述渐进式图模型进行情绪视频识别;所述渐进式图模型由中层语义图模型、高层语义图模型和视频特征提取器构成。本发明通过图结构提取到中层语义表征后,通过自下而上地逐步融合人脸部件特征以及根据视频帧序列每一帧的动作关联性,可以更好地进行视频高层语义情绪识别。好地进行视频高层语义情绪识别。好地进行视频高层语义情绪识别。
技术研发人员:王峰 常亦婷 胡校萌 杨慧芳 王路凯 吴佳豪
受保护的技术使用者:太原理工大学
技术研发日:2023.04.28
技术公布日:2023/7/27
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
