基于多尺度面部信息集成的抑郁症辅助诊断方法

未命名 07-22 阅读:110 评论:0


1.本发明属于面部识别技术领域,特别是涉及一种基于多尺度面部信息集成的抑郁症辅助诊断方法。


背景技术:

2.面部表情是人类交流中最强大和最普遍的手段之一,它与人类的心理状态、态度和意图高度相关。除了我们日常看到的普通的面部表情外,情绪还可以在特定条件下以特殊格式的微表情来表达。当人们试图隐藏自己的真实感受时,会在一定程度刺激的情况下揭示人们隐藏的感受。相较于普通人,抑郁症患者面部最明显的不同在于表情变化幅度很小,且会表现出明显的情绪低落、焦虑等特征,而利用这种由患者下意识所做出的面部动作,既可以有效地识别抑郁症患者,也可以防止由患者主观意识影响检测结果。在实际的门诊阶段,医生判断病人精神状况的主要方式之一便是通过观察病人面部的表情变化;然而,人工的诊断需要有专业人士的领域知识,且部分难以察觉到的微表情变化会对医生的判断产生影响。因此,亟需一种能够完整捕捉患者表情变化且不受微表情变化对人工判断的影响的抑郁症患者面部表情识别方法。
3.现有技术中,基于面部表情的抑郁症表情识别主要处理的数据为视频流数据,相比于图片分类领域,视频理解中增加了时间维度,获取基于时间维度的动态信息至关重要。al jazaery(ieee transactions on affective computing,2021.12(1))、he(ieee transactions on multimedia,2019.21(6))等人揭示了用光流、hog和手工制作的特征生成具有外观和动态信息编码的描述符,作为从视频中提取的时间维度信息。但这种非端到端方式的模型缺乏自动地从大规模原始数据中学习特征层次结构,从而产生具有高度抽象性和不变性判别特征的特点,较难应用于实际。而深度学习可以解决此问题,目前主要有两种方式用来学习视频在时空上的动态信息。一种是利用cnn对视频的每张图片进行编码和提取特征,然后按图片顺序利用lstm学习图片间的上下文关系,作为时间维度的动态信息。另一种是在2dcnn的基础上新增时间维度,采用3dcnn的方式,通过控制在时间维度上步长的大小来考虑上下文关联的远近。而以上提到的人工和深度学习方法都遵循同一个假设,即整个视频的所有时间特征对分类任务的贡献是均匀的。但视频中人物表情多变,并不时刻包含有用信息,导致视频中包含冗余信息;若将全部帧作为模型的训练数据,则会产生严重的过拟合问题且数据量的庞大会导致训练困难。虽然目前的研究将视频数据按每6帧或每10帧取一帧的方式获得图片序列集可以缓解这个问题。但是,这种间隔采样会造成时间维度上信息丢失的问题(面部表情变化不连续的现象),导致部分关键视频帧被抛弃。此外,目前在基于表情变化的抑郁症识别领域中,采用的方案大多通过融合特征信息,使用单分类器来生成结果。但单分类器无法全面考虑到数据的多样性信息,分类性能较差。


技术实现要素:

4.本发明一种基于多尺度面部信息集成的抑郁症辅助诊断方法;针对现有技术中模
型学习过程中引入大量冗余信息和噪音,会严重影响识别精度且增大计算难度;若间隔数帧选取一帧来获得图片序列,则会造成信息丢失,可能遗失关键帧;另外现有技术中使用的单分类器无法全面考虑到数据的多样性信息,分类性能较差;提出本发明。
5.为解决上述技术问题,本发明所采用的技术方案是,一种基于多尺度面部信息集成的抑郁症辅助诊断方法,包括以下步骤:
6.s1、基于注意力机制的图像序列时空特征提取;
7.s2、基于多尺度信息集成的视频流数据处理;
8.s3、基于加权机制对不同采样率尺度下提取的面部特征进行集成学习。
9.进一步的,所述s1基于注意力机制的时空特征提取的具体步骤如下:
10.s11、g(x)表示基于输入数据x产生注意力值,f(g(x),x)表示基于注意力处理输入数据x,建立图像序列注意力机制模型:
11.attention=f(g(x),x)
12.s12、空间特征提取
13.分别对输入面部视频数据做全局平均池化和最大池化;然后计算不同通道的注意力值mc:
[0014][0015]
计算基准从通道转为空间内容信息,计算空间注意力值ms:
[0016][0017]
其中,σ()为激活函数,表示对通道维度进行平均池化,表示对通道维度进行最大池化,w0、w1、w2、w3、w4表示可学习的参数;表示对空间维度进行平均池化,表示对空间维度进行最大池化;分别进行通道维度的平均池化和最大池化得到两个h
×w×
1的通道描述,将这两个描述按照通道拼接在一起,经过卷积操作,得到权重系数ms;最后,权重系数和特征相乘即可得到缩放后的新特征;
[0018]
s13、时间特征提取
[0019]
首先计算时间注意力值:
[0020]mt
(x
t
)=δ(w3x
t
+w4h
t-1
+b)
[0021]
其中,h
t-1
表示基于上一个时间段计算的影响,b表示常量,x
t
表示第t个视频片段,最后通过卷积操作获得注意力权重系数。
[0022]
进一步地,s2基于多尺度信息集成的视频流数据处理具体步骤如下:
[0023]
在首次输入中,采用5fps帧率作为输入,使总模型在图像序列空间特征的基础上学习时间信息的变化;采用平均集成策略,总模型最终预测结果y如下:
[0024][0025]
在注意力机制取得关键时间段后,对关键时间段的采样率进行倍数增长,采样率关系为:
[0026]
rate(n)=2
n-1
rate(1)
[0027]
其中,f表示网络模型,w()表示网络模型的参数,表示第i轮的输入在rate
(i)的采样率下处理后作为输入数据,n表示迭代轮次;平均集成策略还可替换为:投票集成、堆叠集成、boosting集成、bagging集成中的任一种。
[0028]
进一步的,s3基于加权机制的集成学习模块的具体步骤如下:
[0029]
每次迭代的权重计算如下式所示:
[0030]
qk=max(softmax(m
t
(xk)))(1-qn)(1-q
n-1
)...(1-q
k+1
)
[0031]
qk是计算的第k次迭代中的权重值,xk是第k次迭代的输入,qn为第n轮中注意力权值最大的视频片段以及相邻片段的权值占比和,其他轮中首先计算在本轮的占比,然后与下一轮中未被选中的视频片段的权值占比和相乘,表示迭代次数越多,之前的迭代中有效信息占比越少,两次相邻迭代的比例满足:
[0032][0033]
下一轮迭代的权重高于本轮迭代;最终各基学习器的集成结果计算如下式所示:
[0034][0035]
y为总模型最终预测结果,m
t
为计算时间注意力值,modeli表示学习器网络,softmax为用于计算结果的概率分布的激活函数,在模型训练前期,需要在每次迭代中经历50epochs训练后才可进入下次迭代。
[0036]
本发明的有益效果是:本发明通过空间注意力和通道注意力机制来提取视频中的关键内容信息,通过时间注意力机制提取视频关键视频段,结合三种注意力机制提取有效特征;利用多种不同帧率进行采样,不仅利用到了以往研究中丢弃的信息,并且获得了更多的有效信息,且没有引入过多的冗余信息;能够对抑郁症患者面部表情特征实现精准提取,对临床抑郁症诊断具有指导意义。
附图说明
[0037]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]
图1是基于多尺度面部信息集成的抑郁症辅助诊断方法结构图;
[0039]
图2是基于面部视觉线索的抑郁症患者面部表情识别模型图;
[0040]
图3是空间注意力机制示意图;
[0041]
图4是时间注意力机制示意图;
[0042]
图5是模型中基于多尺度的数据处理示意图;
[0043]
图6是模型中集成学习示意图。
具体实施方式
[0044]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0045]
本发明提供一种基于多尺度面部信息集成的抑郁症辅助诊断方法,如图1所示,本技术所述方法包括以下步骤:
[0046]
s1、基于注意力机制的图像序列时空特征提取;
[0047]
s2、基于多尺度信息集成的视频流数据处理;
[0048]
s3、基于加权机制对不同采样率尺度下提取的面部特征进行集成学习。
[0049]
首先通过注意力机制检测出包含抑郁症面部表情特征的图像关键区域与关键序列段,将关键序列段作为下轮迭代的输入数据。然后采用更高的采样频率处理下轮迭代的输入数据,从中获取更多视频信息。最终有效地结合多轮迭代的结果,获得预测回归值。算法框架如图2所示,下面将阐述具体的算法流程。
[0050]
s1、基于注意力机制的图像序列时空特征提取
[0051]
s11、g(x)表示基于输入数据x产生注意力值,f(g(x),x)表示基于注意力处理输入数据x,建立图像序列注意力机制模型:
[0052]
attention=f(g(x),x)
ꢀꢀꢀꢀꢀꢀ
(1)
[0053]
g(x)表示基于输入数据x产生注意力值,该注意力对应于对判别区域的关注程度。f(g(x),x)表示基于注意力处理输入数据x。本发明利用注意力机制寻找视频中有效的区域和时间段,提取时空特征。
[0054]
s12、空间特征提取
[0055]
视频帧中包含许多信息,但与识别任务相关的信息主要出现在图像中的部分区域,这些关键区域对于视频识别任务具有最重要的影响。
[0056]
采用串联的方式计算通道注意力与如图3的空间注意力,通道注意力解决模型“应该关注什么”的问题,空间注意力解决模型“应该关注哪里”的问题。通过引入全局池化计算注意力值。对于通道注意力,分别对输入数据做全局平均池化和最大池化,然后利用卷积神经网络和激活函数计算权重系数,即对应不同通道的注意力值。如公式(2)所示:
[0057][0058]
其中,表示对通道维度使用平均池化操作,表示对通道维度使用最大池化操作,w0与w1是可学习的参数。空间注意力的计算与通道注意力同理,计算基准从通道转为空间内容信息,如公式(3)所示:
[0059][0060]
分别进行通道维度的平均池化和最大池化得到两个h
×w×
1的通道描述,这两个描述按照通道拼接在一起,经过卷积操作,激活函数表示为σ(),得到权重系数ms。最后,权重系数和特征相乘即可得到缩放后的新特征。
[0061]
s13、时间特征提取
[0062]
对于视频而言,关键信息并不总是均匀分布在每帧图像中,关键帧往往对最终识别结果具有更大的影响。
[0063]
如图4,时间注意力的计算需要考虑不同时间段间的关联关系,基于局部与全局间,以及相邻片段间的影响来计算最终的注意力值。注意力值的计算如公式(4)所示:
[0064]mt
(x
t
)=σ(w3x
t
+w4h
t-1
+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0065]ht-1
表示基于上一个时间段计算的影响,b表示常量,x
t
表示第t个视频片段,引入此影响来考虑相邻时间段间以及前t-1个时间段与第t个时间段间的关联关系。最后通过卷积操作获得注意力权重系数。
[0066]
s2、基于多尺度信息集成的视频流数据处理
[0067]
多尺度信息集成是对数据进行不同粒度的采样,模型针对不同尺度的输入数据会学习不同的特征信息。在视频流数据的处理中,模型对不同帧率下的视频信息会有差异性的关注度。在生物学的灵长类视觉系统中视网膜神经节细胞的研究表明,生物获取外界视觉信息的细胞组成为细小细胞和巨细胞,巨细胞在高刷新频率下工作,主要捕捉视觉中位置变化的信息,对空间细节和颜色不敏感,细小细胞与其相反,主要采集空间信息。这个结果说明人类在实际收集视觉信息时是基于帧率多尺度进行的。slowfast便是以此为基础设计的视频理解模型,其由两个分支resnet组成,不同的分支以不同帧率的视频数据作为输入,在本发明中,采取以下策略实现多尺度帧率的视频流数据的利用。
[0068]
如图5,在首次输入中,采用5fps帧率作为输入,视频中可能包含大量无效信息,直接使用高帧率采样不仅无法高效获取有效信息,而且加大了计算难度,但依旧可以采用帧率多尺度的思想,使模型在空间特征的基础上学习时间信息的变化。
[0069][0070]
f表示网络模型,w()表示网络模型的参数,表示第i轮的输入在rate(i)的采样率下处理后作为输入数据。集成方式可以是投票集成,平均集成,堆叠集成,boosting集成,bagging集成,在本实施例中,采用了平均集成的方法,则如公式(6)所示,将所有不同采样率下获得的结果进行集成。在注意力机制取得关键时间段后,对关键时间段的采样率进行倍数增长,以此获得更多的时间变化信息。即采样率关系为:
[0071]
rate(n)=2
n-1
rate(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0072]
n表示迭代轮次,由于采样率的倍数增长,获得的数据量也会倍数增长,所以基于注意力权值筛选视频片段,这样可以有效地控制数据量,同时防止采样率提高后导致的空间信息冗余成倍数增加。模型学习过程以此迭代方式进行,最终在多尺度的帧率下学习到最多的时空信息。
[0073]
s3、基于加权机制的集成学习模块
[0074]
如图6所示集成学习通过考虑多个单分类器的结果完成学习任务,在保证弱分类器多样性的同时,可以有效地提高预测准确率。
[0075]
由上s1、s2可知,模型的迭代学习次数与数据有效性占比成正比,注意力机制会逐渐选取使预测准确率最高的片段作为下次迭代的输入,由于每次输入数据均不完全相同,且每次的输入是上次迭代的子集,所以各学习器之间具有一定的独立性。进行多学习器结果集成中要考虑到数据有效性对结果的影响,所以权重应呈现随迭代次数而增加的效果,则每次迭代的权重计算应如公式(7)所示:
[0076]
qk=max(softmax(m
t
(xk)))(1-qn)(1-q
n-1
)...(1-q
k+1
)
ꢀꢀꢀꢀꢀꢀ
(7)
[0077]
qk是计算的第k次迭代中的权重值,xk是第k次迭代的输入,qn的值为第n轮中注意力权值最大的视频片段以及相邻m个片段的权值占比和。其他轮中首先计算在本轮的占比,然后与下一轮中未被选中的视频片段的权值占比和相乘,表示迭代次数越多,之前的迭代
中有效信息占比越少,影响力越小。
[0078]
两次相邻迭代的比例满足:
[0079][0080]
下一轮迭代的权重高于本轮迭代,符合注意力机制中有效信息影响力大的原则。最终各基学习器的集成结果计算如公式(9)所示:
[0081][0082]
modeli表示学习器网络,softmax为用于计算结果的概率分布的激活函数,在计算q时,选取的相邻视频片段个数m的值需要结合实验的实际情况考虑,集成方案既满足了注意力机制中不同影响力对结果产生影响的效果,又加大了有效信息对最终预测结果的影响。在模型训练前期,需要在每次迭代中经历50epochs次训练后才可进入下次迭代,目的是使得注意力机制权重具有可靠性。
[0083]
实验例:
[0084]
本发明注意力机制模块在数据集avec2013上的预测效果如表1所示:
[0085]
表1在数据集avec2013上的效果
[0086]
methodsmaermsebaseline10.8813.61brunel-beihang9.1411.19wenetal.8.2210.27kayaetal.7.869.72zhuetal.7.589.82rnn-c3d7.379.28lga-cnn6.598.39heetal.6.838.46zhouetal.6.638.37本发明6.417.68
[0087]
由此可见,本技术在数据集上的平均绝对值误差mae及均方根误差rmse均为最低。
[0088]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
[0089]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

技术特征:
1.一种基于多尺度面部信息集成的抑郁症辅助诊断方法,其特征在于,包括以下步骤:s1、基于注意力机制的图像序列时空特征提取;s2、基于多尺度信息集成的视频流数据处理;s3、基于加权机制对不同采样率尺度下提取的面部特征进行集成学习。2.根据权利要求1所述的一种基于多尺度面部信息集成的抑郁症辅助诊断方法,其特征在于,所述s1基于注意力机制的图像序列时空特征提取的具体步骤如下:s11、g(x)表示基于输入数据x产生注意力值,f(g(x),x)表示基于注意力处理输入数据x,建立图像序列注意力机制模型:attention=f(g(x),x)s12、空间特征提取分别对输入面部视频数据做全局平均池化和最大池化;然后计算不同通道的注意力值m
c
:计算基准从通道转为空间内容信息,计算空间注意力值m
s
:其中,σ()为激活函数,表示对通道维度进行平均池化,表示对通道维度进行最大池化,w0、w1、w2、w3、w4表示可学习的参数;表示对空间维度进行平均池化,表示对空间维度进行最大池化;分别进行通道维度的平均池化和最大池化得到两个h
×
w
×
1的通道描述,将这两个描述按照通道拼接在一起,经过卷积操作,得到权重系数m
s
;最后,权重系数和特征相乘即可得到缩放后的新特征;s13、时间特征提取首先计算时间注意力值:m
t
(x
t
)=σ(w3x
t
+w4h
t-1
+b)其中,h
t-1
表示基于上一个时间段计算的影响,b表示常量,x
t
表示第t个视频片段,最后通过卷积操作获得注意力权重系数。3.根据权利要求1所述的一种基于多尺度面部信息集成的抑郁症辅助诊断方法,其特征在于,所述s2基于多尺度信息集成的视频流数据处理具体步骤如下:在首次输入中,采用5fps帧率作为输入,使总模型在图像序列空间特征的基础上学习时间信息的变化;采用平均集成策略,则集成不同采样率下的结果获得的最终预测结果y如下:在注意力机制取得关键时间段后,对关键时间段的采样率进行倍数增长,采样率关系为:rate(n)=2
n-1
rate(1)其中,f表示网络模型,w()表示网络模型的参数,rate()表示采样率,表示第i轮的输入在rate(i)的采样率下处理后作为输入数据,n表示迭代轮次。
4.根据权利要求3所述的一种基于多尺度面部信息集成的抑郁症辅助诊断方法,其特征在于,所述平均集成策略还可替换为:投票集成、堆叠集成、boosting集成、bagging集成中的任一种。5.根据权利要求1所述的一种基于多尺度面部信息集成的抑郁症辅助诊断方法,其特征在于,s3基于加权机制对不同采样率尺度下提取的面部特征进行集成学习的具体步骤如下:每次迭代的权重计算如下式所示:q
k
=max(softmax(m
t
(x
k
)))(1-q
n
)(1-q
n-1
)...(1-q
k+1
)q
k
是计算的第k次迭代中的权重值,x
k
是第k次迭代的输入,q
n
为第n轮中注意力权值最大的视频片段以及相邻片段的权值占比和,其他轮中首先计算在本轮的占比,然后与下一轮中未被选中的视频片段的权值占比和相乘,表示迭代次数越多,之前的迭代中有效信息占比越少,两次相邻迭代的比例满足:下一轮迭代的权重高于本轮迭代;最终各基学习器的集成结果计算如下式所示:y为总模型最终预测结果,m
t
为计算时间注意力值,model
i
表示学习器网络,softmax为用于计算结果的概率分布的激活函数,在模型训练前期,需要在每次迭代中经历50epochs训练后才可进入下次迭代。

技术总结
本发明公开了一种基于多尺度面部信息集成的抑郁症辅助诊断方法,首先基于时空注意力机制进行视频段特征提取,模型自适应地对重要的视频区域以及视频片段进行加权,然后对重要的视频片段进行间隔更小的采样处理,从中获取更多有效信息,作为下一轮模型学习的输入数据,最后采用合理的集成方案融合所有的模型结果,获得预测回归值。本发明的方法获得了更多的有效信息,解决了现有模型学习过程中一如大量冗余信息,丢失数据关键信息及分类模型性能不佳的问题。不佳的问题。不佳的问题。


技术研发人员:杨云 汪瑞斌 王佳舜
受保护的技术使用者:云南大学
技术研发日:2023.03.07
技术公布日:2023/7/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐