驾驶员表情识别模型的训练方法、装置、介质和电子设备与流程

未命名 10-09 阅读:120 评论:0


1.本技术涉及机器学习技术领域,具体而言,涉及一种驾驶员表情识别模型的训练方法、装置、介质和电子设备。


背景技术:

2.随着生活水平不断提高,汽车现在成为人们出行的主要交通工具,给人们带来了很大的便利。而驾驶员的驾驶状态对安全行驶有重要影响。
3.因此,本技术提供了一种驾驶员表情识别模型的训练方法,以解决上述技术问题。


技术实现要素:

4.本技术的目的在于提供一种驾驶员表情识别模型的训练方法、装置、介质和电子设备,能够解决上述提到的至少一个技术问题。
5.具体方案如下:
6.根据本技术的具体实施方式,第一方面,本技术提供一种驾驶员表情识别模型的训练方法,包括:
7.获取多批图像训练集,其中,每批图像训练集包括多张训练图像,每张训练图像包括驾驶员的面部特征信息,且每张训练图像中驾驶员的表情类型属于多种预设表情类型之一;
8.利用所述多批图像训练集训练驾驶员表情识别模型达到预设训练批次;
9.其中,所述驾驶员表情识别模型,能够对驾驶员的表情进行分类,包括resnet18子模型和多个transformer编码子模型相结合的神经网络模型,所述驾驶员表情识别模型基于softmax交叉熵损失函数和中心损失函数的计算结果提高表情识别能力。
10.可选的,所述利用所述多批图像训练集训练驾驶员表情识别模型达到预设训练批次,包括:
11.将每批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列;
12.将每张训练图像的面部特征序列分别输入所述多个transformer编码子模型,获得对应训练图像的训练表情类型;
13.当任一批统计的训练批次低于预设训练批次时,触发将下一批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列的步骤;
14.当任一批统计的训练批次达到预设训练批次时,结束训练。
15.可选的,所述resnet18子模型包括:conv1层、conv2_x层、conv3_x层、conv4_x层和conv5_x层;
16.相应地,所述将每批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列,包括:
17.通过conv1层、conv2_x层、conv3_x层、conv4_x层和conv5_x层获得每批图像训练
集中的每张训练图像的特征图;
18.对每张训练图像的特征图进行维度调整,获得对应训练图像的面部特征序列。
19.可选的,所述多个transformer编码子模型包括8个transformer编码子模型。
20.可选的,所述获取多批图像训练集,包括:
21.获取多张原始面部图像,其中,每张原始面部图像中驾驶员的表情类型属于多种预设表情类型之一;
22.对所述每张原始面部图像分别进行尺寸调整,获得对应原始面部图像的标准尺寸图像;
23.对每张标准尺寸图像分别进行数据增强处理,获得对应标准尺寸图像的多张训练图像;
24.对所述多张训练图像按批分配,获取多批图像训练集。
25.可选的,所述中心损失函数中的λ等于0.5。
26.可选的,所述预设训练批次包括200批次。
27.根据本技术的具体实施方式,第二方面,本技术提供一种驾驶员表情识别模型的训练装置,包括:
28.获取单元,用于获取多批图像训练集,其中,每批图像训练集包括多张训练图像,每张训练图像包括驾驶员的面部特征信息,且每张训练图像中驾驶员的表情类型属于多种预设表情类型之一;
29.训练单元,用于利用所述多批图像训练集训练驾驶员表情识别模型达到预设训练批次;
30.其中,所述驾驶员表情识别模型,能够对驾驶员的表情进行分类,包括resnet18子模型和多个transformer编码子模型相结合的神经网络模型3,所述驾驶员表情识别模型基于softmax交叉熵损失函数和中心损失函数的计算结果提高表情识别能力。
31.可选的,所述利用所述多批图像训练集训练驾驶员表情识别模型达到预设训练批次,包括:
32.将每批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列;
33.将每张训练图像的面部特征序列分别输入所述多个transformer编码子模型,获得对应训练图像的训练表情类型;
34.当任一批统计的训练批次低于预设训练批次时,触发将下一批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列的步骤;
35.当任一批统计的训练批次达到预设训练批次时,结束训练。
36.可选的,所述resnet18子模型包括:conv1层、conv2_x层、conv3_x层、conv4_x层和conv5_x层;
37.相应地,所述将每批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列,包括:
38.通过conv1层、conv2_x层、conv3_x层、conv4_x层和conv5_x层获得每批图像训练集中的每张训练图像的特征图;
39.对每张训练图像的特征图进行维度调整,获得对应训练图像的面部特征序列。
40.可选的,所述多个transformer编码子模型包括8个transformer编码子模型。
41.可选的,所述获取多批图像训练集,包括:
42.获取多张原始面部图像,其中,每张原始面部图像中驾驶员的表情类型属于多种预设表情类型之一;
43.对所述每张原始面部图像分别进行尺寸调整,获得对应原始面部图像的标准尺寸图像;
44.对每张标准尺寸图像分别进行数据增强处理,获得对应标准尺寸图像的多张训练图像;
45.对所述多张训练图像按批分配,获取多批图像训练集。
46.可选的,所述中心损失函数中的λ等于0.5。
47.可选的,所述预设训练批次包括200批次。
48.根据本技术的具体实施方式,第三方面,本技术提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上任一项所述驾驶员表情识别模型的训练方法。
49.根据本技术的具体实施方式,第四方面,本技术提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上任一项所述驾驶员表情识别模型的训练方法。
50.本技术实施例的上述方案与现有技术相比,至少具有以下有益效果:
51.本技术提供了一种驾驶员表情识别模型的训练方法、装置、介质和电子设备。所述方法包括:获取多批图像训练集,利用所述多批图像训练集训练驾驶员表情识别模型达到预设训练批次。本技术的驾驶员表情识别模型,基于transformer编码器结构特点,与resnet18残差网络相结合,引入中心损失函数改进表情特征分布的状况。驾驶员表情识别模型加强了表情图像中长距离特征信息之间的关联,使驾驶员表情识别模型可以提取出具有判别力的特征信息。通过softmax交叉熵损失函数与中心损失函数结合的方式更新训练参数。引入中心损失函数改进表情特征分布的状况,对同种类别的表情的内部间距进行了缩减,进而扩大了不同类别表情特征的距离,使网络更容易区分面部表情特征,提高了识别准确率。
附图说明
52.图1示出了根据本技术实施例的驾驶员表情识别模型的训练方法的流程图;
53.图2示出了根据本技术实施例的驾驶员表情识别模型的训练装置的单元框图。
具体实施方式
54.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
55.在本技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制
本技术。在本技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
56.应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
57.应当理解,尽管在本技术实施例中可能采用术语第一、第二、第三等来描述,但这些描述不应限于这些术语。这些术语仅用来将描述区分开。例如,在不脱离本技术实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
58.取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
59.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
60.特别需要说明的是,在说明书中存在的符号和/或数字,如果在附图说明中未被标记的,均不是附图标记。
61.下面结合附图详细说明本技术的可选实施例。
62.对本技术提供的实施例,即一种驾驶员表情识别模型的训练方法的实施例。
63.下面结合图1对本技术实施例进行详细说明。
64.步骤s101,获取多批图像训练集。
65.其中,每批图像训练集包括多张训练图像,每张训练图像包括驾驶员的面部特征信息,且每张训练图像中驾驶员的表情类型属于多种预设表情类型之一。
66.在训练驾驶员表情识别模型前,需要采集大量用于训练的训练图像,将训练图像分成几批图像训练集,用于分批训练驾驶员表情识别模型。每张训练图像包括驾驶员多种表情类型的面部特征信息,以便对驾驶员表情识别模型进行充分的训练,达到预设训练批次。
67.每个图像训练集中的训练图像数量影响着网络收敛的速度,数量太小,网络会来不及收敛;数量太大,显存容易不够用,系统运行缓慢。因此,根据实验环境性能,将每个图像训练集中的训练图像数量设置为64。既能使训练驾驶员表情识别模型及时收敛,也能保证系统的运行效率。
68.所述多种预设表情类型包括:愤怒类型、恐惧类型、蔑视类型、快乐类型、悲伤类型和惊讶类型。
69.在一些具体实施例中,所述获取多批图像训练集,包括以下步骤:
70.步骤s101-1,获取多张原始面部图像。
71.其中,每张原始面部图像中驾驶员的表情类型属于多种预设表情类型之一。
72.采用kmu-fed驾驶场景下人脸表情图像数据集作为原始图像数据集,原始图像数
据集中共包括1106张驾驶场景下的原始图像。
73.通过viola-jones检测算法从原始图像数据集的每张原始图像中获得驾驶员的面部区域,基于面部区域对原始图像进行裁剪,获得原始面部图像。
74.原始图像数据集按照8:2划分为训练集和测试集。训练集用于训练网络,拟合模型的。训练集中的图像按照训练批次又分为多批图像训练集,每批图像训练集中的图像是随机选取的。测试集用于对驾驶员表情识别模型进行预测,用来衡量该最优模型的性能和分类能力,本技术实施例中分类准确率是训练驾驶员表情识别模型在测试集上验证得出的。
75.步骤s101-2,对所述每张原始面部图像分别进行尺寸调整,获得对应原始面部图像的标准尺寸图像。
76.例如,标准尺寸图像的尺寸大小为224
×
224。
77.步骤s101-3,对每张标准尺寸图像分别进行数据增强处理,获得对应标准尺寸图像的多张训练图像。
78.所述对每张标准尺寸图像分别进行数据增强处理,可以理解为,采用随机水平翻转、随机旋转、随机裁剪以及随机遮挡四种数据增强方式对标准尺寸图像进行扩充。其中随机水平翻转的概率使用默认值0.5,随机旋转数据增强方式的旋转的角度范围在40度以内,随机裁剪数据增强方式将图像进行填充,填充大小32,从标准尺寸图像中随机位置裁剪出图片,裁剪的标准尺寸图像的尺寸大小为224
×
224。随机的遮挡数据增强对遮挡概率,参数使用默认值。对标准尺寸图像进行数据增强处理,增加了驾驶员表情识别模型的训练图像的数据量,使驾驶员表情识别模型有更好的泛化能力。
79.步骤s101-4,对所述多张训练图像按批分配,获取多批图像训练集。
80.输入训练图像中的每个像素除以255来实现归一化,再对归一化的图像进行标准化处理,转换为标准正态分布,使模型更加容易收敛。能够加快训练速度。
81.步骤s102,利用所述多批图像训练集训练驾驶员表情识别模型达到预设训练批次。
82.其中,所述驾驶员表情识别模型,能够对驾驶员的表情进行分类,包括resnet18子模型和多个transformer编码子模型相结合的神经网络模型,所述驾驶员表情识别模型基于softmax交叉熵损失函数和中心损失函数的计算结果提高表情识别能力。
83.在本技术实施例中,使用softmax交叉熵损失函数与中心损失函数结合的方式更新训练参数。损失函数用于衡量预测值和实际值之间的差异。对于面部表情识别任务,深度学习的特征不仅要分离,而且还需要具有一定的判断力,判别力表明了紧凑的类内变化和可分离的类间差异。softmax损失函数只能分离出不同类别中的特征,对于每个类别的类内特征不会产生影响。中心损失函数能够有效的增强网络对特征的判断力,从而使用softmax交叉熵损失函数与中心损失函数有效结合。
84.softmax交叉熵损失函数与中心损失函数有效结合的函数表达式:
85.l=ls+λlc。
86.其中,ls表示softmax交叉熵损失函数,lc表示为中心损失函数,λ表示调整系数。
87.通过改变λ的大小,有效的减小同一表情类别样本的类内距离,进而增加了不同表情类别样本之间的距离,提高了网络对表情特征的判断能力。
88.将中心损失函数与softmax损失函数相结合,来判断实际输出与预测输出之间的
接近程度,优化器使用sgd随机梯度下降方式优化损失函数进行训练,动量参数momentum设置为0.9,学习率的初始值为0.1,每经过20批训练,将学习率调整为前值的0.3倍。以便在训练初期使用较大的学习率快速接近最优值。待接近最优值后再逐步减小学习率,逐渐找到网络的最优值,因此,经过200轮的训练,便可达到预设训练批次,完成训练。
89.本技术实施例的驾驶员表情识别模型,基于transformer编码器结构特点,与resnet18残差网络相结合,引入中心损失函数改进表情特征分布的状况。驾驶员表情识别模型加强了表情图像中长距离特征信息之间的关联,使驾驶员表情识别模型可以提取出具有判别力的特征信息。通过softmax交叉熵损失函数与中心损失函数结合的方式更新训练参数。引入中心损失函数改进表情特征分布的状况,对同种类别的表情的内部间距进行了缩减,进而扩大了不同类别表情特征的距离,使网络更容易区分面部表情特征,提高了识别准确率。
90.在一些具体实施例中,所述利用所述多批图像训练集训练驾驶员表情识别模型达到预设训练批次,包括以下步骤:
91.步骤s102-1,将每批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列。
92.在一些具体实施例中,所述resnet18子模型包括:conv1层、conv2_x层、conv3_x层、conv4_x层和conv5_x层。
93.在本具体实施例中,使用前面的5个卷积层,舍弃了resnet18子模型中平均池化和全连接层。参见以下resnet18参数表:
[0094][0095]
相应地,所述将每批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列,包括以下步骤:
[0096]
步骤s102-1-1,通过conv1层、conv2_x层、conv3_x层、conv4_x层和conv5_x层获得每批图像训练集中的每张训练图像的特征图。
[0097]
所述resnet18子模型经过4次下采样,得到尺寸大小为7
×
7,通道数为512的特征图。
[0098]
步骤s102-1-2,对每张训练图像的特征图进行维度调整,获得对应训练图像的面部特征序列。
[0099]
为了使resnet18子模型的输出与transformer编码子模型的输入相适应。本具体
实施例对每张训练图像的特征图进行维度调整,将7
×
7大小的特征图进行展平,生成面部特征序列。面部特征序列的特征维度为49,通道数为512。
[0100]
步骤s102-2,将每张训练图像的面部特征序列分别输入所述多个transformer编码子模型,获得对应训练图像的训练表情类型。
[0101]
面部特征序列输入到transformer编码器后,还需要加入class token和position embedding位置编码。class token是一个用于分类的向量,该向量是一个可训练参数,用于输出最终的分类结果。position embedding位置编码同样是可训练参数,因为在transformer中采用了并行计算而放弃了顺序操作,需要在输入序列中加入位置编码,目的是获得输入序列的顺序信息,通过位置编码来得到序列的绝对或者相对位置信息。
[0102]
在一些具体实施例中,所述多个transformer编码子模型包括8个transformer编码子模型。
[0103]
transformer编码子模型包括:norm层、多头自注意力层、mlp多层感知器和第二softmax单元。将每张训练图像的面部特征序列分别输入所述多个transformer编码子模型,经过norm层归一化处理后,得到三个特征向量:查询向量、键向量和值向量。通过计算查询向量和键向量的匹配函数获得所述值向量的权重;通过第二softmax单元对权重进行归一化,将归一化后的权重和面部特征序列加权求和,获得和值;通过多头自注意力层对和值进行处理,获得注意力值;通过norm层对注意力值归一化处理,再输入到mlp多层感知器,最终获得每张训练图像的训练表情类型。
[0104]
步骤s102-3,当任一批统计的训练批次低于预设训练批次时,触发将下一批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列的步骤。
[0105]
步骤s102-4,当任一批统计的训练批次达到预设训练批次时,结束训练。
[0106]
在训练驾驶员表情识别模型时,训练图像经训练驾驶员表情识别模型识别后获得的训练表情类型可能与预设表情类型相同,也可能不同。通过统计训练分类精度,以检测训练效果。当任一批统计的训练批次达到预设训练批次时,表明达到了预期效果,不再训练驾驶员表情识别模型。当任一批统计的训练批次低于预设训练批次时,获取下一批图像训练集继续训练,直到任一批统计的训练批次达到预设训练批次为止。61可选的,所述中心损失函数中的λ等于0.5。
[0107]
所述预设训练批次包括200批次。也就是所述多批图像训练集包括200批次的图像训练集。当完成200批次对驾驶员表情识别模型的训练后,使驾驶员表情识别模型的损失函数值和训练准确率收敛,且趋于稳定了。
[0108]
本技术还提供了承接上述实施例的装置实施例,用于实现如上实施例所述的方法步骤,基于相同的名称含义的解释与如上实施例相同,具有与如上实施例相同的技术效果,此处不再赘述。
[0109]
如图2所示,本技术提供一种驾驶员表情识别模型的训练装置200,包括:
[0110]
获取单元201,用于获取多批图像训练集,其中,每批图像训练集包括多张训练图像,每张训练图像包括驾驶员的面部特征信息,且每张训练图像中驾驶员的表情类型属于多种预设表情类型之一;
[0111]
训练单元202,用于利用所述多批图像训练集训练驾驶员表情识别模型达到预设
训练批次;
[0112]
其中,所述驾驶员表情识别模型,能够对驾驶员的表情进行分类,包括resnet18子模型和多个transformer编码子模型相结合的神经网络模型,所述驾驶员表情识别模型基于softmax交叉熵损失函数和中心损失函数的计算结果提高表情识别能力。
[0113]
可选的,所述利用所述多批图像训练集训练驾驶员表情识别模型达到预设训练批次,包括:
[0114]
将每批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列;
[0115]
将每张训练图像的面部特征序列分别输入所述多个transformer编码子模型,获得对应训练图像的训练表情类型;
[0116]
当任一批统计的训练批次低于预设训练批次时,触发将下一批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列的步骤;
[0117]
当任一批统计的训练批次达到预设训练批次时,结束训练。
[0118]
可选的,所述resnet18子模型包括:conv1层、conv2_x层、conv3_x层、conv4_x层和conv5_x层;
[0119]
相应地,所述将每批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列,包括:
[0120]
通过conv1层、conv2_x层、conv3_x层、conv4_x层和conv5_x层获得每批图像训练集中的每张训练图像的特征图;
[0121]
对每张训练图像的特征图进行维度调整,获得对应训练图像的面部特征序列。
[0122]
可选的,所述多个transformer编码子模型包括8个transformer编码子模型。
[0123]
可选的,所述获取多批图像训练集,包括:
[0124]
获取多张原始面部图像,其中,每张原始面部图像中驾驶员的表情类型属于多种预设表情类型之一;
[0125]
对所述每张原始面部图像分别进行尺寸调整,获得对应原始面部图像的标准尺寸图像;
[0126]
对每张标准尺寸图像分别进行数据增强处理,获得对应标准尺寸图像的多张训练图像;
[0127]
对所述多张训练图像按批分配,获取多批图像训练集。
[0128]
可选的,所述中心损失函数中的λ等于0.5。
[0129]
可选的,所述预设训练批次包括200批次。
[0130]
本技术实施例的驾驶员表情识别模型,基于transformer编码器结构特点,与resnet18残差网络相结合,引入中心损失函数改进表情特征分布的状况。驾驶员表情识别模型加强了表情图像中长距离特征信息之间的关联,使驾驶员表情识别模型可以提取出具有判别力的特征信息。通过softmax交叉熵损失函数与中心损失函数结合的方式更新训练参数。引入中心损失函数改进表情特征分布的状况,对同种类别的表情的内部间距进行了缩减,进而扩大了不同类别表情特征的距离,使网络更容易区分面部表情特征,提高了识别准确率。
[0131]
本实施例提供一种电子设备,所述电子设备,包括:至少一个处理器;以及,与所述
至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上实施例所述的方法步骤。
[0132]
本技术实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行如上实施例所述的方法步骤。
[0133]
最后应说明的是:本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述比较简单,相关之处参见方法部分说明即可。
[0134]
以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征:
1.一种驾驶员表情识别模型的训练方法,其特征在于,包括:获取多批图像训练集,其中,每批图像训练集包括多张训练图像,每张训练图像包括驾驶员的面部特征信息,且每张训练图像中驾驶员的表情类型属于多种预设表情类型之一;利用所述多批图像训练集训练驾驶员表情识别模型达到预设训练批次;其中,所述驾驶员表情识别模型,能够对驾驶员的表情进行分类,包括resnet18子模型和多个transformer编码子模型相结合的神经网络模型,所述驾驶员表情识别模型基于softmax交叉熵损失函数和中心损失函数的计算结果提高表情识别能力。2.根据权利要求1所述的方法,其特征在于,所述利用所述多批图像训练集训练驾驶员表情识别模型达到预设训练批次,包括:将每批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列;将每张训练图像的面部特征序列分别输入所述多个transformer编码子模型,获得对应训练图像的训练表情类型;当任一批统计的训练批次低于预设训练批次时,触发将下一批训练图像集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列的步骤;当任一批统计的训练批次达到预设训练批次时,结束训练。3.根据权利要求2所述的方法,其特征在于,所述resnet18子模型包括:conv1层、conv2_x层、conv3_x层、conv4_x层和conv5_x层;相应地,所述将每批图像训练集中的每张训练图像依次输入所述resnet18子模型获取对应训练图像的面部特征序列,包括:通过conv1层、conv2_x层、conv3_x层、conv4_x层和conv5_x层获得每批图像训练集中的每张训练图像的特征图;对每张训练图像的特征图进行维度调整,获得对应训练图像的面部特征序列。4.根据权利要求1所述的方法,其特征在于,所述多个transformer编码子模型包括8个transformer编码子模型。5.根据权利要求1所述的方法,其特征在于,所述获取多批图像训练集,包括:获取多张原始面部图像,其中,每张原始面部图像中驾驶员的表情类型属于多种预设表情类型之一;对所述每张原始面部图像分别进行尺寸调整,获得对应原始面部图像的标准尺寸图像;对每张标准尺寸图像分别进行数据增强处理,获得对应标准尺寸图像的多张训练图像;对所述多张训练图像按批分配,获取多批图像训练集。6.根据权利要求1所述的方法,其特征在于,所述中心损失函数中的λ等于0.5。7.根据权利要求6所述的方法,其特征在于,所述预设训练批次包括200批次。8.一种驾驶员表情识别模型的训练装置,其特征在于,包括:获取单元,用于获取多批图像训练集,其中,每批图像训练集包括多张训练图像,每张训练图像包括驾驶员的面部特征信息,且每张训练图像中驾驶员的表情类型属于多种预设表情类型之一;
训练单元,用于利用所述多批图像训练集训练驾驶员表情识别模型达到预设训练批次;其中,所述驾驶员表情识别模型包括resnet18子模型和多个transformer编码子模型相结合的神经网络模型,所述驾驶员表情识别模型基于softmax交叉熵损失函数和中心损失函数的计算结果提高表情识别能力。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法。10.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现如权利要求1至7中任一项所述的方法。

技术总结
本申请提供了一种驾驶员表情识别模型的训练方法、装置、介质和电子设备。所述方法包括:获取多批图像训练集,利用所述多批图像训练集训练驾驶员表情识别模型达到预设训练批次。本申请的驾驶员表情识别模型,基于Transformer编码器结构特点,与ResNet18残差网络相结合,引入中心损失函数改进表情特征分布的状况。驾驶员表情识别模型加强了表情图像中长距离特征信息之间的关联,使驾驶员表情识别模型可以提取出具有判别力的特征信息。通过Softmax交叉熵损失函数与中心损失函数结合的方式更新训练参数。引入中心损失函数改进表情特征分布的状况,对同种类别的表情的内部间距进行了缩减,进而扩大了不同类别表情特征的距离,使网络更容易区分面部表情特征,提高了识别准确率。别准确率。别准确率。


技术研发人员:马业轩 刘朝阳 徐雷
受保护的技术使用者:中国第一汽车股份有限公司
技术研发日:2023.06.20
技术公布日:2023/10/7
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐