一种面向智能座舱的驾驶员分心行为识别方法及装置

未命名 10-19 阅读:128 评论:0


1.本发明涉及汽车驾驶技术领域,尤其是一种面向智能座舱的驾驶员分心行为识别方法及装置。


背景技术:

2.某国交通安全管理局在2019年的统计报告中指出,由分心驾驶导致的交通事故频频发生,死亡人数高达3142人,受伤人数较2018年增长了约1.1%。近年来,机动车驾驶员人数激增,随之引发的交通安全问题越来越多,其中90%以上的重大交通事故与营运车辆有关,且事故严重程度较高。由此可见,营运车辆驾驶员的驾驶状态需得到相应的关注。另外,驾驶员的行为识别式“交互型”智能座舱系统的重要组成部分。因此,如何有效的对营运车辆驾驶员进行姿态识别,精确及时的分类分心驾驶行为成为营运车辆智能座舱系统实现人机交互的重要环节,有效提升行驶安全。
3.现有的智能座舱系统多模态交互方式包括语音、触摸、手势、视觉、表情的识别,其主旨在于满足驾驶员需求,“读懂驾驶员”需求,通过智能座舱主动响应来提升驾驶员的愉悦体验感。但是针对营运车辆驾驶员,在保证行驶体验感的同时应更注重驾驶的安全性,因此将基于视觉姿态的驾驶员分心行为检测引入至智能座舱中能进一步提高安全性。
4.目前针对驾驶员分心行为检测的研究分为基于车辆自然驾驶数据、基于视觉的驾驶员姿态图像和基于可穿戴设备的驾驶员生理参数三类。在驾驶员分心驾驶的研究中,缺乏大量自然驾驶状态的营运车辆驾驶员驾驶图像数据,导致采用现有的视觉姿态算法不能很好的完成营运车辆驾驶员分心行为检测任务,准确率低、泛化性差,不能满足大范围应用的需求。
5.现有技术的缺点:
6.1、基于视觉姿态的方法具有非侵入和实时监测的特点,因此被广泛应用。针对采集到的驾驶员视频图像,一种是采用两阶段的算法先获取驾驶员的骨骼关节图以及相应坐标数据后再将其输入深度学习网络提取动作特征进而进行分类,但该类算法精度易受第一阶段的姿态估计算法影响,存在实时性较差的缺点;
7.2、一种是采用端到端的算法直接通过深度学习网络提取图像特征输出分类结果,该类算法虽然具有计算复杂度低和实时性较好的优势,但容易忽略图像中的关键特征导致泛化性较差。


技术实现要素:

8.有鉴于此,本发明实施例提供一种准确率高的面向智能座舱的驾驶员分心行为识别方法。
9.一方面,本发明实施例提供了一种面向智能座舱的驾驶员分心行为识别方法,包括:
10.构建第一模型;
11.将初始分心行为图像输入所述第一模型,提取所述初始分心行为图像中的驾驶员姿态识别结果;
12.将所述初始分心行为图像输入第二模型进行训练,提取所述初始分心行为图像中的关键物体识别结果;
13.基于所述驾驶员姿态识别结果与所述关键物体识别结果,通过计算得到分心行为识别结果。
14.可选地,所述构建第一模型这一步骤,包括:
15.构建第一卷积层、第二卷积层和全连接层;
16.构建ca注意力模块,所述ca注意力模块包括两个平均池化层和两个1
×
1卷积层;
17.构建倒残差模块,所述倒残差模块包括两个1
×
1卷积层和一个3
×
3深度可分离卷积层;
18.构建特征提取模块,所述特征提取模块包括两个3
×
3卷积层、两个1
×
1卷积层和若干个transformer模型;
19.根据所述第一卷积层、所述第二卷积层、所述全连接层、所述ca注意力模块、所述倒残差模块和所述特征提取模块构建第一模型。
20.可选地,所述将初始分心行为图像输入所述第一模型,提取所述初始分心行为图像中的驾驶员姿态识别结果这一步骤,包括:
21.通过所述第一卷积层对所述初始分心行为图像进行下采样,得到第一特征图;
22.通过所述ca注意力模块对所述第一特征图沿水平方向和垂直方向进行编码,得到第二特征图;
23.通过所倒残差模块对所述第二特征图进行下采样,得到第三特征图;
24.通过所述特征提取模块对所述第三特征图进行特征提取和特征融合,得到第四特征图;
25.通过所述第二卷积层将所述第四特征图的输出通道数调整为所述初始分心行为图像的通道数;
26.通过所述全连接层对所述第四特征图进行预测分类,得到所述初始分心行为图像中的驾驶员姿态识别结果。
27.可选地,所述通过所述ca注意力模块对所述第一特征图沿水平方向和垂直方向进行编码,得到第二特征图这一步骤,包括:
28.将所述第一特征图沿水平方向和垂直方向进行平均池化,得到水平方向和垂直方向上的特征信息;
29.基于水平方向和垂直方向上每个通道的特征信息,得到水平特征集合和垂直特征集合;
30.将所述水平特征集合和所述垂直特征集合进行拼接和卷积变换,得到中间特征图;
31.将所述中间特征图通过归一化和非线性操作后,得到水平独立特征图和垂直独立特征图;
32.将所述水平独立特征图和所述垂直独立特征图通过所述第二卷积层和s igmoid激活函数,得到水平注意力权重和垂直注意力权重;
33.对所述第一特征图基于所述水平注意力权重和所述垂直注意力权重进行加权计算,得到第二特征图。
34.可选地,所述将所述初始分心行为图像输入第二模型进行训练,提取所述初始分心行为图像中的关键物体识别结果这一步骤中,所述第二模型为yolov5模型,包括输入模块、主干模块和输出模块;
35.所述输入模块通过mosaic数据增强算法对所述初始分心行为图像进行数据增强,然后将图像尺寸调整至目标尺寸,得到标准图像;
36.通过主干模块对所述标准进行切片操作,然后进行拼接和卷积操作,得到初始特征图;
37.通过输出模块对所述初始特征图进行分类预测,得到关键物体识别结果。
38.可选地,所述基于所述驾驶员姿态识别结果与所述关键物体识别结果,通过计算得到分心行为识别结果这一步骤,包括:
39.将所述驾驶员姿态识别结果中的使用手机和喝水两种分心行为的识别概率矩阵与所述关键物体识别结果的识别概率矩阵进行拼接,得到目标识别概率矩阵;
40.将所述目标识别概率矩阵通过计算进行融合,得到分心行为识别结果。
41.可选地,所述基于所述驾驶员姿态识别结果与所述关键物体识别结果,通过最小值规则进行计算得到分心行为识别结果这一步骤中,所述驾驶员姿态识别结果包括安全驾驶行为、使用手机、喝水、与副驾驶交谈和整理仪容;所述关键物体识别结果包括通讯工具和饮水工具。
42.另一方面,本发明实施例还提供了一种面向智能座舱的驾驶员分心行为识别装置,包括:
43.第一模块,用于构建第一模型;
44.第二模块,用于将初始分心行为图像输入所述第一模型,提取所述初始分心行为图像中的驾驶员姿态识别结果;
45.第三模块,用于将所述初始分心行为图像输入第二模型进行训练,提取所述初始分心行为图像中的关键物体识别结果;
46.第四模块,用于基于所述驾驶员姿态识别结果与所述关键物体识别结果,通过计算得到分心行为识别结果。
47.另一方面,本发明实施例还提供了一种电子设备,包括处理器以及存储器;所述存储器用于存储程序;所述处理器执行所述程序实现如前述一种面向智能座舱的驾驶员分心行为识别方法。
48.另一方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前述一种面向智能座舱的驾驶员分心行为识别方法。
49.本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
50.本发明的实施例至少包括以下有益成果:本发明实施例通过构建第一模型,增强
了图像浅层语义中关键信息的准确定位和特征提取,也能在保证轻量化网络模型的同时提升分类网络的准确率;本发明实施例通过将第一模型识别的姿态识别结果与第二模型提取的物体识别结果进行融合,得到最终识别结果,降低了相似分心驾驶行为被错误分类的概率,提高了模型的准确率和泛化性。
附图说明
51.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
52.图1为本发明实施例提供的一种面向智能座舱的驾驶员分心行为识别方法的步骤图;
53.图2为本发明实施例提供的第一模型的结构图;
54.图3为本发明实施例提供的一种面向智能座舱的驾驶员分心行为识别方法的流程图;
55.图4为本发明实施例提供的一种面向智能座舱的驾驶员分心行为识别装置的模块图。
具体实施方式
56.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
57.一方面,本发明实施例提供了一种面向智能座舱的驾驶员分心行为识别方法,参照图1,方法具体包括步骤s100-s400。
58.s100:构建第一模型。
59.具体地,第一模型为将ca注意力模块嵌入mobi levit模型的第一卷积层和倒残差模块之间的位置,形成的基于注意力机制的mobi levit-ca模型,用于提取初始分心行为图像中驾驶员的姿态特征,增强对驾驶行为分类的关键物体信息的局部注意力。参照图2为mobi levit-ca模型的结构图。
60.可选地,构建第一卷积层、第二卷积层和全连接层;所述第一卷积层的大小为3
×
3,所述第二卷积层的大小为1
×
1,所述全连接层的大小为1
×
1;构建ca注意力模块,所述ca注意力模块包括两个平均池化层和两个1
×
1卷积层;构建倒残差模块(mobi lev2),所述倒残差模块包括两个1
×
1卷积层和一个3
×
3深度可分离卷积层,第一模型中包含7个倒残差模块;构建特征提取模块(mobi levit b lock),所述特征提取模块包括两个3
×
3卷积层、两个1
×
1卷积层和若干个transformer模型,第一模型中包含3个特征提取模块。参照图2为mobi levit-ca模型的结构图,由图2可知7个倒残差模块(mobi lev2,图2中表示为mv2)和3个特征提取模块可以划分为l ayer1、l ayer2、l ayer3、l ayer4、l ayer5这5个模块,在l ayer3中l=2,说明其中特征提取模块有2个transformer模型,在l ayer4中l=4,说明其中特征提取模块有4个transformer模型,在l ayer5中l=3,说明其中特征提取模块有3个
transformer模型。
61.s200:将初始分心行为图像输入所述第一模型,提取所述初始分心行为图像中的驾驶员姿态识别结果。
62.具体地,首先获取初始分心行为图像,本发明的分心行为为使用手机、喝水、与副驾驶交谈和整理仪容,所述驾驶员姿态识别结果包括使用手机、喝水、与副驾驶交谈、整理仪容和安全驾驶行为。所述步骤s200具体包括步骤s210-s260。
63.s210:通过所述第一卷积层对所述初始分心行为图像进行下采样,得到第一特征图。
64.具体地,所述第一卷积层的大小为3
×
3。将初始分心行为图像输入第一模型,首先通过第一卷积层进行下采样,得到第一特征图;
65.s220:通过所述ca注意力模块对所述第一特征图沿水平方向和垂直方向进行编码,得到第二特征图。
66.具体地,ca注意力是一种移动网络注意力机制,将通道注意力分解为两个1维特征编码过程,分别沿2个空间方向聚合特征,这样可以沿一个空间方向捕获远程依赖关系,同时可以沿另一空间方向保留精确的位置信息。然后将生成的特征图分别编码为一对方向感知和位置敏感的注意力地图(attent ion map),可以将其互补地应用于输入特征图,以增强关注对象的表示。ca注意力模块的输入大小和第一卷积层的输出大小相同,即16
×
16。第一特征图在经过ca注意力模块后得到了相同尺寸、特征表征更强的第二特征图,增强了驾驶行为图像的浅层语义中的关键信息的表征和注意。步骤s220具体包括步骤s221-s226。
67.s221:将所述第一特征图沿水平方向和垂直方向进行平均池化,得到水平方向和垂直方向上的特征信息。
68.具体地,将第一特征图x∈rc×h×w,分别沿水平方向和垂直方向进行平均池化操作,获得水平方向和垂直方向上每个通道的特征信息,c为通道数,h为通道的高,w为通道的宽。
69.s222:基于水平方向和垂直方向上每个通道的特征信息,得到水平特征集合和垂直特征集合。
70.具体地,基于水平方向和垂直方向的特征信息得到的平特征集合和垂直特征集合的表达式为:
[0071][0072][0073]
其中,c为通道数,h为通道的高,w为通道的宽,为水平特征集合,表示高度为h的第c通道沿水平方向上局部特征的集合;为垂直特征集合,表示宽度为w的第c通道沿垂直方向上局部特征的集合,xc(h,i)为水平方向第c通道上高度为h,宽度为i的特征,xc(j,w)为垂直方向上第c通道上高度为j,宽度为w的特征。
[0074]
s223:将所述水平特征集合和所述垂直特征集合进行拼接和卷积变换,得到中间特征图。
[0075]
具体地,将水平特征集合和垂直特征集合进行拼接和卷积变换函数,获得具有空
间信息的中间特征图,中间特征图的表达式为:
[0076]
f=δ(f1([zh,zw]))
[0077]
其中,f表示中间特征图,δ()为非线性激活函数,f1()为共享的1
×
1卷积变换函数,zh为水平特征集合,zw为垂直特征集合。
[0078]
s224:将所述中间特征图通过归一化和非线性操作后,得到水平独立特征图和垂直独立特征图。
[0079]
具体地,将所述中间特征图通过归一化和非线性操作后,得到水平独立特征图fh和垂直独立特征图fw,其中,水平独立特征图fh∈r
c/r×h,垂直独立特征图fw∈r
c/r×w,其中,c为通道数,r为控制块大小的缩减比,w为通道的宽。
[0080]
s225:将所述水平独立特征图和所述垂直独立特征图通过所述第二卷积层和sigmoid激活函数,得到水平注意力权重和垂直注意力权重。
[0081]
具体地,将所述水平独立特征图和所述垂直独立特征图通过所述第二卷积层和s igmoid激活函数,得到水平注意力权重gh和垂直注意力权重gw。
[0082]
s226:对所述第一特征图基于所述水平注意力权重和所述垂直注意力权重进行加权计算,得到第二特征图。
[0083]
具体地,所述加权计算的计算公式为:
[0084][0085]
其中,为第c通道上水平注意力权重,为第c通道上垂直注意力权重,yc(i,j)为第c通道上输出的注意力,xc(i,j)为第c通道上输入的第一特征图的特征。
[0086]
s230:通过所倒残差模块对所述第二特征图进行下采样,得到第三特征图。
[0087]
具体地,倒残差模块为mobi lev2倒残差模块,通过所倒残差模块对所述第二特征图进行下采样,得到第三特征图。
[0088]
s240:通过所述特征提取模块对所述第三特征图进行特征提取和特征融合,得到第四特征图。
[0089]
具体地,特征提取模块为mobi levit模块,实现对特征图的局部特征提取、全局特征提取和特征融合,在局部特征提取部分,利用3
×
3的卷积核完成局部特征提取的任务,接着利用1
×
1的卷积核将其输出通道数调整成全局特征提取模块所需要的输入通道数,在特征融合部分,利用1
×
1的卷积核将其输出通道数还原,利用跳跃连接的方式将还原后的特征图与最开始输入的特征图进行拼接,再通过3
×
3的卷积核完成特征融合任务,通过所述特征提取模块对所述第三特征图进行特征提取和特征融合,得到第四特征图。
[0090]
s250:通过所述第二卷积层将所述第四特征图的输出通道数调整为所述初始分心行为图像的通道数。
[0091]
具体地,第二卷积层大小为1
×
1,通过所述第二卷积层将所述第四特征图的输出通道数调整为所述初始分心行为图像的通道数。
[0092]
s260:通过所述全连接层对所述第四特征图进行预测分类,得到所述初始分心行为图像中的驾驶员姿态识别结果。
[0093]
具体地,全连接层输出神经元数为5,对应驾驶员驾驶行为的5个类别。
[0094]
s300:将所述初始分心行为图像输入第二模型进行训练,提取所述初始分心行为
图像中的关键物体识别结果。
[0095]
具体地,所述第二模型为yolov5模型,包括输入模块、主干模块和输出模块。通过yolov5模型识别驾驶员手中的手持物体,识别物体的类别信息,关键物体识别结果包括通讯工具和饮水工具,通讯工具例如手机,饮水工具例如水杯、水瓶。所述步骤s300包括步骤s310-s330。
[0096]
s310:所述输入模块通过mosaic数据增强算法对所述初始分心行为图像进行数据增强,然后将图像尺寸调整至目标尺寸,得到标准图像。
[0097]
具体地,mosaic数据增强算法是将四张图片进行随机裁剪,再拼接到一张图上作为训练数据,即每次会读取4张图像,然后对这四张图像进行翻转、缩放、色域调整等操作,生成新的图像数据,并将新图像的尺寸调整至目标尺寸,目标尺寸为608
×
608
×
3,得到标准图像。
[0098]
s320:通过主干模块对所述标准进行切片操作,然后进行拼接和卷积操作,得到初始特征图。
[0099]
具体地,通过主干模块中的注意力结构完成对标准图像的32倍下采样,即首先进行切片操作,每隔一个像素取一个值,与邻近下采样类似,将原始图像数据切分为4份数据,接着将这4份数据在通道维度上进行拼接,最后将拼接好的特征图进行卷积操作,得到初始特征图;注意力结构由4个卷积层组成。
[0100]
s330:通过输出模块对所述初始特征图进行分类预测,得到关键物体识别结果。
[0101]
具体地,输出模块通过对初始特征图提取的相关特征做物体类别预测,得到关键物体识别结果;预测采用的giou(generalized intersection over union)计算结果作为目标边界框回归拟合的损失值,预测类别设置为2类,即通讯工具和饮水工具,本发明的一个实施例选择yolov5s作为预训练权重,迭代批量大小设置为16,总迭代次数为150次。
[0102]
s400:基于所述驾驶员姿态识别结果与所述关键物体识别结果,通过计算得到分心行为识别结果。
[0103]
具体地,决策融合过程中,yolov5检测到图像中的关键物体通讯工具则判断该分心驾驶行为为使用手机,检测到图像中的关键物体为饮水工具则判断该分心驾驶行为为喝水。步骤s400具体包括步骤s410-s420:
[0104]
s410:将所述驾驶员姿态识别结果中的使用手机和喝水两种分心行为的识别概率矩阵与所述关键物体识别结果的识别概率矩阵进行拼接,得到目标识别概率矩阵。
[0105]
具体地,第一模型输出的识别结果用集合m1={m1(n1),m1(n2),...,m1(nc)}表示,其中,
·1(nc)为分类器1中第c种行为的识别率,c为行为的种类,n表示当前测试样本编号。第二模型输出的识别结果用集合m2={m2(n1),m2(n2),...,m2(nc)}表示,其中,m2(nc)为分类器2中第c种行为的识别率,c为行为的种类,n表示当前测试样本编号。将第一模型对使用手机和喝水这两类分心行为的识别概率矩阵与第二模型对关键物体的识别概率矩阵拼接用集合{value_p
ij
(n),i=1,2...k,j=1,2,...c}表示,其中,value_p
ij
(n)为目标识别概率矩阵,k表示有k个分类器(k=2),c表示有c个分心行为类别(c=2),n表示当前测试样本编号。
[0106]
s420:将所述目标识别概率矩阵通过计算进行融合,得到分心行为识别结果。
[0107]
具体地,融合的计算公式为:
[0108][0109]
其中,value_p
ij
(n)为目标识别概率矩阵,min()为取最小值函数,mid_pj(n)为中间矩阵,new_pj(n)为分心行为识别结果。
[0110]
参照图3,举例说明本发明一种面向智能座舱的驾驶员分心行为识别方法的实现。
[0111]
1、首先获取初始分心行为图像,获取7辆客车、2辆公交、2辆货车和4辆出租车的驾驶员图像,涉及到的道路类型包括国道、省道、高速公路以及城市道路,环境条件涵盖了晴天、阴天等不同天气状况,划分了五种驾驶行为,分别是安全驾驶行为、使用手机、喝水、与副驾驶交谈和整理仪容,一共3025张驾驶行为图片作为初始分心行为图像;
[0112]
2、将初始分心行为图像输入mobilevit-ca模型,得到图像中的驾驶员姿态识别结果;将初始分心行为图像输入yolov5模型,得到关键物体识别结果;
[0113]
3、最后将姿态识别结果和关键物体识别结果进行计算,得到分心行为识别结果。
[0114]
综上所述,本发明实施例的一种面向智能座舱的驾驶员分心行为识别方法具有以下优点:
[0115]
1、本发明实施例通过将ca注意力模块嵌入至mobilevit模型的主干网络,构建mobilevit-ca模型,增强了图像浅层语义中关键信息的准确定位和特征提取,也能在保证轻量化网络模型的同时提升分类网络的准确率;
[0116]
2、本发明实施例通过将mobilevit-ca模型识别的姿态特征与yolov5模型提取的物体识别结果进行融合,得到最终识别结果,降低了相似分心驾驶行为被错误分类的概率,提高了模型的准确率和泛化性。
[0117]
另一方面,参照图4,本发明实施例还提供了一种面向智能座舱的驾驶员分心行为识别装置,包括:
[0118]
第一模块401,用于构建第一模型;
[0119]
第二模块402,用于将初始分心行为图像输入所述第一模型,提取所述初始分心行为图像中的驾驶员姿态识别结果;
[0120]
第三模块403,用于将所述初始分心行为图像输入第二模型进行训练,提取所述初始分心行为图像中的关键物体识别结果;
[0121]
第四模块404,用于基于所述驾驶员姿态识别结果与所述关键物体识别结果,通过计算得到分心行为识别结果。
[0122]
另一方面,本发明实施例还提供了一种电子设备,包括处理器以及存储器;所述存储器用于存储程序;所述处理器执行所述程序实现如前述一种面向智能座舱的驾驶员分心行为识别方法。
[0123]
另一方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前述一种面向智能座舱的驾驶员分心行为识别方法。
[0124]
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该
计算机设备执行图1所示的方法。
[0125]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0126]
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0127]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-on ly memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0128]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0129]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(ram)、只读存储器(rom)、可擦除可编辑只读存储器(eprom或闪速存储器)、光纤装置以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0130]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下
列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0131]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0132]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0133]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

技术特征:
1.一种面向智能座舱的驾驶员分心行为识别方法,其特征在于,包括:构建第一模型;将初始分心行为图像输入所述第一模型,提取所述初始分心行为图像中的驾驶员姿态识别结果;将所述初始分心行为图像输入第二模型进行训练,提取所述初始分心行为图像中的关键物体识别结果;基于所述驾驶员姿态识别结果与所述关键物体识别结果,通过计算得到分心行为识别结果。2.根据权利要求1所述的一种面向智能座舱的驾驶员分心行为识别方法,其特征在于,所述构建第一模型这一步骤,包括:构建第一卷积层、第二卷积层和全连接层;构建ca注意力模块,所述ca注意力模块包括两个平均池化层和两个1
×
1卷积层;构建倒残差模块,所述倒残差模块包括两个1
×
1卷积层和一个3
×
3深度可分离卷积层;构建特征提取模块,所述特征提取模块包括两个3
×
3卷积层、两个1
×
1卷积层和若干个transformer模型;根据所述第一卷积层、所述第二卷积层、所述全连接层、所述ca注意力模块、所述倒残差模块和所述特征提取模块构建第一模型。3.根据权利要求2所述的一种面向智能座舱的驾驶员分心行为识别方法,其特征在于,所述将初始分心行为图像输入所述第一模型,提取所述初始分心行为图像中的驾驶员姿态识别结果这一步骤,包括:通过所述第一卷积层对所述初始分心行为图像进行下采样,得到第一特征图;通过所述ca注意力模块对所述第一特征图沿水平方向和垂直方向进行编码,得到第二特征图;通过所倒残差模块对所述第二特征图进行下采样,得到第三特征图;通过所述特征提取模块对所述第三特征图进行特征提取和特征融合,得到第四特征图;通过所述第二卷积层将所述第四特征图的输出通道数调整为所述初始分心行为图像的通道数;通过所述全连接层对所述第四特征图进行预测分类,得到所述初始分心行为图像中的驾驶员姿态识别结果。4.根据权利要求3所述的一种面向智能座舱的驾驶员分心行为识别方法,其特征在于,所述通过所述ca注意力模块对所述第一特征图沿水平方向和垂直方向进行编码,得到第二特征图这一步骤,包括:将所述第一特征图沿水平方向和垂直方向进行平均池化,得到水平方向和垂直方向上的特征信息;基于水平方向和垂直方向上每个通道的特征信息,得到水平特征集合和垂直特征集合;将所述水平特征集合和所述垂直特征集合进行拼接和卷积变换,得到中间特征图;
将所述中间特征图通过归一化和非线性操作后,得到水平独立特征图和垂直独立特征图;将所述水平独立特征图和所述垂直独立特征图通过所述第二卷积层和sigmoid激活函数,得到水平注意力权重和垂直注意力权重;对所述第一特征图基于所述水平注意力权重和所述垂直注意力权重进行加权计算,得到第二特征图。5.根据权利要求1所述的一种面向智能座舱的驾驶员分心行为识别方法,其特征在于,所述将所述初始分心行为图像输入第二模型进行训练,提取所述初始分心行为图像中的关键物体识别结果这一步骤中,所述第二模型为yolov5模型,包括输入模块、主干模块和输出模块;所述输入模块通过mosaic数据增强算法对所述初始分心行为图像进行数据增强,然后将图像尺寸调整至目标尺寸,得到标准图像;通过主干模块对所述标准进行切片操作,然后进行拼接和卷积操作,得到初始特征图;通过输出模块对所述初始特征图进行分类预测,得到关键物体识别结果。6.根据权利要求1所述的一种面向智能座舱的驾驶员分心行为识别方法,其特征在于,所述基于所述驾驶员姿态识别结果与所述关键物体识别结果,通过计算得到分心行为识别结果这一步骤,包括:将所述驾驶员姿态识别结果中的使用手机和喝水两种分心行为的识别概率矩阵与所述关键物体识别结果的识别概率矩阵进行拼接,得到目标识别概率矩阵;将所述目标识别概率矩阵通过计算进行融合,得到分心行为识别结果。7.根据权利要求1所述的一种面向智能座舱的驾驶员分心行为识别方法,其特征在于,所述基于所述驾驶员姿态识别结果与所述关键物体识别结果,通过最小值规则进行计算得到分心行为识别结果这一步骤中,所述驾驶员姿态识别结果包括安全驾驶行为、使用手机、喝水、与副驾驶交谈和整理仪容;所述关键物体识别结果包括通讯工具和饮水工具。8.一种面向智能座舱的驾驶员分心行为识别装置,其特征在于,包括:第一模块,用于构建第一模型;第二模块,用于将初始分心行为图像输入所述第一模型,提取所述初始分心行为图像中的驾驶员姿态识别结果;第三模块,用于将所述初始分心行为图像输入第二模型进行训练,提取所述初始分心行为图像中的关键物体识别结果;第四模块,用于基于所述驾驶员姿态识别结果与所述关键物体识别结果,通过计算得到分心行为识别结果。9.一种电子设备,其特征在于,包括处理器以及存储器;所述存储器用于存储程序;所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。

技术总结
本发明公开了一种面向智能座舱的驾驶员分心行为识别方法及装置,方法包括:构建第一模型;将初始分心行为图像输入所述第一模型,提取初始分心行为图像中的驾驶员姿态识别结果;将初始分心行为图像输入第二模型进行训练,提取初始分心行为图像中的关键物体识别结果;基于驾驶员姿态识别结果与关键物体识别结果,通过计算得到分心行为识别结果。本发明通过嵌入CA注意力模块,增强了图像浅层语义中关键信息的准确定位和特征提取,也能在保证轻量化网络模型的同时提升分类网络的准确率;本发明还将姿态与物体二者的识别结果进行融合,降低了相似分心驾驶行为被错误分类的概率,提高了模型的准确率和泛化性;可广泛应用于汽车驾驶技术领域。驶技术领域。驶技术领域。


技术研发人员:贺宜 鲁曼可
受保护的技术使用者:武汉理工大学
技术研发日:2023.06.02
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐