一种基于多尺度注意力与数据增强的安检违禁品检测方法
未命名
10-19
阅读:140
评论:0
1.本发明属于目标检测领域,具体是一种基于多尺度注意力与数据增强的安检违禁品检测方法。
背景技术:
2.在地铁站、火车站、机场等人员密集的大型公共交通枢纽,x光安检机是必备的安检设备,用于检查乘客的行李中是否携带有管制刀具、打火机、枪支等违禁物品,以保障公众安全。然而,在实际安检过程中,每件行李都需要人工安检员主动观察x光成像结果来判断是否包括违禁品。但实际场景中的违禁品数量很少,安检员容易因疲劳或注意力不集中而出现漏检的情况,长时间的重复性工作也不利于安检员的身心健康。另一方面,扫描图像中的背景物品错综复杂,限制了安检员的检测效率,在出行高峰期会造成乘客拥堵。因此,安检违禁品自动检测算法具有重要的实用价值。
3.深度学习算法的快速发展使得基于卷积神经网络(cnn)的计算机视觉算法在图像处理和视觉理解等方面的许多场景下成为主流工具,从安检x光图像中定位违禁物品可以归类于计算机视觉中的目标检测问题。目前,违禁品检测算法使用的都是基于cnn的模型,包括侧重于提高准确性的两阶段算法和侧重于提高实时性的单阶段算法。随着近几年transformer结构被引入计算机视觉领域,detr作为一种新的检测框架,将目标检测视为一个直接集预测问题,消除了许多手工设计组件的需要,简化了检测流程,但它未被应用于解决违禁品检测问题。
4.在违禁品检测领域,由于公开的高质量数据集较少,模型容易因缺乏训练数据而产生过拟合,鲁棒性差。针对该问题,可以采用数据增强方法来产生更多虚假样本,增加训练数据,提高模型的泛化能力。cutout在图像上随机选择一块区域,然后抹除该区域所有像素,但这种处理方法容易遮挡图像中的关键目标,使图像中的关键特征丢失,影响模型学习。mixup通过对两幅图像进行加权融合生成一副新的图像,在不同类别的样本中形成了新的混合类别样本,平滑了少数类样本的分布,提高了模型的泛化性能,但在混叠严重的数据集上,该方法会加重背景混叠,限制了模型准确率的提高。cutmix使用不同图像中的一块区域替换当前图像的一块区域,而不是mixup方法的全图混合,在一定程度上减轻了mixup的背景混叠,但选取的区域是随机的,容易选取非目标区域,导致目标对象的标签不匹配,以及出现关键目标被裁剪的情况,导致关键特征的丢失。
5.违禁品检测的难点在于,x光具有穿透性,且扫描的行李箱包中的物体随机摆放,从而在安检x光图像中的不同大小目标物品容易与其他物品产生重叠或遮挡,使检测过程受到杂乱的背景区域噪声的干扰。已有的解决方法主要利用语义信息更强的高层特征来消除低层噪声,以及引入注意力机制来增强目标的边缘轮廓、颜色等低层特征。chr模型试图在网络的不同层次之间插入反向连接,通过高层特征为低层特征提供的高级监督信息消除背景噪声的干扰,但其中的细化函数并未构建显式的表达,且研究的是分类问题。doam模块考虑让模型更多地关注目标的轮廓形状和颜色纹理特征,但该模块只在模型输入端起作
用,未考虑目标的多尺度信息,效果较小。lim模块结合以上两种思想,利用语义信息更强的高层特征来消除低层特征中的噪声,同时通过提取四个方向的边界信息来强化目标的可识别特征,但是边缘提取方法简单,不够准确,容易产生错误信息。丁健刚等人在专利一种基于高分辨率x-ray图像的异物智能检测方法及系统中提出一种多尺度特征编码网络,以分层金字塔的方式进行多尺度特征融合,没有在特征提取的阶段直接获得多尺度信息,不利于局部细节特征的精细化,并且该专利在骨干网络中提出的通道注意力和空间注意力机制不能直接与多尺度特征信息交互,不利于对不同尺寸背景物品噪声的过滤。
技术实现要素:
6.为了解决上述问题,本发明提供了一种基于多尺度注意力与数据增强的安检违禁品检测方法,使用objectmix数据增强方法准确选取目标区域融合输入图像,提高模型对复杂数据的泛化能力,并设计msanet骨干网络,以更细粒度的方式有效提取细化的多尺度特征,同时通过多尺度注意力机制凸显目标区域信息,过滤无关背景噪声,提高了违禁品检测的准确率。
7.本发明的目的至少通过如下技术方案之一实现。
8.一种基于多尺度注意力与数据增强的安检违禁品检测方法,提出objectmix数据增强方法丰富数据的多样性,设计msanet骨干网络增强对目标特征信息的提取能力,并进一步构建msa-detr模型实现x光安检图像中违禁品的检测,包括以下步骤:
9.s1、构建违禁品目标检测模型msa-detr,包括数据增强模块、骨干网络、位置编码模块、transformer编码器-解码器和目标检测头;
10.s2、在自然图像分类数据集上对骨干网络msanet进行训练,得到msanet的预训练权重,然后在自然图像目标检测数据集上对加载msanet的预训练权重后的违禁品目标检测模型msa-detr进行训练,得到msa-detr的预训练权重;
11.s3、调整违禁品目标检测模型的目标检测头,加载s2中得到的msa-detr的预训练权重以初始化违禁品目标检测模型,然后在安检x光图像数据集上对加载预训练权重后的违禁品目标检测模型重新训练,得到训练好的msa-detr模型;
12.s4、对训练好的违禁品目标检测模型进行调整,输入待检测x光图像,得到违禁品的类别和边界框。
13.进一步地,步骤s1中,所述数据增强模块使用objectmix方法对输入图像数据进行预处理,具体如下:
14.在一张输入图像x1的随机区域中,截取另一张输入图像x2中所有违禁品目标区域p与其按照设定的比例λ多次融合后作为输入数据并在得到违禁品目标检测模型的输出后根据融合比例λ的大小来计算违禁品目标检测模型的损失函数,计算过程如下式所示:
[0015][0016][0017]
其中,p表示图像x2中所有违禁品目标区域的集合,m表示对应于图像x1被融合的随
机区域的图像二进制掩码的集合,p与m中的元素个数相同;λ表示随机抽样得到的融合比例,r为一个随机数,通过超参数r来控制数据增强样本的比例;
⊙
表示矩阵对应元素相乘,表示在x1被融合区域位置相加;l1表示x1被融合处理前的损失函数,l
p
表示目标检测模型输出与新目标集合p对应的边界框信息之间的损失函数,表示融合处理后目标检测模型的损失函数。
[0018]
进一步地,步骤s1中,所述骨干网络msanet先将输入图像通过步长均为2的7
×
7卷积层和3
×
3最大池化层,再通过由多个基本残差块msanet block堆叠而成的网络层,在训练图像分类任务时最后还需要分别经过全局平均池化层、全连接层和softmax函数得到msanet的输出;
[0019]
每个基本残差块msanet block由1
×
1卷积层、基础模块msa module和1
×
1卷积层按残差方式连接,基础模块msa module由多尺度特征提取模块、多尺度通道注意力模块和多尺度空间注意力模块组成;
[0020]
骨干网络的输入图像大小为h
×
w,输出特征图大小分别为h/8
×
w/8、h/16
×
w/16和h/32
×
w/32,再对其中最小尺寸的特征图进行步长为2的3
×
3卷积,最终得到四个不同尺度的图像特征图。
[0021]
进一步地,所述多尺度特征提取模块将输入特征图x按通道维度平均分成s个子特征图xi,其中x∈rc×h×w,再将每个子特征图xi分别通过一组3
×
3卷积层,然后对各组卷积计算结果进行叠加融合后输出s个特征图yi,其中则yi包括前i-1个子特征图经过卷积运算后的多尺度信息,计算过程如下式所示:
[0022][0023]
其中,ki表示对应于第i个子特征图xi的一组3
×
3卷积层;为减少多尺度特征提取模块的参数量,3
×
3卷积运算采用分组卷积。
[0024]
进一步地,所述多尺度通道注意力模块对于多尺度特征提取模块输出的每个子特征图yi,先进行空间维度上的全局平均池化和最大池化分别得到f
ic-avg
和f
ic-max
以聚合全局空间信息,其中f
ic-avg
,再通过共享的多层感知机捕获通道之间的相互依赖性,二者叠加后利用sigmoid函数来激活通道注意力图其中为了实现不同尺度特征图之间的跨通道信息交互,对所有通道注意力图进行softmax操作获得多尺度通道注意力图其中使违禁品目标检测模型能够自适应地选取特定尺度特征图的特定通道信息,然后根据中的各通道权重对每个特征图yi进行重新校准得到其中计算过程如下式所示:
[0025]
[0026][0027][0028]
其中,mlp为包括一层隐藏层的多层感知机,σ表示sigmoid函数,表示矩阵对应元素相乘;
[0029]
最后,将特征图在通道维度上进行拼接,得到多尺度通道注意力模块的输出特征图uc如下:
[0030][0031]
其中,uc∈rc×h×w。
[0032]
进一步地,所述多尺度空间注意力模块对于多尺度特征提取模块输出的每个子特征图yi,先进行通道维度上的全局平均池化和最大池化分别得到和以聚合全局通道信息,其中全局通道信息,其中再将二者连接后通过一个可变形卷积层捕获空间位置之间的相互依赖性,并利用sigmoid函数来激活空间注意力图其中为了实现不同尺度特征图之间的跨空间信息交互,对所有空间注意力图进行softmax操作获得多尺度空间注意力图其中使违禁品目标检测模型能够自适应地选取特定尺度特征图的特定空间位置信息,然后根据中的各空间位置权重对每个特征图yi进行重新校准得到其中计算过程如下式所示:
[0033][0034][0035][0036]
其中,为卷积核大小为7
×
7的可变形卷积,以增大感受野,适应目标形状、大小的变化,σ表示sigmoid函数,表示矩阵对应元素相乘;
[0037]
最后,将特征图在通道维度上进行拼接,得到多尺度空间注意力模块的输出特征图us如下:
[0038][0039]
其中,us∈rc×h×w。
[0040]
进一步地,所述基础模块msa module的输出特征图u由多尺度通道注意力模块的输出特征图uc和多尺度空间注意力模块的输出特征图us按对应元素求和得到,如下式所示:
[0041]
u=uc+us[0042]
进一步地,步骤s1中,所述违禁品目标检测模型msa-detr的整体检测流程为:
[0043]
先将输入x光图像通过数据增强模块进行预处理,使部分输入图像转化为objectmix变换后的图像;再将处理后的图像数据通过骨干网络msanet提取得到多尺度特征图;同时,对多尺度特征图分别进行位置编码,以表示特征图中的位置信息;将多尺度特征图及其位置编码进行维度变换,转换为序列化数据后输入transformer编码器-解码器结构,输出固定数量的n个目标矩形框的特征信息,其中编码器的自注意力模块和解码器的交叉注意力模块使用多尺度可变形注意力模块;最后,目标检测头中的投影矩阵将预测的n个目标矩形框的特征信息解耦为对应的类别和边界框坐标。
[0044]
进一步地,步骤s4中,对训练好的违禁品目标检测模型进行调整,具体如下:
[0045]
移除训练好的违禁品目标检测模型中的数据增强模块,避免在图像中引入额外违禁品,影响对真实违禁品的检测。
[0046]
与现有技术相比,本发明至少具有以下技术效果:
[0047]
本发明针对安检x光图像中的违禁品的特点,提出objectmix数据增强方法扩充样本数据分布,增强模型的鲁棒性,设计基于多尺度注意力机制的msanet骨干网络强化对目标的多尺度特征提取能力和在复杂背景中识别违禁品的能力,构建了一个msa-detr违禁品目标检测模型,能够在背景杂乱、物品相互重叠的x光图像中有效地定位违禁品目标,提高安检的效率和可靠性。
附图说明
[0048]
图1是本发明实施例一种基于多尺度注意力与数据增强的安检违禁品检测方法的整体流程图;
[0049]
图2是本发明实施例中的msanet block示意图;
[0050]
图3是本发明实施例中的多尺度特征提取模块示意图;
[0051]
图4是本发明实施例中的通道注意力模块示意图;
[0052]
图5是本发明实施例中的多尺度通道注意力模块示意图;
[0053]
图6是本发明实施例中的空间注意力模块示意图;
[0054]
图7是本发明实施例中的多尺度空间注意力模块示意图。
具体实施方式
[0055]
为了使本发明的目的、技术方案和技术效果更加清楚明白,下面结合本技术实施示例附图对本发明的具体实施方式做进一步说明。所描述的实施例仅是本技术的一部分实施例,不是全部的实施例。本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0056]
本发明采用pidray数据集作为实验数据集,该数据集包括来自3台不同安检机的47677张图像,每张图像包括违禁品的类别和边界框标注信息,检测目标有枪、刀、扳手、钳子、剪刀、锤子、手铐、警棍、喷雾器、充电宝、打火机和子弹共12个类别。其中,测试集按照检测难度被划分为easy、hard和hidden三个子集。
[0057]
实施例1:
[0058]
一种基于多尺度注意力与数据增强的安检违禁品检测方法,提出objectmix数据
增强方法丰富数据的多样性,构建msanet骨干网络增强对目标特征信息的提取能力,并进一步构建msa-detr模型实现x光安检图像中违禁品的检测,包括以下步骤:
[0059]
s1、构建违禁品目标检测模型msa-detr,包括数据增强模块、骨干网络、位置编码模块、transformer编码器-解码器和目标检测头,如图1所示;
[0060]
本实施例中,先对输入图像进行随机水平翻转、随机缩放、随机裁剪、归一化等基本的预处理操作;随机缩放随机调整输入图像的大小,使短边最短为480像素,最长为800像素,而长边最长为1333像素。
[0061]
所述数据增强模块使用objectmix方法对预处理后的输入图像数据进行进一步处理,具体如下:
[0062]
在一张输入图像x1的随机区域中,截取另一张输入图像x2中所有违禁品目标区域p与其按照设定的比例λ多次融合后作为输入数据并在得到违禁品目标检测模型的输出后根据融合比例λ的大小来计算违禁品目标检测模型的损失函数,计算过程如以下所示:
[0063][0064]
其中,p表示图像x2中所有违禁品目标区域的集合,m表示对应于图像x1被融合的随机区域的图像二进制掩码的集合,p与m中的元素个数相同;λ表示在贝塔分布beta(β,β)中随机抽样得到的融合比例,r为一个[0,1)内的随机数,通过超参数r来控制数据增强样本的比例;
⊙
表示矩阵对应元素相乘,表示在x1被融合区域位置相加。
[0065][0066]
其中,l1表示x1被融合处理前的损失函数,l
p
表示目标检测模型输出与新目标集合p对应的边界框信息之间的损失函数,表示融合处理后目标检测模型的损失函数;损失函数包括分类损失和边界框回归损失。
[0067]
为了采样得到图像二进制掩码m,根据p中违禁品目标的宽rw和高rh在图像x1中随机选取多个矩形区域b=(r
x
,ry,rw,rh),如下式所示:
[0068]rx
~unif(0,w-rw)
[0069]ry
~unif(0,h-rh)
[0070]
其中,(r
x
,ry)为矩形区域b的左上角坐标,w和h表示图像x1的宽和高,unif(a,b)表示均匀分布。
[0071]
所述骨干网络msanet先将输入图像通过步长均为2的7
×
7卷积层和3
×
3最大池化层,再通过由多个基本残差块msanet block堆叠而成的网络层,在训练图像分类任务时最后还需要分别经过全局平均池化层、全连接层和softmax函数得到msanet的输出;
[0072]
每个基本残差块msanet block由1
×
1卷积层、基础模块msa module和1
×
1卷积层按残差方式连接,如图2所示,基础模块msa module由多尺度特征提取模块、多尺度通道注意力模块和多尺度空间注意力模块组成;
[0073]
骨干网络的输入图像大小为h
×
w,输出特征图大小分别为h/8
×
w/8、h/16
×
w/16和h/32
×
w/32,再通过1
×
1卷积以及对其中最小尺寸的特征图进行步长为2的3
×
3卷积,最
终得到h/8
×
w/8、h/16
×
w/16、h/32
×
w/32和h/64
×
w/64四个不同尺度、通道数均为256的图像特征图。
[0074]
所述多尺度特征提取模块将输入特征图x按通道维度平均分成s个子特征图xi,其中x∈rc×h×w,再将每个子特征图xi分别通过一组3
×
3卷积层,然后对各组卷积计算结果进行叠加融合后输出s个特征图yi,其中则yi包括前i-1个子特征图经过卷积运算后的多尺度信息,如图3所示,计算过程如下式:
[0075][0076]
其中,ki表示对应于第i个子特征图xi的一组3
×
3卷积层;为减少多尺度特征提取模块的参数量,3
×
3卷积运算采用分组卷积。
[0077]
本实施例中,s=4,3
×
3分组卷积的组数为4。
[0078]
所述多尺度通道注意力模块对于多尺度特征提取模块输出的每个子特征图yi,先进行空间维度上的全局平均池化和最大池化分别得到f
ic-avg
和f
ic-max
以聚合全局空间信息,其中f
ic-avg
,再通过共享的多层感知机捕获通道之间的相互依赖性,二者叠加后利用sigmoid函数来激活通道注意力图其中如图4所示;为了实现不同尺度特征图之间的跨通道信息交互,对所有通道注意力图进行softmax操作获得多尺度通道注意力图其中使模型能够自适应地选取特定尺度特征图的特定通道信息,然后根据中的各通道权重对每个特征图yi进行重新校准得到其中其中如图5所示,计算过程如下式:
[0079][0080][0081][0082]
其中,mlp为包括一层节点数为c/r的隐藏层并在该隐藏层后应用relu激活函数的多层感知机,超参数r用于控制参数量的减少,σ表示sigmoid函数,表示矩阵对应元素相乘;
[0083]
最后,将特征图在通道维度上进行拼接,得到多尺度通道注意力模块的输出特征图uc如下:
[0084][0085]
其中,uc∈rc×h×w。
[0086]
所述多尺度空间注意力模块对于多尺度特征提取模块输出的每个子特征图yi,先进行通道维度上的全局平均池化和最大池化分别得到和以聚合全局通道
信息,其中信息,其中再将二者连接后通过一个可变形卷积层捕获空间位置之间的相互依赖性,并利用sigmoid函数来激活空间注意力图其中如图6所示;为了实现不同尺度特征图之间的跨空间信息交互,对所有空间注意力图进行softmax操作获得多尺度空间注意力图其中使模型能够自适应地选取特定尺度特征图的特定空间位置信息,然后根据中的各空间位置权重对每个特征图yi进行重新校准得到其中如图7所示,计算过程如下式:
[0087][0088][0089][0090]
其中,为卷积核大小为7
×
7的可变形卷积,以增大感受野,适应目标形状、大小的变化,σ表示sigmoid函数,表示矩阵对应元素相乘;
[0091]
可变形卷积运算在卷积核每个采样位置p+pk的基础上,额外学习一个偏移量δpk,以适应目标形状、大小的变化,同时引入调制量δmk来调节不同空间位置的输入特征振幅,计算过程如下式:
[0092][0093]
其中,k表示卷积核采样点数,x(p+pk+δpk)表示位置p+pk+δpk的输入特征值,y(p)表示位置p的输出特征值,wk为第k个采样点的卷积核权重。
[0094]
偏移量δpk和调制量δmk是将输入特征图通过一个常规的卷积层来获得的。该卷积层的输出特征图空间大小与输入特征图相同,输出通道数为3k,其中前2k个通道对应k个二维偏移量δpk,后k个通道输入到sigmoid层得到δmk,因此δmk∈(0,1)。由于δpk通常为非整数,在计算x(p+pk+δpk)时使用双线性插值法。
[0095]
最后,将特征图在通道维度上进行拼接,得到多尺度空间注意力模块的输出特征图us如下:
[0096][0097]
其中,us∈rc×h×w。
[0098]
所述基础模块msa module的输出特征图u由多尺度通道注意力模块的输出特征图uc和多尺度空间注意力模块的输出特征图us按对应元素求和得到,如下式:
[0099]
u=uc+us[0100]
所述违禁品目标检测模型msa-detr的整体检测流程为:
[0101]
先将输入x光图像通过数据增强模块进行预处理,使部分输入图像转化为objectmix变换后的图像;再将处理后的图像数据通过骨干网络msanet提取得到多尺度特征图;同时,对多尺度特征图分别进行位置编码,以表示特征图中的位置信息;将多尺度特征图及其位置编码进行维度变换,转换为序列化数据后输入transformer编码器-解码器结构,输出固定数量的n个目标矩形框的特征信息,其中编码器的自注意力模块和解码器的交叉注意力模块使用多尺度可变形注意力模块;最后,目标检测头中的投影矩阵将预测的n个目标矩形框的特征信息解耦为对应的类别和边界框坐标。
[0102]
本实施例中,位置编码模块使用正弦和余弦函数对特征图的每个位置进行了固定的二维编码。编码长度为256,前128维和后128维分别代表x方向和y方向的位置编码。
[0103]
transformer编码器-解码器中使用的多尺度可变形注意力模块为多尺度特征图上的每个查询只分配少量的键,用于缓解模型收敛速度慢和计算复杂度高的问题,计算过程如下式所示:
[0104][0105]
其中,表示l个尺度的输入特征图,表示查询元素q参考点的归一化坐标,zq为查询特征,k表示键的采样数量,m表示注意力头的数量,a
mlqk
和δp
mlqk
分别为注意力权重和采样偏移量,由对zq进行线性矩阵变换所得,函数将归一化坐标缩放到第l层特征图。
[0106]
本实施例中,l=4,k=4,m=8,编码器和解码器的层数均为6,目标查询的数量为300。
[0107]
目标检测头通过一个全连接层预测类别,一个三层感知机预测边界框坐标;在预测类别标签时使用softmax函数,并且有一个额外的标签来表示背景类边界框;预测的边界框坐标为相对于输入图像的归一化中心坐标、高度和宽度;本实施例中,检测头预测的边界框数量为300。
[0108]
s2、在自然图像分类数据集上对骨干网络msanet进行训练,得到msanet的预训练权重,然后在自然图像目标检测数据集上对加载msanet的预训练权重后的违禁品目标检测模型msa-detr进行训练,得到msa-detr的预训练权重;
[0109]
本实施例中,为了减少过拟合以及更好地发挥transformer结构强大的全局建模能力,先将骨干网络在imagenet数据集上预训练,再让整个检测模型在coco 2017数据集上进行预训练;在计算损失函数之前,首先通过匈牙利二分匹配算法得到预测框与真值框的一一匹配关系;对边界框的分类损失采用focal loss损失函数,以缓解正负样本的不平衡,并引入l1 loss和giou loss损失函数回归边界框坐标;检测模型的总体损失函数为三者的加权之和,权重分别为1、5和2。
[0110]
s3、调整违禁品目标检测模型的目标检测头,将类别数修改为12,加载s2中得到的msa-detr的预训练权重以初始化违禁品目标检测模型,然后在安检x光图像数据集pidray上对加载预训练权重后的违禁品目标检测模型重新训练,得到训练好的msa-detr模型;
[0111]
s4、对训练好的违禁品目标检测模型进行调整,移除训练好的违禁品目标检测模
型中的数据增强模块,避免在图像中引入额外违禁品,影响对真实违禁品的检测,输入待检测x光图像,得到违禁品的类别和边界框。
[0112]
实施例2:
[0113]
本实施例中,与实施例1不同,为了加快检测模型训练时的收敛速度,在transformer解码器模块中,除了实施例1中的二分匹配任务外,本实施例为解码器查询增加了一个去噪任务。该任务的输入为带有噪声的真值框,输出为去除噪声重构后的真值框。
[0114]
具体而言,去噪任务对每张输入图片的所有真值框的类别标签和边界框坐标添加随机噪声,并且为了提高去噪效率,对每个真值框添加了多组随机噪声,以得到多个含噪真值框。该任务以中心点移动和边界框缩放两种方式为边界框坐标添加噪声,并定义λ1和λ2为这两种噪声的尺度因子,其中λ1,λ2∈(0,1)。中心点移动为边界框的中心点添加了随机偏移量(δx,δy),其中量(δx,δy),其中w和h为边界框的宽度和高度,使移动后的中心点坐标仍然在原边界框范围内;边界框缩放则分别在[(1-λ2)w,(1+λ2)w]和[(1-λ2)h,(1+λ2)h]内随机采样一个宽度值和高度值后对边界框大小进行调整。对于类别标签,该任务以比例γ随机地将真值框标签翻转为其他标签,标签翻转迫使模型依据含噪边界框预测真实标签,从而更好地捕获标签和边界框之间的关系。本实施例中,λ1=0.4,λ2=0.4,γ=0.2,含噪真值框的组数为5。
[0115]
与违禁品目标检测模型msa-detr的损失函数相同,去噪任务的重构损失函数使用了focal loss、l1 loss和giou loss。此外,还需要利用注意力掩码来防止去噪部分到匹配部分、不同去噪组之间的信息泄露。在违禁品目标检测模型进行推理时,移除去噪任务,只保留匹配任务,避免额外的计算开销。
[0116]
实施例3:
[0117]
本实施例中,与实施例1不同,边界框回归损失函数被替换为smooth l1loss和ciou loss,以提高目标回归的准确性。
[0118]
smooth l1 loss的计算公式如下所示:
[0119][0120]
其中,x表示预测框与真值框坐标之间的差值。
[0121]
在训练初期,预测框与真值框之间的差值较大,smooth l1 loss可以限制梯度大小,避免梯度爆炸,不易受离群点影响,模型的鲁棒性更强;而在训练后期,预测框与真值框之间的差值较小,函数相比l1 loss在零点附近是平滑的,且梯度更小,模型可以收敛到更高精度。
[0122]
ciou loss的计算公式如下所示:
[0123][0124]
[0125][0126]
其中,ρ(b,b
gt
)表示预测框中心点b与真值框中心点b
gt
之间的欧式距离,c表示两个框最小外接矩形的对角线长度,α为一个调节因子,v用于衡量预测框宽高比与真值框宽高比的一致性。
[0127]
相比giou loss,ciou loss同时考虑了预测框与真值框之间的重叠面积、中心点距离和宽高比,大大提高了收敛速度,也使得边界框回归更加准确。其中,通过调节因子α,重叠面积在回归中具有更高的优先级。
技术特征:
1.一种基于多尺度注意力与数据增强的安检违禁品检测方法,其特征在于,包括以下步骤:s1、构建违禁品目标检测模型msa-detr,包括数据增强模块、骨干网络、位置编码模块、transformer编码器-解码器和目标检测头;s2、在自然图像分类数据集上对骨干网络msanet进行训练,得到msanet的预训练权重,然后在自然图像目标检测数据集上对加载msanet的预训练权重后的违禁品目标检测模型msa-detr进行训练,得到msa-detr的预训练权重;s3、调整违禁品目标检测模型的目标检测头,加载s2中得到的msa-detr的预训练权重以初始化违禁品目标检测模型,然后在安检x光图像数据集上对加载预训练权重后的违禁品目标检测模型重新训练,得到训练好的msa-detr模型;s4、对训练好的违禁品目标检测模型进行调整,输入待检测x光图像,得到违禁品的类别和边界框。2.根据权利要求1所述的一种基于多尺度注意力与数据增强的安检违禁品检测方法,其特征在于,步骤s1中,所述数据增强模块使用objectmix方法对输入图像数据进行预处理,具体如下:在一张输入图像x1的随机区域中,截取另一张输入图像x2中所有违禁品目标区域p与其按照设定的比例多次融合后作为输入数据并在得到违禁品目标检测模型的输出后根据融合比例λ的大小来计算违禁品目标检测模型的损失函数,计算过程如下式所示:融合比例λ的大小来计算违禁品目标检测模型的损失函数,计算过程如下式所示:其中,p表示图像x2中所有违禁品目标区域的集合,m表示对应于图像x1被融合的随机区域的图像二进制掩码的集合,p与m中的元素个数相同;λ表示随机抽样得到的融合比例,r为一个随机数,通过超参数r来控制数据增强样本的比例;
⊙
表示矩阵对应元素相乘,表示在x1被融合区域位置相加;l1表示x1被融合处理前的损失函数,l
p
表示目标检测模型输出与新目标集合p对应的边界框信息之间的损失函数,表示融合处理后目标检测模型的损失函数。3.根据权利要求1所述的一种基于多尺度注意力与数据增强的安检违禁品检测方法,其特征在于,步骤s1中,所述骨干网络msanet先将输入图像通过步长均为2的7
×
7卷积层和3
×
3最大池化层,再通过由多个基本残差块msanet block堆叠而成的网络层,在训练图像分类任务时最后还需要分别经过全局平均池化层、全连接层和softmax函数得到msanet的输出;每个基本残差块msanet block由1
×
1卷积层、基础模块msa module和1
×
1卷积层按残差方式连接,基础模块msa module由多尺度特征提取模块、多尺度通道注意力模块和多尺度空间注意力模块组成;骨干网络的输入图像大小为h
×
w,输出特征图大小分别为h/8
×
w/8、h/16
×
w/16和h/
32
×
w/32,再对其中最小尺寸的特征图进行步长为2的3
×
3卷积,最终得到四个不同尺度的图像特征图。4.根据权利要求3所述的一种基于多尺度注意力与数据增强的安检违禁品检测方法,其特征在于,所述多尺度特征提取模块将输入特征图x按通道维度平均分成s个子特征图x
i
,其中x∈r
c
×
h
×
w
,再将每个子特征图x
i
分别通过一组3
×
3卷积层,然后对各组卷积计算结果进行叠加融合后输出s个特征图y
i
,其中则y
i
包括前i-1个子特征图经过卷积运算后的多尺度信息,计算过程如下式所示:其中,k
i
表示对应于第i个子特征图x
i
的一组3
×
3卷积层;为减少多尺度特征提取模块的参数量,3
×
3卷积运算采用分组卷积。5.根据权利要求4所述的一种基于多尺度注意力与数据增强的安检违禁品检测方法,其特征在于,所述多尺度通道注意力模块对于多尺度特征提取模块输出的每个子特征图y
i
,先进行空间维度上的全局平均池化和最大池化分别得到f
ic-avg
和f
ic-max
以聚合全局空间信息,其中f
ic-avg
,f
ic-max
∈r
cs
×1×1,再通过共享的多层感知机捕获通道之间的相互依赖性,二者叠加后利用sigmoid函数来激活通道注意力图其中为了实现不同尺度特征图之间的跨通道信息交互,对所有通道注意力图进行softmax操作获得多尺度通道注意力图其中使违禁品目标检测模型能够自适应地选取特定尺度特征图的特定通道信息,然后根据中的各通道权重对每个特征图y
i
进行重新校准得到其中计算过程如下式所示:计算过程如下式所示:计算过程如下式所示:其中,mlp为包括一层隐藏层的多层感知机,σ表示sigmoid函数,表示矩阵对应元素相乘;最后,将特征图在通道维度上进行拼接,得到多尺度通道注意力模块的输出特征图u
c
如下:其中,u
c
∈r
c
×
h
×
w
。6.根据权利要求4所述的一种基于多尺度注意力与数据增强的安检违禁品检测方法,其特征在于,所述多尺度空间注意力模块对于多尺度特征提取模块输出的每个子特征图y
i
,先进行通道维度上的全局平均池化和最大池化分别得到f
is-avg
和f
is-max
以聚合全局通道
信息,其中f
is-avg
,f
is-max
∈r1×
h
×
w
,再将二者连接后通过一个可变形卷积层捕获空间位置之间的相互依赖性,并利用sigmoid函数来激活空间注意力图其中7.根据权利要求6所述的一种基于多尺度注意力与数据增强的安检违禁品检测方法,其特征在于,为了实现不同尺度特征图之间的跨空间信息交互,对所有空间注意力图进行softmax操作获得多尺度空间注意力图其中其中使违禁品目标检测模型能够自适应地选取特定尺度特征图的特定空间位置信息,然后根据中的各空间位置权重对每个特征图y
i
进行重新校准得到其中计算过程如下式所示:计算过程如下式所示:计算过程如下式所示:其中,为卷积核大小为7
×
7的可变形卷积,以增大感受野,适应目标形状、大小的变化,σ表示sigmoid函数,表示矩阵对应元素相乘;最后,将特征图在通道维度上进行拼接,得到多尺度空间注意力模块的输出特征图u
s
如下:其中,u
s
∈r
c
×
h
×
w
。8.根据权利要求3~7任一项所述的一种基于多尺度注意力与数据增强的安检违禁品检测方法,其特征在于,所述基础模块msa module的输出特征图u由多尺度通道注意力模块的输出特征图u
c
和多尺度空间注意力模块的输出特征图u
s
按对应元素求和得到,如下式所示:u=u
c
+u
s
。9.根据权利要求1所述的一种基于多尺度注意力与数据增强的安检违禁品检测方法,其特征在于,步骤s1中,所述违禁品目标检测模型msa-detr的整体检测流程为:先将输入x光图像通过数据增强模块进行预处理,使部分输入图像转化为objectmix变换后的图像;再将处理后的图像数据通过骨干网络msanet提取得到多尺度特征图;同时,对多尺度特征图分别进行位置编码,以表示特征图中的位置信息;将多尺度特征图及其位置编码进行维度变换,转换为序列化数据后输入transformer编码器-解码器结构,输出固定数量的n个目标矩形框的特征信息,其中编码器的自注意力模块和解码器的交叉注意力模块使用多尺度可变形注意力模块;最后,目标检测头中的投影矩阵将预测的n个目标矩形框的特征信息解耦为对应的类别和边界框坐标。10.根据权利要求1所述的一种基于多尺度注意力与数据增强的安检违禁品检测方法,其特征在于,步骤s4中,对训练好的违禁品目标检测模型进行调整,具体如下:移除训练好的违禁品目标检测模型中的数据增强模块,避免在图像中引入额外违禁
品,影响对真实违禁品的检测。
技术总结
本发明公开了一种基于多尺度注意力与数据增强的安检违禁品检测方法。所述方法包括以下步骤:构建违禁品目标检测模型,包括骨干网络;在自然图像分类数据集上对骨干网络进行训练,得到骨干网络的预训练权重,然后在自然图像目标检测数据集上对加载骨干网络的预训练权重后的违禁品目标检测模型进行训练,得到违禁品目标检测模型的预训练权重;初始化违禁品目标检测模型,在安检X光图像数据集上重新训练,得到训练好的违禁品目标检测模型;对训练好的违禁品目标检测模型进行调整,输入待检测X光图像,得到违禁品的类别和边界框。本发明能够在背景杂乱、物品相互重叠的X光图像中有效地检测出违禁品目标的位置,提高安检的效率和可靠性。可靠性。可靠性。
技术研发人员:邱健 叶晓峰 彭力 韩鹏 骆开庆 刘冬梅
受保护的技术使用者:华南师范大学
技术研发日:2023.06.20
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
