一种基于交叉Transformer融合的多光谱行人检测方法
未命名
08-14
阅读:129
评论:0
一种基于交叉transformer融合的多光谱行人检测方法
技术领域
1.本发明涉及一种基于交叉transformer融合的多光谱行人检测方法
背景技术:
2.行人检测作为自动驾驶、智能监控、行为分析等应用中的关键技术,一直以来备受关注。近年来,行人检测器已经在很多方面取得了优异的性能表现。然而,在黑夜、大雾、大雨等低能见度场景下,现有的行人检测器性能会严重下降。这是因为目前大多数研究工作仅采用可见光传感器进行行人检测,而可见光传感器对光源敏感,难以在低光照或恶劣天气条件下准确区分背景和行人。
3.为了克服这些局限,学者们通过引入其他类型的传感器作为补充,利用多光谱图像的融合信息实现更加精准的行人检测。早期的多光谱行人检测方法主要探讨何时融合卷积特征。近几年,一些学者基于深度卷积神经网络设计多光谱自适应交互融合策略。但是,卷积神经网络的感受野是局部的,因此难以从全局充分挖掘多光谱之间的互补特征。
技术实现要素:
4.本发明要克服现有技术的上述不足之处,提供一种交叉transformer融合的多光谱行人检测方法。
5.本发明旨在更加充分的挖掘多光谱特征之间的互补信息,获得更有意义的融合特征。
6.本发明是通过以下技术方案达到上述目的:一种基于交叉transformer融合的多光谱行人检测方法,其包括如下步骤:
7.步骤一,本发明采用llvip数据集作为训练和测试样本,该数据集提供了在时间与空间上严格对齐的红外-可见光图像对,并对图像中所有行人区域进行了标注。
8.步骤二,将红外-可见光图像对输入到基于swin transformer设计的双流骨干网络中分别进行特征提取,得到红外-可见光特征对。
9.步骤三,将步骤二中获得的特征对进行去噪优化处理,红外特征施加通道注意力机制,对可见光施加空间注意力机制。
10.步骤四,将步骤三中去噪优化后的红外-可见光特征对输入到交叉transformer模块中进行交互,获得加强互补信息后的红外-可见光特征对。
11.步骤五,按通道连接步骤四输出的红外-可见光特征对,应用nin网络减少通道数获得融合后的特征,并且将步骤三到步骤四的过程作为多光谱特征融合交互模块。
12.步骤六,将步骤五中得到的融合后特征作为最终特征,并将其输入到基于cascade rcnn的分类器中。
13.步骤七,将步骤二所述双流骨干网络,步骤五所述的多光谱特征融合交互模块,以及步骤六的得到的分类器作为最终的检测器。
14.步骤八,将待检测的红外-可见光图像对输入到所述的检测器中进行多光谱行人
检测。
15.其中,步骤二中所述基于swin transformer设计的双流骨干网络采用两个结构一致swin transformer构建双流骨干网络,从多模态图像对中提取层次特征。该双流骨干包含四个阶段,对应四个尺度的特征输出,本发明将可见光第i阶段i∈{1,
…
,4}的输出特征定义为红外光第i阶段的输出特征定义为
16.其中,步骤三中所述的对红外光施加通道注意力机制的具体计算过程如下:
17.首先,对红外光特征图进行全局平均池化,计算每个通道的平均值;再通过全连接层以及非线性层计算通道权重;之后将每个通道的特征图乘以其对应的权重,得到加权后的特征图。经过通道注意力去噪优化后的红外特征表示为:
[0018][0019]
式中,gaps(
·
)表示沿空间方向的全局平均池化操作,w1(
·
)和w2(
·
)分别表示两个全连接运算,δ(
·
)表示relu激活函数,σ(
·
)表示sigmoid激活函数,表示第i阶段经过通道注意力去噪优化后的红外光特征
[0020]
其中,步骤三中所述的对可见光施加空间注意力机制的具体计算过程如下:
[0021]
首先,对输入的可见光特征图压缩所有通道,执行平均池化操作;再通过一个3
×
3卷积及sigmoid激活函数获得不同空间位置上归一化后的权重;之后将归一化权重矩阵与输入特征图按元素相乘,得到加强后的输出特征。经过空间注意力去噪优化后的可见光特征表示为:
[0022][0023]
式中,gapc(
·
)表示沿通道方向的全局平均池化操作,conv3表示核为3
×
3的卷积运算,表示第i阶段经过空间注意力去噪优化后的可见光特征。
[0024]
其中,步骤四所述的交叉transformer模块包含了transformer结构的输入处理过程以及利用交叉transformer结构的交互过程。
[0025]
所述的transformer结构的输入处理过程包括:
[0026]
首先将去噪优化后的多光谱特征经过平均池化下采样至原来的并调整为序列形状。所述过程如公式(3)所示。
[0027][0028]
式中,h和w表示经过下采样后特征图的高和宽,c表示通道数,表示经过输入处理后的多光谱特征。
[0029]
接着,为每个模态的序列添加一个可学习的位置编码,维度与输入序列一致,得到交叉transformer输入所需的向量嵌入和
[0030][0031]
式中,表示交叉transformer模块中可见光分支的输入序列,表示交叉
transformer模块中红外光分支的输入序列,h
pos
(
·
)表示位置编码。
[0032]
所述的利用交叉transformer结构的交互过程包括:
[0033]
其中,普通的transformer结构中的自注意力层所需的查询(query,q)、键(key,k)、值(value,v)均来自同一输入,整体结构是单流的。而本发明采用的交叉transformer结构是双流的,其中每一个分支中q来自一个模态的输入,k,v来自另一个模态。
[0034]
本发明通过交换每个模态的键值对k、v作为输入传给多头注意力模块,并行使用交叉transformer层进行交互。经过交互加强后,分别对两个光谱特征应用残差连接,以校准特征表示。得到最终交互融合加强后的可见光和红外光特征
[0035][0036][0037]
式中,tfl(
·
)表示标准的transformer编码器结构,q
t
(t∈{vi,ir})、k
t
,v
t
分别表示查询矩阵、键矩阵和值矩阵,这些矩阵由对应的输入序列乘以投影矩阵得到。
[0038]
其中,步骤五中所述nin网络对上一阶段输出的可见光特征图红外光特征图首先将其按通道维度串联,再用一个1
×
1卷积操作调整通道数以适应单光谱的维度。之后通过relu函数进行激活。
[0039]
本发明主要采用llvip数据集,该数据集提供了可见光图像、红外图像和标注数据,其中可见光-红外图像对在时间与空间上严格对齐。本发明首先通过双流骨干网络分别提取可见光图像与红外图像的特征。再通过设计的多光谱交互融合模块获得不同尺度的多光谱融合特征图。接着采用特征金字塔方法将不同分辨率、包含不同层次信息的多光谱融合图像进一步交互融合。随后将多尺度特征图送进级联检测网络进行预测,获得行人目标的检测结果。
[0040]
本发明的优点是:结合transformer设计融合模块,相比较于卷积神经网络的设计,实现了从全局感受野的角度对多光谱特征进行交互,更充分利用彼此之间的内在互补性获得高质量的融合特征。此外,本发明结合注意力机制在融合之前增强可见光和红外光特征,实现在交互时以各自的显著信息进行“通信”,进一步提高多光谱行人检测的准确性。
附图说明
[0041]
图1是本发明方法的流程图。
具体实施方式
[0042]
下面结合附图进一步说明本发明的技术方案。
[0043]
本发明的基于交叉transformer融合的多光谱行人检测方法,包括如下步骤:
[0044]
1利用双流骨干网络提取可见光-红外光特征;
[0045]
本发明采用两个swin transformer构建双流骨干网络,从多模态图像对中提取层次特征。该双流骨干包含四个阶段,对应四个尺度的特征输出,本发明将可见光第i阶段i∈
{1,
…
,4}的输出特征定义为红外光第i阶段的输出特征定义为
[0046]
2生成多光谱融合特征;
[0047]
为了使得多光谱数据充分利用相互之间的互补性,以此生成高质量的融合特征,使得行人检测器获得更高的性能增益。本发明结合了空间、通道注意力机制以及transformer结构,构建了多光谱交互融合模块。首先,双流特征提取网络每一层级传过来的可见光和红外光特征经过对应的注意力机制,得到去噪优化后的多光谱特征。接着,通过交叉transformer交互结构实现多光谱特征交互,得到经过互补加强后的多光谱特征。最后,串联交互加强后的多光谱特征进行降维,并利用注意力机制强化融合后的特征。具体包括:
[0048]
21)采用注意力机制优化多光谱特征。为了更好地发挥可见光特征和红外光特征的独有特性,本发明对特征提取阶段获得的可见光特征应用空间注意力机制加强其纹理颜色等细节信息,对可见光特征应用通道注意力机制以加强轮廓、对比度等信息。其中,执行空间注意力过程具体步骤为:第一步,对输入的可见光特征图压缩所有通道,执行平均池化操作;第二步,通过一个3
×
3卷积及sigmoid激活函数获得不同空间位置上归一化后的权重;第三步,将归一化权重矩阵与输入特征图按元素相乘,得到加强后的输出特征。该过程表达式如式(1)所示。
[0049][0050]
其中,gapc(
·
)表示沿通道方向的全局平均池化操作,conv3表示核为3
×
3的卷积运算,σ(
·
)表示sigmoid激活函数,表示第i阶段经过空间注意力加强后的可见光特征。
[0051]
执行通道注意力过程具体步骤为:第一步,对红外光特征图进行全局平均池化,计算每个通道的平均值;第二步,通过全连接层以及非线性层计算通道权重;第三步,将每个通道的特征图乘以其对应的权重,得到加权后的特征图。该过程表达式如式(2)所示。
[0052][0053]
其中,gaps(
·
)表示沿空间方向的全局平均池化操作,w1(
·
)和w2(
·
)分别表示两个全连接运算,δ(
·
)表示relu激活函数,表示第i阶段经过通道注意力加强后的红外光特征。
[0054]
22)多光谱特征信息交互。本发明基于交叉transformer模型来处理输入数据之间的关系,实现多光谱之间的交互融合。普通的transformer结构中的自注意力层所需的查询(query,q)、键(key,k)、值(value,v)均来自同一输入,整体结构是单流的。而本发明采用的交叉transformer结构是双流的,其中每一个分支中q来自一个模态的输入,k,v来自另一个模态。因此该模型中会在一种模态中执行以另一种模态为条件的注意力,从对方的全局信息去找寻对自身有意义的互补特征进行加强。相比较基于深度卷积的融合机制,本发明的设计具有全局的感受野,可以更加充分的挖掘多光谱特征的互补性。
[0055]
具体地,首先进行多光谱特征的输入处理。将去噪优化后的多光谱特征经过平均池化下采样至原来的并调整为序列形状。如式(3)所示,h和w表示下采样后特征
图的高和宽,c表示通道数。然后为每个模态的序列添加一个可学习的位置编码,维度与输入序列一致,得到交叉transformer输入所需的向量嵌入和如式(4)所示。
[0056][0057][0058]
其中,表示交叉transformer模块中可见光分支的输入序列,表示交叉transformer模块中红外光分支的输入序列,h
pos
(
·
)表示位置编码。
[0059]
接着,利用交叉transformer融合模块实现多光谱模态间的信息融合。具体而言,通过交换每个模态的键值对k、v作为输入传给多头注意力模块,并行使用交叉transformer层进行交互。经过交互加强后,分别对两个光谱特征应用残差连接,以校准特征表示,防止网络出现过拟合现象。该过程的公式表达式如下:
[0060][0061][0062]
其中,tfl(
·
)表示标准的transformer编码器结构,q
t
(t∈{vi,ir})、k
t
,v
t
分别表示查询矩阵、键矩阵和值矩阵,这些矩阵由对应的输入序列乘以投影矩阵得到。y
ivi
和y
iir
分别表示最终交互融合加强后的可见光和红外光特征。
[0063]
23)生成多尺度融合特征。对每一阶段多光谱交互融合模块输出的可见光特征图y
ivi
、红外光特征图y
iir
,首先将其按通道维度串联,用一个1
×
1卷积操作调整通道数以适应单光谱的维度。接着通过relu函数进行激活。然后施加一个通道注意力机制加强融合后的特征。最终得到四个尺度的融合特征图{m1,m2,m3,m4}。
[0064]
3利用级联检测网络获得行人候选区域;
[0065]
获取不同尺度的多光谱融合特征图后,首先利用特征金字塔技术实现多尺度上下文信息融合,接着经过区域建议网络(regionproposalnetwork,rpn)获得初步的候选框,之后使用级联检测器对候选区域进行筛选和分类,以得到最终的行人检测结果。
[0066]
31)采用特征金字塔网络生成多尺度上下文融合信息。将输入的的不同尺度融合特征图通过特征金字塔网络把低层次高分辨率的信息和高层次强语义的信息结合起来,最终形成不同尺度的上下文特征,以提高检测性能。具体地,首先在m4上附加一个1
×
1卷积层作为横向连接,生成调整通道数后的特征图p4。接着从p4开始向下迭代,将p
i+1
先进行2倍上采样,并在mi上应用横向连接,然后通过按元素相加将上采样映射与相应的横向映射合并。最后,在每个合并的图上附加一个3
×
3卷积来生成最终的特征映射pi。最终的映射集为{p1,p2,p3,p4},分别对应于{m1,m2,m3,m4}它们具有相同的尺寸。该步骤公式表达式如下:
[0067]
p4=w1×1(m4)(7)
[0068]
pi=w3×3(f
2up
(p
i+1
)+w1×1(mi))(8)
[0069]
32)生成候选框。本发明采用基于锚框的检测方法,因此首先采用rpn网络来生成初步候选框,rpn的输入就是4个不同尺寸的特征图特征图上的每个点都被称为锚点,对于每个锚点都会生成k个不同比例的锚框,这些锚框对应原图上的检测框。该过程具
体步骤为:首先通过对输入特征图的每一个滑动窗口位置生成多个不同比例和大小的锚框。接着,根据锚框的特征向量,对其进行二分类,即判断锚框是否为包含感兴趣物体的正样本或者背景的负样本。同时,还会计算出正样本锚框与实际物体之间的偏移量。最终,rpn输出经过nms(非极大值抑制)处理后的较少数量的候选框b0。
[0070]
33)预测行人目标。本发明采用cascade r-cnn级联检测网络中的级联检测器来进行行人检测,其主要利用逐阶段升高iou阈值来实现这个过程。具体实现步骤如下:首先将特征图和rpn生成的建议框b0输入到第一阶段的检测网络,该阶段设定的iou阈值为0.5,接着将第一阶段筛选出的检测框b1作为第二阶段的输入,该阶段设定的iou阈值为0.6,最后一个阶段同样重复之前的步骤,但在该阶段设定的iou阈值为0.7,以此获得最终的行人检测结果,完成对行人目标的预测过程。
[0071]
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
技术特征:
1.一种基于交叉transformer融合的多光谱行人检测方法,其包括如下步骤:步骤一,本发明采用llvip数据集作为训练和测试样本,该数据集提供了在时间与空间上严格对齐的红外-可见光图像对,并对图像中所有行人区域进行了标注;步骤二,将红外-可见光图像对输入到基于swin transformer设计的双流骨干网络中分别进行特征提取,得到红外-可见光特征对;步骤三,将步骤二中获得的特征对进行去噪优化处理,红外特征施加通道注意力机制,对可见光施加空间注意力机制;步骤四,将步骤三中去噪优化后的红外-可见光特征对输入到交叉transformer模块中进行交互,获得加强互补信息后的红外-可见光特征对;步骤五,按通道连接步骤四输出的红外-可见光特征对,应用nin网络减少通道数获得融合后的特征,并且将步骤三到步骤四的过程作为多光谱特征融合交互模块;步骤六,将步骤五中得到的融合后特征作为最终特征,并将其输入到基于cascade rcnn的分类器中;步骤七,将步骤二所述双流骨干网络,步骤五所述的多光谱特征融合交互模块,以及步骤六的得到的分类器作为最终的检测器;步骤八,将待检测的红外-可见光图像对输入到所述的检测器中进行多光谱行人检测。2.如权利要求1所述的一种基于交叉transformer融合的多光谱行人检测方法,其特征在于:步骤二中所述基于swin transformer设计的双流骨干网络采用两个结构一致swin transformer构建双流骨干网络,从多模态图像对中提取层次特征;该双流骨干包含四个阶段,对应四个尺度的特征输出,将可见光第i阶段i∈{1,
…
,4}的输出特征定义为红外光第i阶段的输出特征定义为3.如权利要求1所述的一种基于交叉transformer融合的多光谱行人检测方法,其特征在于:步骤三中所述的对红外光施加通道注意力机制的具体计算过程如下:首先,对红外光特征图进行全局平均池化,计算每个通道的平均值;再通过全连接层以及非线性层计算通道权重;之后将每个通道的特征图乘以其对应的权重,得到加权后的特征图;经过通道注意力去噪优化后的红外特征表示为:式中,gap
s
(
·
)表示沿空间方向的全局平均池化操作,w1(
·
)和w2(
·
)分别表示两个全连接运算,δ(
·
)表示relu激活函数,σ(
·
)表示sigmoid激活函数,表示第i阶段经过通道注意力去噪优化后的红外光特征。4.如权利要求1所述的一种基于交叉transformer融合的多光谱行人检测方法,其特征在于:步骤三中所述的对可见光施加空间注意力机制的具体计算过程如下:首先,对输入的可见光特征图压缩所有通道,执行平均池化操作;再通过一个3
×
3卷积及sigmoid激活函数获得不同空间位置上归一化后的权重;之后将归一化权重矩阵与输入特征图按元素相乘,得到加强后的输出特征;经过空间注意力去噪优化后的可见光特征表示为:
式中,gap
c
(
·
)表示沿通道方向的全局平均池化操作,conv3表示核为3
×
3的卷积运算,表示第i阶段经过空间注意力去噪优化后的可见光特征。5.如权利要求1所述的一种基于交叉transformer融合的多光谱行人检测方法,其特征在于:步骤四所述的交叉transformer模块包含了transformer结构的输入处理过程以及利用交叉transformer结构的交互过程。6.如权利要求5所述的一种基于交叉transformer融合的多光谱行人检测方法,其特征在于:所述的transformer结构的输入处理过程包括:首先将去噪优化后的多光谱特征经过平均池化下采样至原来的并调整为序列形状;所述过程如公式(3)所示;式中,h和w表示经过下采样后特征图的高和宽,c表示通道数,表示经过输入处理后的多光谱特征;接着,为每个模态的序列添加一个可学习的位置编码,维度与输入序列一致,得到交叉transformer输入所需的向量嵌入和和式中,表示交叉transformer模块中可见光分支的输入序列,表示交叉transformer模块中红外光分支的输入序列,h
pos
(
·
)表示位置编码。7.如权利要求5所述的一种基于交叉transformer融合的多光谱行人检测方法,其特征在于:所述的利用交叉transformer结构的交互过程包括:其中,普通的transformer结构中的自注意力层所需的查询(query,q)、键(key,k)、值(value,v)均来自同一输入,整体结构是单流的;而本发明采用的交叉transformer结构是双流的,其中每一个分支中q来自一个模态的输入,k,v来自另一个模态;通过交换每个模态的键值对k、v作为输入传给多头注意力模块,并行使用交叉transformer层进行交互;经过交互加强后,分别对两个光谱特征应用残差连接,以校准特征表示;得到最终交互融合加强后的可见光y
ivi
和红外光特征y
iir
::式中,tfl(
·
)表示标准的transformer编码器结构,q
t
(t∈{v,ir})、k
t
,v
t
分别表示查询矩阵、键矩阵和值矩阵,这些矩阵由对应的输入序列乘以投影矩阵得到。8.如权利要求1所述的一种基于交叉transformer融合的多光谱行人检测方法,其特征在于:步骤五所述的nin网络对上一阶段输出的可见光特征图y
ivi
、红外光特征图y
iir
,首先将其按通道维度串联,再用一个1
×
1卷积操作调整通道数以适应单光谱的维度;之后通过
relu函数进行激活。
技术总结
本发明的基于交叉Transformer融合的多光谱行人检测方法,包括:首先通过双流骨干网络分别提取可见光图像与红外图像的特征;再通过设计的多光谱交互融合模块获得不同尺度的多光谱融合特征图;接着采用特征金字塔方法将不同分辨率、包含不同层次信息的多光谱融合图像进一步交互融合;随后将多尺度特征图送进级联检测网络进行预测,获得行人目标的检测结果。本发明实现了从全局感受野的角度对多光谱特征进行交互,更充分利用彼此之间的内在互补性获得高质量的融合特征。此外,本发明结合注意力机制在融合之前增强可见光和红外光特征,实现在交互时以各自的显著信息进行“通信”,进一步提高多光谱行人检测的准确性。步提高多光谱行人检测的准确性。步提高多光谱行人检测的准确性。
技术研发人员:方思琦 高铁奇 董天阳
受保护的技术使用者:浙江工业大学
技术研发日:2023.05.12
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
