一种基于多模态层次关系建模的RGB-T目标跟踪方法

未命名 08-15 阅读：170 评论：0

一种基于多模态层次关系建模的rgb-t目标跟踪方法
技术领域
1.本发明涉及一种基于多模态层次关系建模的rgb-t目标跟踪方法，属于多模态的rgb-t目标跟踪技术，是一种图像处理技术。

背景技术：

2.目标跟踪作为计算机视觉领域的一个重要任务，其目的是在一个视频中第一帧给定目标位置坐标的情况下实现对后续帧目标位置的预测。然而，跟踪任务通常面临着很多外界环境干扰的挑战，比如遮挡、低光照、快速移动等等。
3.rgb-t跟踪是近几年目标跟踪领域的一个重要研究方向，可以在上述挑战下仍能取得良好的跟踪性能，主要原因就是其同时利用了可见光图像和红外图像的优势。由于成像方式和原理不同，可见光图像和红外图像具有不同的特点。可见光图像分辨率高、纹理清晰，在正常环境中可以提供完整的视觉信息，而红外图像分辨率低，可提供信息单一，但可以在极度暗等恶劣环境下为可见光图像提供补充信息。因此rgb-t跟踪的主要目的是利用可见光图像和红外图像的互补优势克服环境的干扰，获取更多特征表示实现视频的稳健跟踪。近年来，许多人致力于推动rgb-t跟踪的进展，但由于对rgb和热红外信息的利用不足，仍有很大的研究空间。
4.transformer是近几年兴起的一种以注意力机制为核心的结构，和卷积网络对局部占优的特点不同，transformer有着出色的全局信息建模能力。retinex是一种常用的图像增强方法，原理是将一幅图像可以分解为两个分量：反射图像r和光照图像l。

技术实现要素：

5.发明目的：为了提高rgb-t跟踪算法的跟踪性能，本发明公开了一种基于多模态层次关系建模的rgb-t目标跟踪方法，通过堆叠多层的transformer编码器结构，利用自注意力机制在图像特征学习的多个阶段渐进式地聚集并融合多模态图像特征。在整个网络的多模态交互过程中，利用基于图像块的动态部件特征融合模块，动态求解跟踪场景中每个区域的可见光信息的重要程度，从而调节可见光信息和红外信息在跟踪过程中的相互作用，更好地适应复杂性场景，获得更好的跟踪性能。
6.技术方案：为实现上述目的，本发明采用的技术方案为：
7.一种基于多模态层次关系建模的rgb-t目标跟踪方法，包括如下步骤：
8.(1)从rgb-t数据流中获取训练样本集，从每个训练样本中提取出相对应的一幅可见光图像r
t
和一幅红外图像t
t
，从可见光图像r
t
中裁剪出可见光模板图像和可见光搜索图像，从红外图像t
t
中裁剪出红外模板图像和红外搜索图像，对裁剪出的图像进行分块，得到可见光模板块序列zv、可见光搜索块序列xv、红外模板块序列zi和红外搜索块序列xi；
9.(2)构建动态部件融合模块获取可见光搜索图像的照明程度信息，并估计出可见光权重值α∈(0,1)，可见光权重值α用于描述可见光搜索图像中可见光信息的可信任程度，使用可见光权重值α全程动态指导可见光模特和红外模态的相互作用；
10.(3)通过线性投影层将可见光模板块序列zv、可见光搜索块序列xv、红外模板块序列zi和红外搜索块序列xi投影成2维特征，获得可见光模板标记嵌入序列zv、可见光搜索标记嵌入序列xv、红外模板标记嵌入序列zi和红外搜索标记嵌入序列xi；
11.(4)构建l层transformer编码器，将可见光模板标记嵌入序列zv、红外模板标记嵌入序列zi、可见光搜索标记嵌入序列xv和红外搜索标记嵌入序列xi按顺序合并为一个序列，并行输入到l层transformer编码器进行自注意运算，获得交互嵌入总序列e；
12.(5)利用可见光权重值α对交互嵌入总序列e做加权求和获取输出嵌入序列e
fusion
；
13.(6)将输出嵌入序列e
fusion
重构为空间特征f，通过全卷积网络获取空间特征f的得分图m，将得分最高的位置作为目标位置的中心，确定最终的目标框坐标；
14.(7)使用损失函数对跟踪网络的训练过程进行监督；
15.(8)将视频流中的待跟踪图像输入到训练好的跟踪网络中，在视频流中对待跟踪图像进行跟踪，待跟踪图像属于视频流中某一帧图片或某一帧图片中的部分。
16.具体的，所述步骤(1)中，获取可见光模板块序列zv、可见光搜索块序列xv、红外模板块序列zi和红外搜索块序列xi，包括如下步骤：
17.(11)提取相对应的可见光图像r
t
和红外图像t
t
；从可见光图像r
t
中裁剪出可见光模板图像，并扩大可见光模板图像的范围裁剪出可见光搜索图像；从红外图像t
t
中裁剪出红外模板图像，并扩大红外模板图像的范围裁剪出红外搜索图像；
18.(12)对裁剪出的图像进行分块处理，根据尺寸，按照模板图像分块规则将可见光模板图像和外模板图像划分为n
×
n个块，按照搜索图像分块规则将可见光搜索图像和红外搜索图像划分为n
×
n个块，对分块后的图像进行排序形成块序列，即得到可见光模板块序列可见光搜索块序列红外模板块序列和红外搜索块序列
19.具体的，所述步骤(2)中，通过动态部件融合模块获取可见光权重值α，包括如下步骤：
20.(21)构建光照解耦网络，通过光照解耦网络获取可见光搜索图像的光照分量i；
21.(22)按照搜索图像分块规则，将光照分量i划分为n
×
n个块；
22.(23)构建一个可训练的神经网络将分块后的光照分量i映射到一个(0,1)的区间范围，估计出第l个分块中可见光信息的可信任程度α
l
，l＝1,2,
…
,n2。
23.具体的，所述步骤(21)中，通过基于retinex光照增强理论(也可称为低光照图像增强理论)设置的光照解耦网络获取可见光搜索图像的光照分量i，包括如下步骤：
24.(211)基于retinex光照增强理论，为可见光搜索图像s设置两个卷积网络分支，分别用于分解可见光搜索图像s的反射率分量r和光照分量i，s＝r
·
i；可见光搜索图像s先经过一次卷积-relu层得到f
temp
；
25.(212)在第一个卷积网络分支中，f
temp
通过最大池化层下采样，进行第一层卷积-relu层和最大池化层下采样，再经过第二层卷积-relu层获得中间结果；中间结果进行一次反卷积上采样，和第一层卷积-relu层的输出拼接，输入到第三层卷积-relu层，再次进行反卷积上采样，输出结果与f
temp
进行拼接，输入到第四层卷积-relu层，得到f
branch1
；
26.(213)在第二个卷积网络分支中，f
temp
通过一次卷积-relu层，输出结果与f
branch1
进
行拼接，通过一个卷积层和一个sigmoid激活函数层，获得光照分量i。
27.具体的，所述步骤(23)中，使用可训练的神经网络将分块后的光照分量i映射到一个(0,1)的区间范围；所述可训练的神经网络包括一个全局平均池化层、一个1
×
1卷积层、一个全连接层和sigmoid激活函数，光照分量i的第l个分块i
l
先通过全局平均池化层调整尺寸，然后通过1
×
1卷积层转换通道，最后通过全连接层和sigmoid激活函数映射为一个具体的分数值，函数表示为：
28.α
l
＝σ(fc(conv(gap(i
l
))))
29.其中：i
l
表示光照分量i的第l个分块，conv表示卷积操作，gap表示全局平均池化操作，fc表示全连接层，α表示sigmoid激活函数，α
l
表示第l个分块中可见光信息的可信任程度。
30.具体的，所述步骤(3)中，获取标记嵌入序列包括如下步骤：
31.(31)将可见光模板块序列zv、可见光搜索块序列xv、红外模板块序列zi和红外搜索块序列xi展平并投影成2维特征；
32.(32)在块序列中加入可学习的模板图像位置编码pz和搜索图像位置编码p
x
，标记每个分块的位置信息，该过程描述为：
[0033][0034][0035][0036][0037]
其中：p是线性投影层的可学习参数。
[0038]
具体的，所述步骤(4)中，构建l层transformer编码器对标记嵌入序列进行自注意力运算，先将并行输入到l层transformer编码器进行自注意运算，l层transformer编码器是由l个transformer编码器层组成的多模态结构，不同于多输入的交叉注意力，自注意力操作是输入标记嵌入两两之间交互的过程，通过生成注意力矩阵完成自身特征的加强，第m层transformer编码器描述为：
[0039]am
＝encode(a
m-1
)
[0040]
其中：am和a
m-1
分别表示第m层和第m-1层transformer编码器的输出，m＝1,2,
…
,l，交互嵌入总序列e＝a
l
，从交互嵌入总序列e中拆分出可见光模板嵌入序列可见光搜索嵌入序列红外模板嵌入序列和红外搜索嵌入序列
[0041]
具体的，所述transformer编码器采用现有的应用于下游任务的vit结构，包括两个层归一化层、多头自注意力层和多层感知机层，在编码期间进行两次残差连接，编码过程描述为：
[0042][0043]
其中：a
m-1
表示第m层transformer编码器的输入，ln表示层归一化，mha代表多头自
注意力，mlp表示多层感知机，多层感知机由两个全连接层和一个gelu激活函数组成。
[0044]
具体的，所述步骤(5)中，根据函数获取输出嵌入序列e
fusion
。
[0045]
具体的，所述(6)中，将空间特征f输入到全卷积网络，获得得分图m、局部偏移量o和归一化目标框尺寸s；对得分图m进行线性变换(简单地乘以大小相同的汉宁窗)，得到与搜索图像大小相同的得分矩阵，结合位置信息，选择得分最高的位置作为目标位置的中心，结合归一化目标框尺寸s，并使用局部偏移量o进行矫正，得到最终的目标框坐标。
[0046]
具体的，所述全卷积网络中，每个卷积块均包括一个卷积层、一个归一化层和一个relu激活函数层。
[0047]
具体的，所述步骤(7)中，使用加权焦点损失作为分类损失，使用giou损失作为回归损失，结合平均绝对误差损失计算跟踪网络的总损失为:
[0048][0049][0050][0051]
其中：λ1和2为平衡参数(实验中设置为λ1＝2，λ2＝5)；m
xy
为得分图m中位置(x,y)处的预测得分，为利用高斯核生成的真值热图中位置(x,y)处的得分，β和μ为超参数(训练时设置为β＝2，μ＝4)，h和w为输入图像的长和宽(可见光图像r
t
和红外图像t
t
的长和宽)；iou为交并比，ac为真实目标框和预测目标框的最小包围框面积，ρ为真实目标框和预测目标框的并集面积。
[0052]
有益效果：本发明提供的基于多模态层次关系建模的rgb-t目标跟踪方法，通过堆叠多层的transformer编码器结构，利用自注意力机制在图像特征学习的多个阶段渐进式地聚集并融合多模态图像特征，能够充分挖掘多模态数据的可利用信息；同时，利用基于图像块的动态部件特征融合模块调节可见光信息和红外信息在跟踪过程中的相互作用，更好地适应复杂性场景，可以提升跟踪性能和跟踪速度。
附图说明
[0053]
图1为本发明方法的实施流程图；
[0054]
图2为采用本发明方法进行目标跟踪的系统的结构示意图；
[0055]
图3为光照解耦网络的结构示意图。
具体实施方式
[0056]
以下结合附图和具体实施例对本发明作具体的介绍。
[0057]
如图1所示为一种基于多模态层次关系建模的rgb-t目标跟踪方法，输入是一对来自视频流中的可见光和红外图像，通过裁剪获得模板和搜索图像，分割处理后得到对应图像块序列，经线性投影层将块序列投影成2维标记嵌入序列，级联并行输入到多个vit编码
器构成孪生网络的主干，用于执行对模板和搜索图像之间、可见光模态和红外模态之间的特征学习与交互。在特征交互的任何一个阶段，包括编码和加权求和阶段，通过分解可见光图像光照图，并使用可训练的网络为可见光图像中的每一个区域计算出可见光模态的对应权重。最后，将得到的可见光和红外搜索区域特征加权求和，重构为空间特征输入到预测头用于后续的目标分类和回归。下面就各个步骤加以具体说明。
[0058]
步骤s01：从rgb-t数据流中获取训练样本集，从每个训练样本中提取出相对应的一幅可见光图像r
t
和一幅红外图像t
t
，从可见光图像r
t
中裁剪出可见光模板图像和可见光搜索图像，从红外图像t
t
中裁剪出红外模板图像和红外搜索图像，对裁剪出的图像进行分块，得到可见光模板块序列zv、可见光搜索块序列xv、红外模板块序列zi和红外搜索块序列xi。
[0059]
(11)提取相对应的可见光图像r
t
和红外图像t
t
；从可见光图像r
t
中裁剪出尺寸为192
×
192的可见光模板图像，并扩大可见光模板图像的范围裁剪出尺寸为384
×
384的可见光搜索图像；从红外图像t
t
中裁剪出尺寸为192
×
192的红外模板图像，并扩大红外模板图像的范围裁剪出尺寸为384
×
384的红外搜索图像。
[0060]
(12)对裁剪出的图像进行分块处理，根据尺寸，按照模板图像分块规则将可见光模板图像和外模板图像划分为n
×
n个块，按照搜索图像分块规则将可见光搜索图像和红外搜索图像划分为n
×
n个块，对分块后的图像进行排序形成块序列，即得到可见光模板块序列可见光搜索块序列红外模板块序列和红外搜索块序列
[0061]
步骤s02：构建动态部件融合模块(如图2右边部分)，获取可见光搜索图像的照明程度信息，并估计出可见光权重值α∈(0,1)，可见光权重值α用于描述可见光搜索图像中可见光信息的可信任程度，使用可见光权重值α全程动态指导可见光模特和红外模态的相互作用。
[0062]
(21)构建基于retinex光照增强理论的光照解耦网络(如图3所示)，通过光照解耦网络获取可见光搜索图像的光照分量i；包括如下步骤。
[0063]
(211)基于retinex光照增强理论，为可见光搜索图像s设置两个卷积网络分支，分别用于分解可见光搜索图像s的反射率分量r和光照分量i，s＝r
·
i；可见光搜索图像s先经过一次卷积-relu层得到f
temp
。
[0064]
(212)在第一个卷积网络分支中，f
temp
通过最大池化层下采样，进行第一层卷积-relu层和最大池化层下采样，再经过第二层卷积-relu层获得中间结果；中间结果进行一次反卷积上采样，和第一层卷积-relu层的输出拼接，输入到第三层卷积-relu层，再次进行反卷积上采样，输出结果与f
temp
进行拼接，输入到第四层卷积-relu层，得到f
branch1
。
[0065]
(213)在第二个卷积网络分支中，f
temp
通过一次卷积-relu层，输出结果与f
branch1
进行拼接，通过一个卷积层和一个sigmoid激活函数层，获得光照分量i。
[0066]
(22)按照搜索图像分块规则，将光照分量i划分为n
×
n个块。
[0067]
(23)构建一个可训练的神经网络将分块后的光照分量i映射到一个(0,1)的区间范围，所述可训练的神经网络包括一个全局平均池化层、一个1
×
1卷积层、一个全连接层和sigmoid激活函数，光照分量i的第l个分块i
l
先通过全局平均池化层调整尺寸，然后通过1
×
1卷积层转换通道，最后通过全连接层和sigmoid激活函数映射为一个具体的分数值，估计出的第i个分块中可见光信息的可信任程度αi为：
[0068]
α
l
＝σ(fc(conv(gap(i
l
))))
[0069]
其中：l＝1,2,
…
,n2，i
l
表示光照分量i的第l个分块，conv表示卷积操作，gap表示全局平均池化操作，fc表示全连接层，σ表示sigmoid激活函数，α
l
表示第l个分块中可见光信息的可信任程度，α＝[α1；α2；
…
；
n2
]。
[0070]
步骤s03：通过线性投影层将可见光模板块序列zv、可见光搜索块序列xv、红外模板块序列zi和红外搜索块序列xi投影成2维特征，获得可见光模板标记嵌入序列zv、可见光搜索标记嵌入序列xv、红外模板标记嵌入序列zi和红外搜索标记嵌入序列xi。
[0071]
(31)将可见光模板块序列zv、可见光搜索块序列xv、红外模板块序列zi和红外搜索块序列xi展平并投影成2维特征。
[0072]
(32)在块序列中加入可学习的模板图像位置编码pz和搜索图像位置编码p
x
，标记每个分块的位置信息，该过程描述为：
[0073][0074][0075][0076][0077]
其中：p是线性投影层的可学习参数。
[0078]
步骤s04：构建l层transformer编码器，将可见光模板标记嵌入序列zv、红外模板标记嵌入序列zi、可见光搜索标记嵌入序列xv和红外搜索标记嵌入序列xi按顺序合并为一个序列，并行输入到l层transformer编码器进行自注意运算，获得交互嵌入总序列e。
[0079]
如图2中间部分所示，构建l层transformer编码器对标记嵌入序列进行自注意力运算，先将并行输入到l层transformer编码器进行自注意运算，l层transformer编码器是由l个transformer编码器层组成的多模态结构，不同于多输入的交叉注意力，自注意力操作是输入标记嵌入两两之间交互的过程，通过生成注意力矩阵完成自身特征的加强，第m层transformer编码器描述为：
[0080]am
＝encode(a
m-1
)
[0081]
其中：am和a
m-1
分别表示第m层和第m-1层transformer编码器的输出，m＝1,2,α,l，交互嵌入总序列e＝a
l
，从交互嵌入总序列e中拆分出可见光模板嵌入序列可见光搜索嵌入序列红外模板嵌入序列和红外搜索嵌入序列
[0082]
所述transformer编码器采用应用于下游任务的vit结构，包括两个层归一化层、多头自注意力层和多层感知机层，在编码期间进行两次残差连接，编码过程描述为：
[0083]
encode
′
(a
m-1
)＝mha(ln(e))+a
m-1
[0084]
encode(a
m-1
)＝mlp(ln(encode
′
(a
m-1
)))+encode'(a
m-1
)
[0085]
其中：a
m-1
表示第m层transformer编码器的输入，ln表示层归一化，mha代表多头自
注意力，mlp表示多层感知机，多层感知机由两个全连接层和一个gelu激活函数组成。
[0086]
步骤s05：利用可见光权重值α对交互嵌入总序列e做加权求和获取输出嵌入序列e
fusion
。
[0087]
计算输出嵌入序列e
fusion
时，仅使用可见光搜索嵌入序列和红外搜索嵌入序列计算公式为
[0088]
步骤s06：将输出嵌入序列e
fusion
重构为空间特征f，通过全卷积网络获取空间特征f的得分图m，将得分最高的位置作为目标位置的中心，确定最终的目标框坐标。
[0089]
将空间特征f输入到全卷积网络，所述全卷积网络中，每个卷积块均包括一个卷积层、一个归一化层和一个relu激活函数层；通过全卷积网络获得得分图m、局部偏移量o和归一化目标框尺寸s；对得分图m进行线性变换，得到与搜索图像大小相同的得分矩阵，结合位置信息，选择得分最高的位置作为目标位置的中心，结合归一化目标框尺寸s，并使用局部偏移量o进行矫正，得到最终的目标框坐标。
[0090]
步骤s07：使用损失函数对跟踪网络的训练过程进行监督。
[0091]
使用加权焦点损失作为分类损失，使用giou损失作为回归损失，结合平均绝对误差损失计算跟踪网络的总损失为:
[0092][0093][0094][0095]
其中：λ1和2为平衡参数(实验中设置为λ1＝2，λ2＝5)；m
xy
为得分图m中位置(x,y)处的预测得分，为利用高斯核生成的真值热图中位置(x,y)处的得分，β和为超参数(训练时设置为β＝2，μ＝4)，h和w为输入图像的长和宽(可见光图像r
t
和红外图像t
t
的长和宽)；iou为交并比，ac为真实目标框和预测目标框的最小包围框面积，ρ为真实目标框和预测目标框的并集面积。
[0096]
步骤s08：将视频流中的待跟踪图像输入到训练好的跟踪网络中，在视频流中对待跟踪图像进行跟踪，待跟踪图像属于视频流中某一帧图片或某一帧图片中的部分。
[0097]
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

技术特征：
1.一种基于多模态层次关系建模的rgb-t目标跟踪方法，其特征在于：包括如下步骤：(1)从rgb-t数据流中获取训练样本集，从每个训练样本中提取出相对应的一幅可见光图像r
t
和一幅红外图像t
t
，从可见光图像r
t
中裁剪出可见光模板图像和可见光搜索图像，从红外图像t
t
中裁剪出红外模板图像和红外搜索图像，对裁剪出的图像进行分块，得到可见光模板块序列z
v
、可见光搜索块序列x
v
、红外模板块序列z
i
和红外搜索块序列x
i
；(2)构建动态部件融合模块获取可见光搜索图像的照明程度信息，并估计出可见光权重值(0,1)，可见光权重值α用于描述可见光搜索图像中可见光信息的可信任程度，使用可见光权重值α全程动态指导可见光模特和红外模态的相互作用；(3)通过线性投影层将可见光模板块序列z
v
、可见光搜索块序列x
v
、红外模板块序列z
i
和红外搜索块序列x
i
投影成2维特征，获得可见光模板标记嵌入序列z
v
、可见光搜索标记嵌入序列x
v
、红外模板标记嵌入序列z
i
和红外搜索标记嵌入序列x
i
；(4)构建l层transformer编码器，将可见光模板标记嵌入序列z
v
、红外模板标记嵌入序列z
i
、可见光搜索标记嵌入序列x
v
和红外搜索标记嵌入序列x
i
按顺序合并为一个序列，并行输入到l层transformer编码器进行自注意运算，获得交互嵌入总序列e；(5)利用可见光权重值α对交互嵌入总序列e做加权求和获取输出嵌入序列e
fusion
；(6)将输出嵌入序列e
fusion
重构为空间特征f，通过全卷积网络获取空间特征f的得分图m，将得分最高的位置作为目标位置的中心，确定最终的目标框坐标；(7)使用损失函数对跟踪网络的训练过程进行监督；(8)将视频流中的待跟踪图像输入到训练好的跟踪网络中，在视频流中对待跟踪图像进行跟踪，待跟踪图像属于视频流中某一帧图片或某一帧图片中的部分。2.根据权利要求1所述的基于多模态层次关系建模的rgb-t目标跟踪方法，其特征在于：所述步骤(1)中，获取可见光模板块序列z
v
、可见光搜索块序列x
v
、红外模板块序列z
i
和红外搜索块序列x
i
，包括如下步骤：(11)提取相对应的可见光图像r
t
和红外图像t
t
；从可见光图像r
t
中裁剪出可见光模板图像，并扩大可见光模板图像的范围裁剪出可见光搜索图像；从红外图像t
t
中裁剪出红外模板图像，并扩大红外模板图像的范围裁剪出红外搜索图像；(12)对裁剪出的图像进行分块处理，根据尺寸，按照模板图像分块规则将可见光模板图像和外模板图像划分为n
×
n个块，按照搜索图像分块规则将可见光搜索图像和红外搜索图像划分为n
×
n个块，对分块后的图像进行排序形成块序列，即得到可见光模板块序列可见光搜索块序列红外模板块序列和红外搜索块序列3.根据权利要求1所述的基于多模态层次关系建模的rgb-t目标跟踪方法，其特征在于：所述步骤(2)中，通过动态部件融合模块获取可见光权重值α，包括如下步骤：(21)构建光照解耦网络，通过光照解耦网络获取可见光搜索图像的光照分量i；(22)按照搜索图像分块规则，将光照分量i划分为n
×
n个块；(23)构建一个可训练的神经网络将分块后的光照分量i映射到一个(0,1)的区间范围，估计出第l个分块中可见光信息的可信任程度α
l
，l＝1,2,
…
,n2。4.根据权利要求3所述的基于多模态层次关系建模的rgb-t目标跟踪方法，其特征在
于：所述步骤(21)中，通过基于retinex光照增强理论设置的光照解耦网络获取可见光搜索图像的光照分量i，包括如下步骤：(211)基于retinex光照增强理论，为可见光搜索图像s设置两个卷积网络分支，分别用于分解可见光搜索图像s的反射率分量r和光照分量i，s＝r
·
i；可见光搜索图像s先经过一次卷积-relu层得到f
temp
；(212)在第一个卷积网络分支中，f
temp
通过最大池化层下采样，进行第一层卷积-relu层和最大池化层下采样，再经过第二层卷积-relu层获得中间结果；中间结果进行一次反卷积上采样，和第一层卷积-relu层的输出拼接，输入到第三层卷积-relu层，再次进行反卷积上采样，输出结果与f
temp
进行拼接，输入到第四层卷积-relu层，得到f
branch1
；(213)在第二个卷积网络分支中，f
temp
通过一次卷积-relu层，输出结果与f
branch1
进行拼接，通过一个卷积层和一个sigmoid激活函数层，获得光照分量i。5.根据权利要求3所述的基于多模态层次关系建模的rgb-t目标跟踪方法，其特征在于：所述步骤(23)中，使用可训练的神经网络将分块后的光照分量i映射到一个(0,1)的区间范围；所述可训练的神经网络包括一个全局平均池化层、一个1
×
1卷积层、一个全连接层和sigmoid激活函数，光照分量i的第l个分块i
l
先通过全局平均池化层调整尺寸，然后通过1
×
1卷积层转换通道，最后通过全连接层和sigmoid激活函数映射为一个具体的分数值，函数表示为：α
l
＝σ(fc(conv(gap(i
l
))))其中：i
l
表示光照分量i的第l个分块，conv表示卷积操作，gap表示全局平均池化操作，fc表示全连接层，σ表示sigmoid激活函数，α
l
表示第l个分块中可见光信息的可信任程度。6.根据权利要求1所述的基于多模态层次关系建模的rgb-t目标跟踪方法，其特征在于：所述步骤(3)中，获取标记嵌入序列包括如下步骤：(31)将可见光模板块序列z
v
、可见光搜索块序列x
v
、红外模板块序列z
i
和红外搜索块序列x
i
展平并投影成2维特征；(32)在块序列中加入可学习的模板图像位置编码p
z
和搜索图像位置编码p
x
，标记每个分块的位置信息，该过程描述为：分块的位置信息，该过程描述为：分块的位置信息，该过程描述为：分块的位置信息，该过程描述为：其中：p是线性投影层的可学习参数。7.根据权利要求1所述的基于多模态层次关系建模的rgb-t目标跟踪方法，其特征在于：所述步骤(4)中，构建l层transformer编码器对标记嵌入序列进行自注意力运算，先将并行输入到l层transformer编码器进行自注意运算，l层transformer编码器是由l个transformer编码器层组成的多模态结构，第m层transformer编码器描述为：a
m
＝encode(a
m-1
)
其中：a
m
和a
m-1
分别表示第m层和第m-1层transformer编码器的输出，m＝1,2,
…
,l，交互嵌入总序列e＝a
l
，从交互嵌入总序列e中拆分出可见光模板嵌入序列可见光搜索嵌入序列红外模板嵌入序列和红外搜索嵌入序列8.根据权利要求1所述的基于多模态层次关系建模的rgb-t目标跟踪方法，其特征在于：所述步骤(5)中，根据函数获取输出嵌入序列e
fusion
。9.根据权利要求1所述的基于多模态层次关系建模的rgb-t目标跟踪方法，其特征在于：所述(6)中，将空间特征f输入到全卷积网络，获得得分图m、局部偏移量o和归一化目标框尺寸s；对得分图m进行线性变换，得到与搜索图像大小相同的得分矩阵，结合位置信息，选择得分最高的位置作为目标位置的中心，结合归一化目标框尺寸s，并使用局部偏移量o进行矫正，得到最终的目标框坐标。10.根据权利要求1所述的基于多模态层次关系建模的rgb-t目标跟踪方法，其特征在于：所述步骤(7)中，使用加权焦点损失作为分类损失，使用giou损失作为回归损失，结合平均绝对误差损失计算跟踪网络的总损失为:计算跟踪网络的总损失为:计算跟踪网络的总损失为:其中：λ1和λ2为平衡参数；m
xy
为得分图m中位置(x,y)处的预测得分，为利用高斯核生成的真值热图中位置(x,y)处的得分，β和μ为超参数，h和w为输入图像的长和宽；iou为交并比，a
c
为真实目标框和预测目标框的最小包围框面积，ρ为真实目标框和预测目标框的并集面积。

技术总结
本发明公开了一种本发明公开了一种基于多模态层次关系建模的RGB-T目标跟踪方法，通过堆叠多层的Transformer编码器结构，利用自注意力机制在图像特征学习的多个阶段渐进式地聚集并融合多模态图像特征。在整个网络的多模态交互过程中，利用基于图像块的动态部件特征融合模块，动态求解跟踪场景中每个区域的可见光信息的重要程度，从而调节可见光信息和红外信息在跟踪过程中的相互作用，更好地适应复杂性场景，获得更好的跟踪性能。获得更好的跟踪性能。获得更好的跟踪性能。

技术研发人员：姚睿仇甲柱周勇邵志文刘兵赵佳琦祝汉城
受保护的技术使用者：中国矿业大学
技术研发日：2023.05.15
技术公布日：2023/8/14

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：多应用部署方法、多应用部署装置及计算机可读存储介质与流程 下一篇：一种基于最小化信息年龄的岛分簇和无人机轨迹规划方法

一种基于多模态层次关系建模的RGB-T目标跟踪方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于多模态层次关系建模的RGB-T目标跟踪方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表