一种基于背景弱化机制的单目标跟踪方法及跟踪系统

未命名 09-12 阅读：155 评论：0

1.本发明涉及视频单目标跟踪技术领域，尤其是一种基于背景弱化机制的单目标跟踪方法及跟踪系统。

背景技术：

2.单目标跟踪任务主要解决如何从连续的视频图像序列中预测目标位置、估计目标尺寸。在视频监控、自动驾驶、移动机器人、人机交互等众多领域中都具有广泛的应用。孪生网络跟踪架构由于其强大的特征表达能力在单目标跟踪中逐渐占据主导地位。但这种跟踪器在现实应用场景中面临着背景杂波、尺度变化以及物体形变等诸多挑战因素。
3.现有孪生结构的目标跟踪算法在经过骨干网络提取特征之后,大多采用滑窗相关的方式进行模板特征图与搜索区域特征图之间的信息交融。但是相关操作是一个线性运算，这种简单的融合方式只能对匹配区域进行局部运算，每一次运算都不能很好地利用全局信息，很容易导致语义缺失甚至陷入局部最优。虽然目前也有几种基于transformer的特征融合方法，例如transt方法中的eca-cfa模块，但这种融合方式结构较为复杂，大量的注意力运算导致其计算复杂度高，对特征的判别与匹配能力也有待于进一步提升。

技术实现要素：

4.本发明所要解决的技术问题在于，提供一种基于背景弱化机制的单目标跟踪方法及跟踪系统，引入非线性全局融合、降低背景噪声干扰和降低运算复杂度，以最终提升单目标跟踪算法的精确度和鲁棒性。
5.为解决上述技术问题，本发明提供一种基于背景弱化机制的单目标跟踪方法，包括如下步骤：
6.步骤1、获取目标初始帧，确定模板图像和搜索区域图像并将其分块；
7.步骤2、将分块后的模板图像块和搜索区域图像块分别通过基于swin-transformer的骨干网络得到模板特征和搜索区域特征；
8.步骤3、将所得模板特征和搜索区域特征通过基于背景弱化机制的融合网络对模板特征和搜索区域特征进行像素级融合；
9.步骤4、通过加入中心度分支的三头预测网络对目标进行位置识别和尺寸估计，实现完整的实现单目标跟踪。
10.优选的，步骤1中，获取目标初始帧，确定模板图像和搜索区域图像并将其分块。具体包括如下步骤：
11.步骤11、将由模板图像和搜索区域图像组成的一对图像块作为输入；
12.步骤12、模板图像取视频序列第一帧中以目标中心为原点、大小是目标包围框两倍的区域，包括跟踪目标及其周围的部分场景；搜索区域图像取以前一帧中目标的中心为原点、大小是目标包围框四倍的区域，搜索区域通常包含了跟踪目标可能移动的范围，将两
个区域分别重塑为正方形。
13.优选的，步骤11中，对于输入大小为的模板图像和的搜索区域图像，将图像切分为4
×
4大小的图像块，即每个图像块的特征尺寸为4
×4×
3＝48。
14.优选的，步骤2中，将分块后的模板图像块和搜索区域图像块分别通过基于swin-transformer的骨干网络得到模板特征和搜索区域特征具体包括如下步骤：
15.步骤21、图像分割模块将一张图像分割成无重叠的小块，并将像素值进行拼接作为其特征，然后将原始特征通过线性映射层将其映射到目标维度c，接下来让这些特征经过swin-transformer基本单元，并且经过这些基本单元后特征向量的数量维持不变，为以上两个过程共同构成了骨干网络的第一阶段。swin-transfomer基本单元用基于窗口的多头自注意力模块替换了标准形式的多头自注意力模块，其他的层保持不变，其中多层感知机和层归一化模块用来实现窗口之间的信息交互，采用一种跨移位窗口分区计算的方法，swin-transformer基本单元的计算表达式为：
[0016][0017]
其中和z
l
分别表示第一个窗口注意力模块和多层感知机模块的输出特征，w-msa和sw-msa分别表示使用规则分割和移位窗口分割两种类型的窗口多头自注意力机制；
[0018]
步骤22、通过像素融合层来逐渐降低特征向量的数量，在行和列两个方向上，以2为间隔抽取像素，像素融合层不断地价降低输入特征图的分辨率并扩大感受野，第一层的像素融合层将2
×
2大小的相邻元素作为一组，将这些组通过线性层映射到4c维度的特征上，这样就实现了每层以4的倍数地不断降低特征向量的数量，即分辨率的下采样，最后再通过一个全连接层将输出维度设置为2c；
[0019]
步骤23、通过swin-transformer基本单元对特征进行变换，使分辨率保持在像素融合层和特征变换层共同构成了骨干网络的第二阶段，以上这个过程重复三次，即构成了骨干网络的第三阶段，其输出特征大小为
[0020]
优选的，步骤3中，通过基于背景弱化机制的融合网络对模板特征和搜索区域特征进行特征融合具体包括如下步骤：
[0021]
步骤31、搜索区域背景弱化模块首先计算每个搜索区域特征与所有模板特征的相似度之和：
[0022][0023]
其中，是模板特征的查询向量，是搜索区域特征的键向量，n是模板特征的数量，接下来对所得的相似度进行多头求平均：
[0024][0025]
其中m是头数，即为每个搜索区域特征与模板特征的最终相似度得分；
[0026]
步骤32、保留相似度得分最高的前p个搜索区域特征，λ＝p/n，n为搜索区域特征总数，λ用来控制保留比，将剩余的搜索区域特征都置为0，但位置保持不变，以保证在去除背景时位置编码的有效性，经过背景弱化后，搜索区域特征图上大部分位置元素为0，充分的降低运算复杂度；
[0027]
步骤33、计算原模板特征与弱化背景后的搜索区域特征之间的双向多头注意力，即先将两者的键向量与值向量分别拼接，再分别用两者的查询向量与拼接后的两个向量做注意力运算，这个过程表示为：
[0028]km
＝concat(kz,k
x'
),vm＝concat(vz,v
x'
),
[0029][0030][0031]
qz,kz,vz分别是模板特征的查询向量、键向量、值向量；q
x'
,k
x'
,v
z'
分别是弱化后特征的查询向量、键向量、值向量，其余结构与transformer原模型相同，将搜索区域背景去除模块和双向注意力模块组合重复n次，构成了特征融合网络的前n层；
[0032]
步骤34、融合网络的最后一层包含一个单向注意力模块和一个双层感知机，通过计算x
l
和concat(z
l
,x
l
)之间的单向注意力来产生最后的搜索图像特征图其中z
l
,x
l
分别是经过前n层特征融合的两个输出结果，最后一层无需更新模板图像的特征，所以删除了从模板图像特征到搜索图像特征的相关性，ud被送入预测头网络。
[0033]
优选的，步骤32中，λ设置为0.65以控制背景特征保留比。
[0034]
优选的，步骤34中，融合网络的最后一层无需更新模板图像的特征，所以删除了从模板图像特征到搜索图像特征的相关性，ud被送入预测头网络具体为：
[0035][0036]
在计算多头注意力时，只计算从搜索区域特征到联合特征的单向注意力，q
x”是融合层前n层输入特征的查询向量，ku,vu分别是联合特征的键向量和值向量，单向注意力的计算表达式为：
[0037][0038]
优选的，步骤4中，通过加入中心度分支的三头预测网络对目标进行位置识别和尺寸估计，实现完整的实现单目标跟踪具体包括如下步骤：
[0039]
步骤41、整个预测头由分类分支，回归分支和中心度分支组成，通过不同卷积层将信息交融后特征图映射到预测头网络中的分类分支cls、中心度分支ctr、回归分支reg三个
不同空间进而实现精准预测；
[0040]
步骤42、计算目标总损失，其中l
cls
为分类损失，l
ctr
为中心度损失，l
reg
为回归损失，n为样本数目，n
pos
为正样本数量，x和y表示输出特征图坐标，p
x,y
与为正负样本标签和预测值，c
x,y
与为中心度标签和预测值，g
x,y
＝(x0,y0,x1,y1)，分别表示真实边框位置和预测边框位置，λc＝1和λr＝3为平衡权重系数，表示当p
x,y
＝1时为1，否则为0，分类损失采用二分类focal-loss，中心度分支采用交叉熵损失，回归分支采用giou-loss，总损失计算表达为：
[0041][0042]
步骤43、根据最小损失，输出目标所在当前帧的精准位置及尺寸。
[0043]
相应的，一种基于背景弱化机制的单目标跟踪系统，包括：背景弱化模块、双向注意力模块和单向注意力模块；背景弱化模块通过相似度计算逐层消除搜索区域的背景信息，双向注意力模块计算弱化后的搜索区域特征与模板特征的双向多头注意力，最后单向注意力模块计算从搜索区域特征到联合特征之间的单向多头注意力以实现完整的特征融合。
[0044]
优选的，背景弱化模块只用于搜索区域特征。
[0045]
本发明的有益效果为：(1)本发明提出的基于背景弱化机制的特征融合模块，通过逐层丢弃搜索区域的背景信息来降低背景信息对融合训练的负面影响，进一步提高对跟踪目标的辨别力和前景背景之间的对比度；(2)本发明提出的跟踪网络模型在跟踪成功率和精确度上有较大提升，可以很好地应对搜索区域的背景杂波，帮助跟踪器提升鲁棒性；(3)本发明提出的背景弱化模块与基于交叉注意力的融合相比,计算复杂度更低，有效减轻了计算负担并提高了跟踪器的实时性。
附图说明
[0046]
图1为本发明的方法流程示意图。
[0047]
图2为本发明的基于swin-transformer的骨干网络结构示意图。
[0048]
图3为本发明的相似度计算示意图。
[0049]
图4为本发明的预测头网络示意图。
具体实施方式
[0050]
如图1所示，一种基于背景弱化机制的单目标跟踪方法，包括如下步骤：
[0051]
s1：获取目标初始帧，确定模板图像和搜索区域图像并将其分块；
[0052]
s2：将分块后的模板图像块和搜索区域图像块分别通过基于swin-transformer的骨干网络得到模板特征和搜索区域特征；
[0053]
s3：将所得模板特征和搜索区域特征通过基于背景弱化机制的融合网络对模板特征和搜索区域特征进行像素级融合；
[0054]
s4：通过加入中心度分支的三头预测网络对目标进行位置识别和尺寸估计，实现完整的实现单目标跟踪。
[0055]
下面对各个步骤进行详细叙述。
[0056]
在步骤s1中，获取目标初始帧，确定模板图像和搜索区域图像并将其分块。具体步骤为：
[0057]
s101：首先将由模板图像和搜索区域图像组成的一对图像块作为输入。
[0058]
s102：模板图像取视频序列第一帧中以目标中心为原点、大小是目标包围框两倍的区域，包括跟踪目标及其周围的部分场景。搜索区域图像取以前一帧中目标的中心为原点、大小是目标包围框四倍的区域，搜索区域通常包含了跟踪目标可能移动的范围，将两个区域分别重塑为正方形。
[0059]
在步骤s2中，将分块后的模板图像块和搜索区域图像块分别通过基于swin-transformer的骨干网络得到模板特征和搜索区域特征。具体步骤为：
[0060]
s201：跟踪器首先将由模板图像和搜索区域图像组成的一对图像块作为输入。模板特征图是视频序列第一帧中以目标中心为原点、大小是目标包围框两倍的区域，包括跟踪目标及其周围的部分场景。搜索区域特征图是以前一帧中目标的中心为原点、大小是目标包围框四倍的区域，搜索区域通常包含了跟踪目标可能移动的范围，将两个区域分别重塑为正方形。
[0061]
s202：图像分割模块将一张图像分割成无重叠的小块，并将像素值进行拼接作为其特征。然后将原始特征通过线性映射层将其映射到目标维度c。接下来让这些特征经过swin-transformer基本单元，并且经过基本单元后特征向量的数量维持不变，为以上两个过程共同构成了骨干网络的第一阶段。swin-transfomer基本单元用基于窗口的多头自注意力模块替换了标准形式的多头自注意力模块，其他的层保持不变。其中多层感知机和层归一化模块用来实现窗口之间的信息交互，采用一种跨移位窗口分区计算的方法。swin-transformer基本单元的结构如图2所示，计算表达式为：
[0062][0063]
其中和z
l
分别表示第一个窗口注意力模块和多层感知机模块的输出特征，w-msa和sw-msa分别表示使用规则分割和移位窗口分割两种类型的窗口多头自注意力机制。
[0064]
s203：通过像素融合层来逐渐降低特征向量的数量。在行和列两个方向上，以2为间隔抽取像素。像素融合层可以不断地价降低输入特征图的分辨率并扩大感受野。第一层的像素融合层将2
×
2大小的相邻元素作为一组，将这些组通过线性层映射到4c维度的特征上，这样就实现了每层以4的倍数地不断降低特征向量的数量，即分辨率的下采样，最后再通过一个全连接层将输出维度设置为2c。
[0065]
s204：通过swin-transformer基本单元对特征进行变换，使分辨率保持在像素融合层和特征变换层共同构成了骨干网络的第二阶段。以上这个过程重复三次，即构
成了骨干网络的第三阶段，其输出特征大小为
[0066]
在步骤s3中，将所得模板特征和搜索区域特征通过基于背景弱化机制的融合网络对模板特征和搜索区域特征进行像素级融合。具体步骤为：
[0067]
s301：搜索区域背景弱化模块首先计算每个搜索区域特征与所有模板特征的相似度之和，是模板特征的查询向量，是搜索区域特征的键向量，n是模板特征的数量。其表达式如下：
[0068][0069]
接下来对所得的相似度进行多头求平均，m是头数，即为每个搜索区域特征与模板特征的最终相似度得分。相似度计算的原理如图3所示，最终的相似度得分为：
[0070][0071]
s302：保留相似度得分最高的前p个搜索区域特征(λ＝p/n，n为搜索区域特征总数，λ用来控制保留比)，将剩余的搜索区域特征都置为0，但位置保持不变，以保证在去除背景时位置编码的有效性。经过背景弱化后，搜索区域特征图上大部分位置元素为0，可以充分的降低运算复杂度。
[0072]
s303：计算原模板特征与弱化背景后的搜索区域特征之间的双向多头注意力，即先将两者的键向量与值向量分别拼接，再分别用两者的查询向量与拼接后的两个向量做注意力运算，这个过程表示为：
[0073]km
＝concat(kz,k
x'
),vm＝concat(vz,v
x'
),
[0074][0075][0076]
qz,kz,vz分别是模板特征的查询向量、键向量、值向量；q
x'
,k
x'
,v
z'
分别是弱化后特征的查询向量、键向量、值向量。其余结构与transformer原模型相同。将搜索区域背景去除模块和双向注意力模块组合重复n次，构成了特征融合网络的前n层。
[0077]
s304：融合网络的最后一层包含一个单向注意力模块和一个双层感知机。通过计算x
l
和concat(z
l
,x
l
)之间的单向注意力来产生最后的搜索图像特征图其中z
l
,x
l
分别是经过前n层特征融合的两个输出结果，与前n层的不同之处在于，最后一层无需更新模板图像的特征，所以删除了从模板图像特征到搜索图像特征的相关性。最终输出ud将被送入预测头网络。这个过程表示为：
[0078]
[0079]
在计算多头注意力时，只计算从搜索区域特征到联合特征的单向注意力，q
x”是融合层前n层输入特征的查询向量，ku,vu分别是联合特征的键向量和值向量。单向注意力的计算表达式为：
[0080][0081]
在步骤s4中，通过加入中心度分支的三头预测网络对目标进行位置识别和尺寸估计，实现完整的实现单目标跟踪。其步骤具体为：
[0082]
s401：整个预测头由分类分支，回归分支和中心度分支组成，过不同卷积层将信息交融后特征图映射到预测头网络中的分类分支(cls)、中心度分支(ctr)、回归分支(reg)三个不同空间进而实现精准预测。预测头的具体结构如图4所示。
[0083]
s402：计算目标总损失，其中l
cls
为分类损失,l
ctr
为中心度损失,l
reg
为回归损失,n为样本数目,n
pos
为正样本数量.x和y表示输出特征图坐标,p
x,y
与为正负样本标签和预测值,c
x,y
与为中心度标签和预测值,g
x,y
＝(x0,y0,x1,y1),分别表示真实边框位置和预测边框位置,λc＝1和λr＝3为平衡权重系数,表示当p
x,y
＝1时为1,否则为0.分类损失采用二分类focal-loss,中心度分支采用交叉熵损失,回归分支采用giou-loss。总损失计算表达为：
[0084][0085]
s403：根据最小损失，输出目标所在当前帧的精准位置及尺寸。
[0086]
综上，本发明提出一种基于背景弱化机制的单目标跟踪方法及跟踪系统，融合网络先通过搜索区域背景弱化模块逐层消除搜索区域的背景信息，并将弱化后的搜索区域特征与模板特征进行双向注意力运算，最后计算搜索区域特征与联合特征之间的单向注意力以实现特征融合。与基于注意力运算的融合策略相比，基于背景弱化机制的跟踪方法可以有效增强目标与背景信息的对比度，减轻计算负担并避免噪声背景区域对特征融合的负面影响，提高对跟踪目标的判别力与跟踪器的整体精确性。本发明可以广泛应用于视频监控、自动驾驶、人机交互等场景中，也可以部署于大型计算服务器中，为大批量用户提供目标高精度的实时定位、跟踪服务。

技术特征：
1.一种基于背景弱化机制的单目标跟踪方法，其特征在于，包括如下步骤：步骤1、获取目标初始帧，确定模板图像和搜索区域图像并将其分块；步骤2、将分块后的模板图像块和搜索区域图像块分别通过基于swin-transformer的骨干网络得到模板特征和搜索区域特征；步骤3、将所得模板特征和搜索区域特征通过基于背景弱化机制的融合网络对模板特征和搜索区域特征进行像素级融合；步骤4、通过加入中心度分支的三头预测网络对目标进行位置识别和尺寸估计，实现完整的实现单目标跟踪。2.如权利要求1所述的基于背景弱化机制的单目标跟踪方法，其特征在于，步骤1中，获取目标初始帧，确定模板图像和搜索区域图像并将其分块具体包括如下步骤：步骤11、将由模板图像和搜索区域图像组成的一对图像块作为输入；步骤12、模板图像取视频序列第一帧中以目标中心为原点、大小是目标包围框两倍的区域，包括跟踪目标及其周围的部分场景；搜索区域图像取以前一帧中目标的中心为原点、大小是目标包围框四倍的区域，搜索区域通常包含了跟踪目标可能移动的范围，将两个区域分别重塑为正方形。3.如权利要求2所述的基于背景弱化机制的单目标跟踪方法，其特征在于，步骤11中，对于输入大小为的模板图像和的搜索区域图像，将图像切分为4
×
4大小的图像块，即每个图像块的特征尺寸为4
×4×
3＝48。4.如权利要求1所述的基于背景弱化机制的单目标跟踪方法，其特征在于，步骤2中，将分块后的模板图像块和搜索区域图像块分别通过基于swin-transformer的骨干网络得到模板特征和搜索区域特征具体包括如下步骤：步骤21、图像分割模块将一张图像分割成无重叠的小块，并将像素值进行拼接作为其特征，然后将原始特征通过线性映射层将其映射到目标维度c，接下来让这些特征经过swin-transformer基本单元，并且经过基本单元后特征向量的数量维持不变，为以上两个过程共同构成了骨干网络的第一阶段。swin-transfomer基本单元用基于窗口的多头自注意力模块替换了标准形式的多头自注意力模块，其他的层保持不变，其中多层感知机和层归一化模块用来实现窗口之间的信息交互，采用一种跨移位窗口分区计算的方法，swin-transformer基本单元的计算表达式为：其中和z
l
分别表示第一个窗口注意力模块和多层感知机模块的输出特征，w-msa和sw-msa分别表示使用规则分割和移位窗口分割两种类型的窗口多头自注意力机制；步骤22、通过像素融合层来逐渐降低特征向量的数量，在行和列两个方向上，以2为间隔抽取像素，像素融合层不断地价降低输入特征图的分辨率并扩大感受野，第一层的像素
融合层将2
×
2大小的相邻元素作为一组，将这些组通过线性层映射到4c维度的特征上，这样就实现了每层以4的倍数地不断降低特征向量的数量，即分辨率的下采样，最后再通过一个全连接层将输出维度设置为2c；步骤23、通过swin-transformer基本单元对特征进行变换，使分辨率保持在像素融合层和特征变换层共同构成了骨干网络的第二阶段，以上这个过程重复三次，即构成了骨干网络的第三阶段，其输出特征大小为5.如权利要求1所述的基于背景弱化机制的单目标跟踪方法，其特征在于，步骤3中，通过基于背景弱化机制的融合网络对模板特征和搜索区域特征进行特征融合具体包括如下步骤：步骤31、搜索区域背景弱化模块首先计算每个搜索区域特征与所有模板特征的相似度之和：其中，是模板特征的查询向量，是搜索区域特征的键向量，n是模板特征的数量，接下来对所得的相似度进行多头求平均：其中m是头数，即为每个搜索区域特征与模板特征的最终相似度得分；步骤32、保留相似度得分最高的前p个搜索区域特征，λ＝pn，n为搜索区域特征总数，λ用来控制保留比，将剩余的搜索区域特征都置为0，但位置保持不变，以保证在去除背景时位置编码的有效性，经过背景弱化后，搜索区域特征图上大部分位置元素为0，充分的降低运算复杂度；步骤33、计算原模板特征与弱化背景后的搜索区域特征之间的双向多头注意力，即先将两者的键向量与值向量分别拼接，再分别用两者的查询向量与拼接后的两个向量做注意力运算，这个过程表示为：k
m
＝concat(k
z
,k
x'
),v
m
＝concat(v
z
,v
x'
),),q
z
,k
z
,v
z
分别是模板特征的查询向量、键向量、值向量；q
x'
,k
x'
,v
z'
分别是弱化后特征的查询向量、键向量、值向量，其余结构与transformer原模型相同，将搜索区域背景去除模块和双向注意力模块组合重复n次，构成了特征融合网络的前n层；步骤34、融合网络的最后一层包含一个单向注意力模块和一个双层感知机，通过计算xl和concat(z
l
,x
l
)之间的单向注意力来产生最后的搜索图像特征图其中z
l
,x
l
分别是经过前n层特征融合的两个输出结果，最后一层无需更新模板图像的特征，所以删
除了从模板图像特征到搜索图像特征的相关性，u
d
被送入预测头网络。6.如权利要求5所述的基于背景弱化机制的单目标跟踪方法，其特征在于，步骤32中，λ设置为0.65以控制背景特征保留比。7.如权利要求5所述的基于背景弱化机制的单目标跟踪方法，其特征在于，步骤34中，融合网络的最后一层无需更新模板图像的特征，所以删除了从模板图像特征到搜索图像特征的相关性，u
d
被送入预测头网络具体为：在计算多头注意力时，只计算从搜索区域特征到联合特征的单向注意力，即：8.如权利要求1所述的基于背景弱化机制的单目标跟踪方法，其特征在于，步骤4中，通过加入中心度分支的三头预测网络对目标进行位置识别和尺寸估计，实现完整的实现单目标跟踪具体包括如下步骤：步骤41、整个预测头由分类分支，回归分支和中心度分支组成，通过不同卷积层将信息交融后特征图映射到预测头网络中的分类分支cls、中心度分支ctr、回归分支reg三个不同空间进而实现精准预测；步骤42、计算目标总损失，其中l
cls
为分类损失，l
ctr
为中心度损失，l
reg
为回归损失，n为样本数目，n
pos
为正样本数量，x和y表示输出特征图坐标，p
x,y
与为正负样本标签和预测值，c
x,y
与为中心度标签和预测值，g
x,y
＝(x0,y0,x1,y1)，分别表示真实边框位置和预测边框位置，λ
c
＝1和λ
r
＝3为平衡权重系数，表示当p
x,y
＝1时为1，否则为0，分类损失采用二分类focal-loss，中心度分支采用交叉熵损失，回归分支采用giou-loss，总损失计算表达为：步骤43、根据最小损失，输出目标所在当前帧的精准位置及尺寸。9.一种如权利要求1所述的基于背景弱化机制的单目标跟踪方法的跟踪系统，其特征在于，包括：背景弱化模块、双向注意力模块和单向注意力模块；背景弱化模块通过相似度计算逐层消除搜索区域的背景信息，双向注意力模块计算弱化后的搜索区域特征与模板特征的双向多头注意力，最后单向注意力模块计算从搜索区域特征到联合特征之间的单向多头注意力以实现完整的特征融合。10.如权利要求9所述的基于背景弱化机制的单目标跟踪系统，其特征在于，背景弱化模块只用于搜索区域特征。

技术总结
本发明公开了一种基于背景弱化机制的单目标跟踪方法及跟踪系统，方法包括如下步骤：获取目标初始帧，确定模板图像和搜索区域图像并将其分块；将分块后的模板图像块和搜索区域图像块分别通过基于Swin-Transformer的骨干网络得到模板特征和搜索区域特征；将所得模板特征和搜索区域特征通过基于背景弱化机制的融合网络对模板特征和搜索区域特征进行像素级融合；通过加入中心度分支的三头预测网络对目标进行位置识别和尺寸估计，实现完整的实现单目标跟踪。系统包括：背景弱化模块、双向注意力模块和单向注意力模块。本发明引入非线性全局融合、降低背景噪声干扰和降低运算复杂度，以最终提升单目标跟踪算法的精确度和鲁棒性。以最终提升单目标跟踪算法的精确度和鲁棒性。以最终提升单目标跟踪算法的精确度和鲁棒性。

技术研发人员：钱小燕马英洲朱新瑞李智昱陶旭东施俞洲
受保护的技术使用者：南京航空航天大学
技术研发日：2023.06.13
技术公布日：2023/9/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于背景弱化机制的单目标跟踪方法及跟踪系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于背景弱化机制的单目标跟踪方法及跟踪系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表