一种目标认知的无锚框孪生网络跟踪算法的制作方法
未命名
07-20
阅读:114
评论:0
1.本发明涉及孪生网络跟踪算法技术领域,特别是一种目标认知的无锚框孪生网络跟踪算法。
背景技术:
2.基于锚框的孪生网络跟踪算法在过去的几年间取得了很大的进展,提高了目标状态估计的准确性,促进了跟踪领域的蓬勃发展。然而,这些算法对锚框相关的超参数非常敏感,往往需要仔细设计并调整后才能获得较高的性能。同时还增加了许多额外的计算量,给跟踪算法的实时性带来负担。因此,为了消除预先定义的锚框集合,研究者们受目标检测领域中基于无锚框的检测算法启发,提出许多基于无锚框的跟踪算法,如siamcar、siamban和ocean等。这些算法直接对每个候选目标中心点进行分类,并直接回归目标边界框中每个点到目标边界框四条边的距离。
3.虽然离线无锚框的孪生网络跟踪算法非常简洁快速,并在不少数据集上取得了很有前景的结果,但是在一些数据集上的准确性仍逊色于基于锚框的跟踪算法。在目标检测领域,许多改进的无锚框检测器弥补了跟基于锚框的检测器之间的差距,得到了广泛的研究。但是在视觉目标跟踪领域,这种情况目前还没有得到充分研究。此外,基于无锚框和基于锚框的孪生网络跟踪算法都存在同样的问题,那就是目标模板和搜索区域特征的提取在相关操作之前是不相交的,导致模板分支与搜索分支的相互非常有限,限制了跟踪算法在复杂场景下的准确性和鲁棒性。由于孪生网络参数离线训练完后在推理阶段保持不变,没有进行在线更新,因此在目标外观形变或尺度变化的情况下对目标的状态估计不够准确。
技术实现要素:
4.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
5.鉴于上述和/或现有的目标认知的无锚框孪生网络跟踪算法中存在的问题,提出了本发明。
6.因此,本发明所要解决的问题在于如何提供一种目标认知的无锚框孪生网络跟踪算法。
7.为解决上述技术问题,本发明提供如下技术方案:一种目标认知的无锚框孪生网络跟踪算法,其包括将输入的初始帧目标模版图像和当前帧搜索区域图像首先经过孪生主干网络提取深度特征;
8.降低提取到的深度特征的通道维度;
9.分别经过三个平行的空洞卷积层得到不同尺度的特征,输入到目标认知注意力块中进行信息交互,学习目标认知特征;
10.将输出的特征分别进行深度互相关操作得到响应图,再进行自适应权重聚合;
11.通过分类回归子网络进行分类预测和边界框预测,其中依托于提出的边界框优化得到更加准确的边界框预测结果。
12.作为本发明所述目标认知的无锚框孪生网络跟踪算法的一种优选方案,其中:所述深度特征包括目标模版特征和搜索区域特征,所述目标模版特征提供具有判别性的特征表示,所述搜索区域特征学习与类别无关的目标信息。
13.作为本发明所述目标认知的无锚框孪生网络跟踪算法的一种优选方案,其中:所述目标认知注意力块包括以前面特征编码过程中得到的一对卷积特征作为输入,输出一个经过交叉空间注意力增强的特征对,其中将输入特征对中的模版特征记作将搜索区域特征记作包括如下步骤:
14.分别对z和x使用一个1
×
1卷积降低通道维度生成和其中c'=c/2,h为向量的高度,w为向量的宽度,c'为降低通道维度后特征向量的通道数,c表示输入特征向量的通道数;
15.将和送入两个平行的分支以生成逐像素的空间交叉注意力图。
16.作为本发明所述目标认知的无锚框孪生网络跟踪算法的一种优选方案,其中:所述自适应权重聚合包括如下步骤:
17.对每个响应图分别使用不同的1
×
1卷积和sigmoid函数来生成相应的融合权重图;
18.加权融合所有的响应图,通过如下公式表示:
[0019][0020]
其中,ωi表示第i个融合权重图,和σ分别表示1
×
1卷积和sigmoid函数,si表示i个响应图。
[0021]
作为本发明所述目标认知的无锚框孪生网络跟踪算法的一种优选方案,其中:所述边界框优化的获得方式为通过直接预测偏移量和距离缩放因子,包括如下步骤:
[0022]
对于回归图中的每个位置,首先预测一个初始边界框b
′
(l
′
,t
′
,r
′
,b
′
);
[0023]
根据回归图和预测的初始边界框计算偏移量,使用可变形卷积层获得边界框对齐的特征;
[0024]
使用对齐的特征预测四个距离缩放因子δb(δl,δt,δr,δb);
[0025]
将其应用于初始边界框生成优化后的边界框b(l,t,r,b),并通过如下公式表示:
[0026]
b(l,t,r,b)=(δl
×
l
′
,δt
×
t
′
,δr
×r′
,δb
×b′
)
[0027]
其中,l、t、r和b分别表示目标中心点到目标边界框左边、上边、右边和下边的距离。
[0028]
作为本发明所述目标认知的无锚框孪生网络跟踪算法的一种优选方案,其中:所述分类回归包括通过最大过滤模块来实现回归分支对分类分支的定向交互和指导。
[0029]
作为本发明所述目标认知的无锚框孪生网络跟踪算法的一种优选方案,其中:所述最大过滤模块作用在最终的回归特征图上,包括如下步骤:
[0030]
采用核为3
×
3的卷积层和最大池化层得到特定的特征图;
[0031]
将得到的特定的特征图将与输入的最终回归图相加,并输入到组归一化和激活函数中;
[0032]
选择出相邻区域中的最大激活值来滤除相似物体的干扰。
[0033]
作为本发明所述目标认知的无锚框孪生网络跟踪算法的一种优选方案,其中:所述最大过滤模块作用在最终的回归特征图上还包括如下步骤:
[0034]
在激活图上进一步使用一个单通道的3
×
3卷积层和sigmoid函数来得到一个新的分类图;
[0035]
将新的分类图与原始分类图相乘以灌输从回归分支到分类分支的指导,通过如下公式表示:
[0036][0037]
其中,fr表示最终用于回归的特征图,f
cls
和fc′
ls
分别表示原始分类图和经过最大过滤模块增强后的最终分类图;和分别表示不同的3
×
3卷积层,δ和σ分别表示gn+relu和sigmoid函数。
[0038]
作为本发明所述目标认知的无锚框孪生网络跟踪算法的一种优选方案,其中:实用多任务损失函数来进行整体网络的端到端训练,通过如下公式表示:
[0039]
l=l
cls
+λ1l
reg
+λ2l
refine
[0040]
其中,l
cls
、l
reg
和l
refine
分别表示分类、回归和边界框优化的损失函数;λ1和λ2为平衡参数。
[0041]
作为本发明所述目标认知的无锚框孪生网络跟踪算法的一种优选方案,其中:还包括对所述分类分支使用二分类交叉熵损失函数,对回归分支使用iou损失函数。
[0042]
本发明有益效果为本技术所述算法用于实现鲁棒和准确的视觉目标跟踪,为无锚框跟踪器设计了一个新的目标认知注意力块(target-cognisant attention block,tcab),通过衡量模板分支和搜索分支之间的空间相似性来实现交叉空间注意力,使其可以在相关操作之前传递目标外观信息。该块通过隐式更新目标模板来增强目标表示,从而补偿目标外观的动态变化,并最终提高跟踪的鲁棒性,是siamtc算法的关键组成部分。本技术进一步提出自适应权重聚合和边界框优化两种简单有效的准确跟踪机制(accurate tracking mechanisms,atm)来提高复杂跟踪场景下目标边界框的准确性,弥补与基于锚框的跟踪器的差距,并且没有带来很多额外的计算开销。最后,本技术提出一个最大过滤模块(max filtering module,mfm),利用回归分支的指导过滤掉分类图中相似干扰物的响应。本技术在otb-2015、lasot、got-10k和vot2019四个具有挑战性的跟踪数据集上进行了详细的实验,充分验证了所提方法的优越性。
附图说明
[0043]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0044]
图1为本发明的整体框架图。
[0045]
图2为本发明的目标认知注意力块结构图。
[0046]
图3为本发明的目标认知注意力可视化结果图。
[0047]
图4为本发明的细粒度融合权重图可视化结果图。
[0048]
图5为本发明的最大过滤模块可视化结果图。
[0049]
图6为本发明的otb-2015数据集上的成功率图和精度图。
[0050]
图7为本发明的got-10k数据集上的成功率图。
[0051]
图8为本发明的lasot数据集上的成功率图和精度图。
[0052]
图9为本发明的got-10k数据集中部分视频序列的定性跟踪结果图。
具体实施方式
[0053]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
[0054]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0055]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0056]
实施例1
[0057]
参照图1,为本发明第一个实施例,该实施例提供了一种目标认知的无锚框孪生网络跟踪算法,目标认知的无锚框孪生网络跟踪算法包括:
[0058]
s1、将输入的初始帧目标模版图像和当前帧搜索区域图像首先经过孪生主干网络提取深度特征。
[0059]
进一步的,输入的初始帧目标模版图像和当前帧搜索区域图像首先经过的一个共享参数权重的resnet-50孪生主干网络提取深度特征,得到目标模版特征fz和搜索区域特征f
x
,此时,
[0060]
s2、降低提取到的深度特征的通道维度。
[0061]
进一步的,将s1中提取到的目标模版特征fz和搜索区域特征f
x
的通道维度降低到256,并且将目标模版特征进行中心裁剪,得到和
[0062]
s3、分别经过三个平行的空洞卷积层得到不同尺度的特征,输入到目标认知注意力块中进行信息交互,学习目标认知特征。
[0063]
进一步的,通过使用交叉空间注意力的目标认知注意力块,以实现在相关操作之前增强目标模板和搜索区域特征之间的外观一致性。
[0064]
s4、将输出的特征分别进行深度互相关操作得到响应图,再进行自适应权重聚合。
[0065]
s5、通过分类回归子网络进行分类预测和边界框预测,其中依托于提出的边界框优化得到更加准确的边界框预测结果。
[0066]
综上,如图1所示,本发明所提出的目标认知的无锚框孪生网络跟踪算法(siamtc),主要由孪生主干网络、特征聚合网络和分类回归子网络构成。其中,特征聚合网
络由三个平行的空洞卷积层matrix、目标认知注意力块tcab、自适应权重聚合(adaptive weight aggregation,awa)组成,分类回归子网络由最大过滤模块mfm和可变形卷积层(deformable convolution layer,dcn)构成。需要说明的是,*表示深度互相关操作,表示矩阵乘法。
[0067]
实施例2
[0068]
参照图1~图9,为本发明第二个实施例,其在第一个实施例的基础之上,还包括:
[0069]
关于特征聚合网络,孪生网络跟踪算法依赖于目标模板和搜索区域来传达目标外观的对应关系,这种跟踪框架设计非常简便,在简单的跟踪场景下具有良好的表现。但是在面对极端复杂的情况时,其将目标与干扰物区分开来的能力会受到限制。本发明将上述不足归因于模板分支与搜索分支之间缺乏信息流动,导致推理过程中的不确定性影响在线跟踪的准确性。因此准确和鲁棒的目标跟踪过程中需要充分提取模板分支和搜索分支之间的交互信息,使得本发明提出一种使用交叉空间注意力的目标认知注意力块,以实现在相关操作之前增强目标末班和搜索区域特征之间的外观一致性,具体结构如图2所示。目标认知注意力tcab块以前面特征编码,即分别经过三个平行的空洞卷积层得到不同尺度的特征过程中得到的一对卷积特征作为输入,输出一个经过交叉空间注意力增强的特征对,其中将输入特征对中的模版特征记作将搜索区域特征记作包括如下步骤:
[0070]
首先,分别对z和x使用一个1
×
1卷积降低通道维度生成和其中c'=c/2,h为向量的高度,w为向量的宽度,c'为降低通道维度后特征向量的通道数,c表示输入特征向量的通道数。
[0071]
然后,将和送入两个平行的分支以生成逐像素的空间交叉注意力图。
[0072]
最后,以搜索分支为例,计算过程如下所示:
[0073]
将φ和θ重新改变形状(reshape)变成和其中n=h
×
w,n=h
×
w。x的交叉注意力图ca
x
是通过计算矩阵乘法和全局最大池化(global maxpooling,gmp)得到的,过程如下:
[0074][0075]
再将对应的搜索区域特征x与交叉注意力图ca
x
相乘来估计两帧之间的空间相似性,并将结果相加得到空间注意力增强后的搜索区域特征ea
x
:
[0076][0077]
类似地,以同样的方式可以获得增强后的模板特征eaz。
[0078][0079][0080]
关于特征聚合网络,由于目标的尺寸和长宽比等几何属性在视频序列中通常会发生变化,因此准确预测目标状态对于实现高性能跟踪非常重要。考虑到基于无锚框的孪生网络跟踪算法与基于锚框的相比,在准确性方面仍有一些差距,因此本发明提出两种简单
有效的准确跟踪机制来获得更加准确的目标边界框。准确跟踪机制包括自适应权重聚合(adaptive weight aggregation,awa)和边界框优化。
[0081]
具体的,关于自适应权重聚合。现有的跟踪算法往往使用逐层聚合来融合多层深度网络特征,这是通过为每层特征对应的相关响应图学习一个特定的权重,并随着整个网络一起进行优化来实现的。在测试阶段,学习到的层级权重是固定不变的。以ocean算法为例,将第i个空洞卷积层输出特征对应的相关响应图记为si,逐层聚合可以表示为:
[0082][0083]
其中αi为融合权重。在ocean算法的离线版本中,对于其回归分支而言,其中α1、α2和α3分别为0.3071,0.3368和0.3561。而在siamrpn++算法中,最后三个阶段输出特征对应的融合权重在回归分支中分别为0.1764、0.1656和0.6579。这些结果均表明来自大感受野的卷积特征对边界框回归的贡献更大。虽然这种朴素的融合方式取得了一定的性能提升,但是对深度特征的细粒度融合还不够充分。此外,这种方式学习到的层级权重不是自适应的,容易导致视频序列中某些帧的跟踪漂移。
[0084]
为解决这些问题,本发明提出一种自适应权重聚合机制。相比于响应图内共享相同的权重,该机制为响应图中的每个像素分配独立的权重,从而实现细粒度的多层特征融合。首先对每个响应图分别使用不同的1
×
1卷积和sigmoid函数来生成相应的融合权重图,然后加权融合所有的响应图。整个过程可以表示为:
[0085][0086]
其中ωi表示第i个融合权重图,和σ分别表示1
×
1卷积和sigmoid函数,si表示i个响应图。。与现有方法相比,该机制可以根据每一帧的响应图自适应地生成相应的融合权重图,会随着视频序列的变化而发生相应的改变,更加符合实际情况。
[0087]
更进一步的,关于边界框优化。目前的孪生网络跟踪算法通常使用带有标准卷积层的单个回归头来预测边界框。然而在复杂的跟踪场景下,固定区域的标准卷积层并不能总是保证准确的边界框回归。因此,本发明提出一个边界框优化模块来提高跟踪性能。与之前一些基于感兴趣区域池化的方法不同,本发明方法通过直接预测偏移量和距离缩放因子来获得优化的边界框,如图1中所示。
[0088]
具体的,对于回归图中的每个位置,首先预测一个初始边界框b
′
(l
′
,t
′
,r
′
,b
′
)。
[0089]
其次,根据回归图和预测的初始边界框计算偏移量,使用可变形卷积层获得边界框对齐的特征。
[0090]
然后使用对齐的特征预测四个距离缩放因子δb(δl,δt,δr,δb)。
[0091]
最后将其应用于初始边界框生成优化后的边界框b(l,t,r,b):
[0092]
b(l,t,r,b)=(δl
×
l
′
,δt
×
t
′
,δr
×r′
,δb
×b′
)
[0093]
其中l、t、r和b分别表示目标中心点到目标边界框左边、上边、右边和下边的距离。
[0094]
本发明使用损失函数对初始边界框和优化后的边界框同时进行监督,以避免低质量的初始边界框带来不良影响。通过为优化后的边界框分配更大的损失函数权重,使得网络在训练过程中更加关注最终优化后的结果。通过边界框优化模块,本发明所提方法可以感知目标的变化并作出反应,从而更加准确地预测边界框。
[0095]
关于分类回归子网络,一般来说,目标跟踪任务需要高置信度的分类能力区分目标和相似的干扰物,但是现有无锚框跟踪器的这种能力还存在一定缺陷。考虑到在目标检测领域中,回归分支具有指导目标定位质量估计的能力,本发明利用这种潜在的能力来提高目标跟踪中的目标定位性能。具体地,提出最大过滤模块来实现回归分支对分类分支的定向交互和指导。
[0096]
最大过滤模块作用在最终的回归特征图上,如图1所示。首先采用核为3
×
3的卷积层和最大池化层(maxpool)得到特定的特征图,然后将其与输入的最终回归图相加,并输入到组归一化(groupnormalization,gn)和激活函数中。这样可以选择出相邻区域中的最大激活值来滤除相似物体的干扰。在这个激活图上进一步使用一个单通道的3
×
3卷积层和sigmoid函数来得到一个新的分类图。最后,将其与原始分类图相乘以灌输从回归分支到分类分支的指导。整体过程可以表示为:
[0097]
其中fr表示最终用于回归的特征图,f
cls
和f
′
cls
分别表示原始分类图和经过最大过滤模块增强后的最终分类图。和分别表示不同的3
×
3卷积层,δ和σ分别表示gn+relu和sigmoid函数。通过本发明所提的最大过滤模块,可以抑制分类图中干扰物的响应,使得目标位置的分类置信度更高。
[0098][0099]
此外,本发明使用多任务损失函数来进行整体网络的端到端训练:
[0100]
其中l
cls
、l
reg
和l
refine
分别表示分类、回归和边界框优化的损失函数。λ1和λ2为平衡参数,根据这两个损失函数值的相对大小和任务的重要程度,将其分别设置为1.2和1.5。
[0101]
l=l
cls
+λ1l
reg
+λ2l
refine
[0102]
本发明对分类分支使用二分类交叉熵损失函数,对回归分支使用iou损失函数。可以表示为:
[0103][0104][0105]
其中i表示训练样本的下标,p和p
*
分别表示预测的分类得分和真实分类标签,b
′
和b
*
分别表示预测的初始边界框和真实边界框。
[0106]
本发明还额外引入了具有更高损失函数权重的边界框优化损失来进一步增强整体网络的训练,其中b表示优化后的边界框。
[0107][0108]
实施例3
[0109]
参照图1~图9,为本发明第三个实施例,其在前两实施例的基础之上:目标认知的无锚框孪生网络跟踪算法还包括:
[0110]
本发明使用在imagenet上预训练的resnet-50作为孪生主干网络。本发明在imagenet-det、imagenet-vid、got-10k、coco和youtube-bb数据集上使用随机梯度下降优化器训练整体网络,批量大小设置为64。动量和权重衰减分别设置为0.9和0.0001。为了公平比较,本发明遵循siamrpn++中的设置将目标模板和搜索区域大小设置为127
×
127和255
×
255。整体网络训练共20个周期,每个周期有60万个训练图像对。前5个周期的学习率从0.001线性增长预热到0.005,然后在后15个周期中指数衰减到0.0005。主干网络的参数在前10个周期被冻结,在后10个周期以比整体网络小十倍的学习率进行微调。
[0111]
本发明使用与ocean算法中相同的离线跟踪协议进行测试。对于每个跟踪序列,将第一帧中的目标对象裁剪为模板,并且只计算一次特征。在后续帧中,根据前一帧中的目标位置来裁剪搜索区域图像。为了在相邻帧之间进行更准确和更平滑的预测,使用尺度和长宽比惩罚项以及余弦窗口来约束目标大小和位置的平滑变换。本发明所提算法在具有两块rtx 2080ti gpu和一个intel core i9-9900x cpu的服务器上使用pytorch实现。
[0112]
首先。消融实验。本发明在got-10k数据集上进行了详细的消融实验来分析所提方法中每个组成部分的有效性,采用了成功率sr0.5、sr0.75、平均重叠ao和跟踪速度(fps)四个指标,结果如表1所示。
[0113]
表1got-10k数据集上的消融实验
[0114][0115]
基线算法采用没有对象感知分类的离线版本ocean算法(ocean-offline)来搭建一个简洁高效的无锚框跟踪器,可以达到0.590的平均重叠和72fps。从表中可以看到,本发明提出的目标认知注意力块在平均重叠和成功率上均有两个百分点左右的提升,验证了模板分支与搜索分支之间信息交互在孪生网络跟踪算法中的重要性。通过使用提出的两种准确跟踪机制,可以进一步将平均重叠提高到0.621,表明该机制可以预测更加准确的目标边界框。最大过滤模块在此基础上还能带来进一步的改进,因为其可以过滤掉相似的干扰物来提高目标的响应。最终本发明算法可以给基线算法带来总计4.5个百分点的性能提升,而在跟踪速度上只有轻微的下降,仍可以达到66fps,远超实时性要求。消融实验的结果表明本发明所提的创新方法是互补的,对跟踪速度影响很小,实现了跟踪准确性和效率的平衡。
[0116]
为了进一步表明目标认知模块的优越性,本发明在图3中可视化了目标认知注意力的结果。第一行表示输入的原始特征,第二行表示经过目标认知注意力块增强后的特征。可以发现,使用目标认知注意力块对输入特征进行空间相似性衡量后,输出的特征会更加聚集在被跟踪的目标对象上,并且会抑制周围干扰物和背景的响应,提高了跟踪器对目标外观变化的准确性和鲁棒性。
[0117]
此外,为了更加详细地分析准确跟踪机制的效果,本发明进一步在vot2019数据集上进行了对两种准确跟踪机制的内部消融实验,结果如表2所示。
[0118]
表2vot2019数据集上的准确跟踪机制消融实验
[0119][0120]
可以发现,提出的自适应权重聚合和边界框优化在vot2019数据集上分别带来了0.8和0.6个百分点的eao提升,提高了算法的准确性和整体性能。为了形象地反映出自适应权重聚合的优势,本发明可视化了其获得的细粒度融合权重图,如图4所示。可以看到,在蚂蚁、车轮和斑马鱼等不同的视频序列中,权重图会随着跟踪对象和场景的不同发生相应的变化。而且可以得出与前文中相似的结论,来自大感受野的卷积特征对边界框回归具有更大的贡献。但是自适应权重聚合的优势在于其权重可以更加灵活地调整,而不是固定不变,更加切合跟踪任务的实际需求。
[0121]
为了进一步展示提出的最大过滤模块的效果,本发明将最大过滤模块的分类结果和原始分类结果进行可视化,如图5所示。第一列为网络输入的搜索区域图像,第二列为原始分类结果,第三列为使用本发明提出的最大过滤模块之后的分类结果。经过对比可以看到,最大过滤模块可以抑制分类图中与相似干扰物的响应,使得目标区域的置信度更高,帮助算法更加准确地定位目标,减少跟踪漂移。而且,最大过滤模块只包含简单的微分算子,具有很小的计算开销,对跟踪速度的影响很微小。
[0122]
其次,定量结果分析。为了定量分析本发明算法的结果,本发明在otb-2015、vot2019、got-10k和lasot四个数据集上将其与近年多种先进的方法进行比较,这些方法包括:atom、dimp、siamfc、sa-siam、siamrpn、spm、dasiamrpn、siammask、siamrpn++、siamcar、siamban、ocean和mdnet等。
[0123]
首先在otb-2015数据集上进行对比,其成功率和精度图如图6所示。本发明算法(ours)取得了0.695的成功率图曲线下面积,仅次于基于锚框的siamrpn++算法0.1个百分点,并且优于最近先进的离线无锚框跟踪器(ocean-offline)2.3个百分点。同时siamtc取得了0.910的精度结果,位于第三位,相比ocean-offline提升了0.8个百分点。上述结果表明所提方法可以有效提高跟踪性能,能够在一定程度上弥补基于无锚框和基于锚框的跟踪器之间的差距。
[0124]
本发明在vot2019实时性(real-time)基准上进行实验评估,结果如表3所示。其中最好的三个结果分别以红色、绿色和蓝色突出表示。
[0125]
表3vot2019实时性基准上的比较结果
[0126][0127]
提出的siamtc算法取得了最好的eao和鲁棒性结果,分别为0.345和0.371。对比最近先进的离线无锚框跟踪算法siamban和ocean-offline,siamtc在eao上提升了1.8个百分点。此外,尽管siamtc没有使用在线更新策略,其仍然取得了与在线更新模型的dimp算法一样的鲁棒性结果,验证了所提方法的有效性。与基于锚框的siamrpn++和siammask相比,siamtc获得了相似的准确性结果,但是降低了约10个百分点的跟踪失败率,提升了约6个百分点的eao结果。
[0128]
本发明在got-10k数据集上进行了比较分析,结果如表4所示。
[0129]
表4got-10k数据集上的比较结果
[0130][0131]
siamtc在0.5和0.75的阈值下分别取得了0.743和0.515的成功率结果,同时取得了0.635的平均重叠,优于最近多种先进的方法。与在线更新版本的ocean算法(ocean-online)相比,在上述三个指标上分别提高了2.2%,4.2%和2.4%,验证了所提方法在预测准确边界框时的有效性。此外,为了进一步展示其在不同阈值下的跟踪效果,将got-10k上的成功率图进行绘制,如7图所示。可以看到,本发明算法图8中展示了对比方法在lasot数据集上的成功率图和精度图。本发明算法siamtc获得了0.544和0.553的成功率曲线下面积和精度,大大超过了siamrpn++和atom。与ocean-offline相比,两项指标分别提高了1.8%和2.7%。整体性能仅次于在线更新模型的dimp-50和ocean-online,这是因为lasot数据集中序列长度较长,目标状态与第一帧相比发生了剧烈的变化,所以在线更新的算法在其中的表现更好。siamtc没有进行在线更新,因此速度比dimp-50和ocean-online更快。与此同时,从成功率图中可以看到,当重叠阈值超过0.7时siamtc效果最好。这表明本发明提出的准确跟踪机制可以优化边界框,在高重叠阈值情况下得到更加准确的跟踪结果。在如此大规模的跟踪数据集上的效果也说明了siamtc在泛化性上具有一定优势。在各种不同阈值下均有良好的跟踪成功率,表明其优势。
[0132]
再次,定性结果分析。
[0133]
为了更直观地体现siamtc算法的跟踪效果,在got-10k数据集中选取3个具有挑战性的视频序列,在图9中展示不同算法在这些视频序列上的定性跟踪结果。与最近先进的基于无锚框的孪生网络跟踪算法ocean-online和siamcar相比,在目标发生形变、长宽比变化和存在相似干扰物等复杂场景下,提出的siamtc算法均能够有效地跟踪目标。
[0134]
在袋鼠和短道速滑序列中,ocean-online依赖在线模型更新而没有跟丢目标,但是难以区分目标对象跟相似对象,因此得到粗糙的大范围边界框,不够准确;siamcar则是受干扰物影响发生了跟踪漂移。而siamtc依赖提出的目标认知注意力块和最大过滤模块,能够减轻干扰物的影响,预测得到准确的目标边界框。在自由滑冰序列中,目标的长宽比随着目标的动作不断发生变化,为跟踪带来很大的挑战。ocean-online和siamcar虽然定位准确,但是预测边界框往往只包含部分目标,而siamtc依赖准确跟踪机制,得到了更加准确的目标状态估计。
[0135]
综,本发明中提出一种目标认知的无锚框孪生网络跟踪算法,即siamtc,用于在无约束的场景下实现准确和鲁棒的视觉目标跟踪。本发明提出目标认知注意力块来促进孪生网络中模板分支与搜索分支的信息交互,提升算法的准确性和鲁棒性。进一步提出准确跟踪机制来弥补基于无锚框和基于锚框的孪生网络跟踪器之间的差距。此外,本发明还开发了一个最大过滤模块来降低跟踪过程中相似干扰物的影响,提高对目标对象的识别能力。在多个跟踪数据集上的定量和定性实验分析表明,提出的方法能够有效地帮助无锚框孪生网络算法实现先进的跟踪性能,并且跟踪速度可达66fps。
[0136]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
技术特征:
1.一种目标认知的无锚框孪生网络跟踪算法,其特征在于:包括,将输入的初始帧目标模版图像和当前帧搜索区域图像首先经过孪生主干网络提取深度特征;降低提取到的深度特征的通道维度;分别经过三个平行的空洞卷积层得到不同尺度的特征,输入到目标认知注意力块中进行信息交互,学习目标认知特征;将输出的特征分别进行深度互相关操作得到响应图,再进行自适应权重聚合;通过分类回归子网络进行分类预测和边界框预测,其中依托于提出的边界框优化得到更加准确的边界框预测结果。2.如权利要求1所述的目标认知的无锚框孪生网络跟踪算法,其特征在于:所述深度特征包括目标模版特征和搜索区域特征,所述目标模版特征提供具有判别性的特征表示,所述搜索区域特征学习与类别无关的目标信息。3.如权利要求2所述的目标认知的无锚框孪生网络跟踪算法,其特征在于:所述目标认知注意力块包括以前面特征编码过程中得到的一对卷积特征作为输入,输出一个经过交叉空间注意力增强的特征对,其中将输入特征对中的模版特征记作将搜索区域特征记作包括如下步骤:分别对z和x使用一个1
×
1卷积降低通道维度生成和其中c'=c/2,h为向量的高度,w为向量的宽度,c'为降低通道维度后特征向量的通道数,c表示输入特征向量的通道数;将和送入两个平行的分支以生成逐像素的空间交叉注意力图。4.如权利要求3所述的目标认知的无锚框孪生网络跟踪算法,其特征在于:所述自适应权重聚合包括如下步骤:对每个响应图分别使用不同的1
×
1卷积和sigmoid函数来生成相应的融合权重图;加权融合所有的响应图,通过如下公式表示:其中,ω
i
表示第i个融合权重图,和σ分别表示1
×
1卷积和sigmoid函数;s
i
表示i个响应图。5.如权利要求4所述的目标认知的无锚框孪生网络跟踪算法,其特征在于:所述边界框优化的获得方式为通过直接预测偏移量和距离缩放因子,包括如下步骤:对于回归图中的每个位置,首先预测一个初始边界框b
′
(l
′
,t
′
,r
′
,b
′
);根据回归图和预测的初始边界框计算偏移量,使用可变形卷积层获得边界框对齐的特征;使用对齐的特征预测四个距离缩放因子δb(δl,δt,δr,δb);将其应用于初始边界框生成优化后的边界框b(l,t,r,b),并通过如下公式表示:b(l,t,r,b)=(δl
×
l
′
,δt
×
t
′
,δr
×
r
′
,δb
×
b
′
)其中,l、t、r和b分别表示目标中心点到目标边界框左边、上边、右边和下边的距离。
6.如权利要求5所述的目标认知的无锚框孪生网络跟踪算法,其特征在于:所述分类回归包括通过最大过滤模块来实现回归分支对分类分支的定向交互和指导。7.如权利要求6所述的目标认知的无锚框孪生网络跟踪算法,其特征在于:所述最大过滤模块作用在最终的回归特征图上,包括如下步骤:采用核为3
×
3的卷积层和最大池化层得到特定的特征图;将得到的特定的特征图将与输入的最终回归图相加,并输入到组归一化和激活函数中;选择出相邻区域中的最大激活值来滤除相似物体的干扰。8.如权利要求5或7所述的目标认知的无锚框孪生网络跟踪算法,其特征在于:所述最大过滤模块作用在最终的回归特征图上还包括如下步骤:在激活图上进一步使用一个单通道的3
×
3卷积层和sigmoid函数来得到一个新的分类图;将新的分类图与原始分类图相乘以灌输从回归分支到分类分支的指导,通过如下公式表示:其中,f
r
表示最终用于回归的特征图,f
cls
和f
′
cls
分别表示原始分类图和经过最大过滤模块增强后的最终分类图;和分别表示不同的3
×
3卷积层,δ和σ分别表示gn+relu和sigmoid函数。9.如权利要求8所述的目标认知的无锚框孪生网络跟踪算法,其特征在于:还包括实用多任务损失函数来进行整体网络的端到端训练,通过如下公式表示:l=l
cls
+λ1l
reg
+λ2l
refine
其中,l
cls
、l
reg
和l
refine
分别表示分类、回归和边界框优化的损失函数;λ1和λ2为平衡参数。10.如权利要求1或9所述的目标认知的无锚框孪生网络跟踪算法,其特征在于:还包括对所述分类分支使用二分类交叉熵损失函数,对回归分支使用iou损失函数。
技术总结
本发明公开了一种目标认知的无锚框孪生网络跟踪算法,包括将输入的初始帧目标模版图像和当前帧搜索区域图像首先经过孪生主干网络提取深度特征;降低提取到的深度特征的通道维度;分别经过三个平行的空洞卷积层得到不同尺度的特征,输入到目标认知注意力块中进行信息交互,学习目标认知特征;将输出的特征分别进行深度互相关操作得到响应图,再进行自适应权重聚合;通过分类回归子网络进行分类预测和边界框预测。本发明促进孪生网络中模板分支与搜索分支的信息交互,提升算法的准确性和鲁棒性,弥补了基于无锚框和基于锚框的孪生网络跟踪器之间的差距,并降低跟踪过程中相似干扰物的影响,提高对目标对象的识别能力。提高对目标对象的识别能力。提高对目标对象的识别能力。
技术研发人员:宋晓宁 江英杰 冯振华
受保护的技术使用者:第图(苏州)生物科技有限公司
技术研发日:2023.03.07
技术公布日:2023/7/19
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种抑制NEK7表达的miRNA的应用 下一篇:一种抗刮耐磨UV玻璃油墨的制作方法
