一种基于Siamese网络的牧场中无人机对牛目标跟踪方法及系统

未命名 07-22 阅读：92 评论：0

一种基于siamese网络的牧场中无人机对牛目标跟踪方法及系统
技术领域
1.本发明涉及目标跟踪技术领域，具体涉及一种基于siamese网络的牧场中无人机对牛目标跟踪方法及系统。

背景技术：

2.在无人机的目标跟踪方法中，现有方法都是以相关滤波算法为主导，虽然实时性很高，但是存在着精度与鲁棒性不能够满足实际要求的问题。在相关滤波算法中，使用的都是由人工提取的特征，如hog、cn等特征，使得其对物体特征的表达不够鲁棒，目前该类算法基本都是使用图像搜索策略进行跟踪的，搜索区域大小的选择对模型的效果也会产生影响，如果搜索区域过大，那么模型会学习到很多无用的背景信息，甚至一些背景干扰会导致模型效果下降并产生跟踪漂移现象，同时扩大搜索区域还会带来算法复杂度的提升。2016年，bertinetto等提出了siamfc算法，该算法真正打破了相关滤波在跟踪领域的垄断地位，利用全卷积孪生神经网络—siamese网络对跟踪数据进行端到端的训练，结构简单，实时性强。使得目标跟踪算法在实时性和精度方面达到了很好的平衡。
3.但是由于siamese网络算法仅使用初始模板导致跟踪过程中鲁棒性较差，经常容易跟丢目标或者发生漂移现象；并且使用的特征提取骨干网运算量相对嵌入式终端过大而不适合在无人机上进行部署，这些因素都严重制约了算法在实际场景中的应用。

技术实现要素：

4.为了克服现有技术在牧场中跟踪牛时的缺点与不足，本发明提出一种基于siamese网络的牧场中无人机对牛目标跟踪方法及系统。
5.根据本发明的一方面，提供一种基于siamese网络的牧场中无人机对牛目标跟踪方法，该方法包括：对于牧场中无人机上视频采集设备实时采集的视频，利用目标检测算法检测获得包含目标的初始帧；利用改进的孪生网络实现对目标牛的跟踪，改进之处在于：孪生网络的特征提取骨干网络替换为mobilenet网络；在跟踪时对于后续帧：根据预设的多个锚框比率判断锚框比率变化，进而判断当前帧跟踪结果是否需要更新模板；若模板待更新，则利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实目标正在相互靠近；若判断没有相似目标在靠近，则利用高置信度模板更新机制对当前帧进行质量判断；若当前帧被判断为质量高的模板，则将其对应的特征融入累积模板，并与初始模板进行残差连接形成下一帧跟踪模板。
6.进一步地，在获取包含目标的初始帧后，利用初始模板与搜索图像通过特征提取骨干网进行特征提取，统一特征图维度后分别输入rpn网络的分类分支和回归分支，使用模板特征图与搜索特征图进行互相关操作，并预设多个锚框比率个数，获取有多个跟踪框的分类响应图和回归响应图。
7.进一步地，利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实
目标正在相互靠近的过程包括：获取当前帧的分类响应图，并获得当前二值响应峰值图，计算与跟踪结果响应峰值最接近的峰值距离；当所述峰值距离小于预设阈值时判断为有相似目标在靠近真实目标；其中，按照下述公式计算与跟踪结果响应峰值最接近的峰值距离：
8.distance
min
＝min((w-wn)2*(h-hn)2)
9.式中，(w，h)是跟踪结果的响应峰值在响应峰值图上的位置，(wn，hn)是其他相似目标在响应峰值图上的位置；distance
min
是最小的相似目标峰值与跟踪结果的峰值欧式距离。
10.进一步地，利用高置信度模板更新机制对当前帧进行质量判断的过程包括：
11.当前帧跟踪结果框的apce平均峰值相关能量以及响应值均大于其对应的一定比例的历史均值时判定为质量高的模板，其中，apce平均峰值相关能量的计算公式如下：
[0012][0013]
式中，f
max
、f
min
、f
w，h
分别表示响应值最高、响应值最低和(w，h)位置上的响应值；mean表示平均值。
[0014]
进一步地，所述累积模板表示为：
[0015]
ti'＝(1-r)t
i-1
+rti[0016]
其中，ti′
为累积模板，为上一帧模板与当前帧模板的比率加权融合；t
i-1
为上一帧跟踪模板，ti为上一帧跟踪结果生成的模板，r表示比率。
[0017]
根据本发明的另一方面，提供一种基于siamese网络的牧场中无人机对牛目标跟踪系统，该系统包括：
[0018]
目标检测模块，其配置成对于牧场中无人机上视频采集设备实时采集的视频，利用目标检测算法检测获得包含目标的初始帧；
[0019]
目标跟踪模块，其配置成利用改进的孪生网络实现对目标牛的跟踪，改进之处在于：孪生网络的特征提取骨干网络替换为mobilenet网络；在跟踪时对于后续帧：根据预设的多个锚框比率判断锚框比率变化，进而判断当前帧跟踪结果是否需要更新模板；若模板待更新，则利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实目标正在相互靠近；若判断没有相似目标在靠近，则利用高置信度模板更新机制对当前帧进行质量判断；若当前帧被判断为质量高的模板，则将其对应的特征融入累积模板，并与初始模板进行残差连接形成下一帧跟踪模板。
[0020]
进一步地，所述目标跟踪模块中在获取包含目标的初始帧后，利用初始模板与搜索图像通过特征提取骨干网进行特征提取，统一特征图维度后分别输入rpn网络的分类分支和回归分支，使用模板特征图与搜索特征图进行互相关操作，并预设多个锚框比率个数，获取有多个跟踪框的分类响应图和回归响应图。
[0021]
进一步地，所述目标跟踪模块中利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实目标正在相互靠近的过程包括：获取当前帧的分类响应图，并获得当前二值响应峰值图，计算与跟踪结果响应峰值最接近的峰值距离；当所述峰值距离小于预设阈值时判断为有相似目标在靠近真实目标；其中，按照下述公式计算与跟踪结果响应峰值最接近的峰值距离：
[0022]
distance
min
＝min((w-wn)2*(h-hn)2)
[0023]
式中，(w，h)是跟踪结果的响应峰值在响应峰值图上的位置，(wn，hn)是其他相似目标在响应峰值图上的位置；distance
min
是最小的相似目标峰值与跟踪结果的峰值欧式距离。
[0024]
进一步地，所述目标跟踪模块中利用高置信度模板更新机制对当前帧进行质量判断的过程包括：
[0025]
当前帧跟踪结果框的apce平均峰值相关能量以及响应值均大于其对应的一定比例的历史均值时判定为质量高的模板，其中，apce平均峰值相关能量的计算公式如下：
[0026][0027]
式中，f
max
、f
min
、f
w，h
分别表示响应值最高、响应值最低和(w，h)位置上的响应值；mean表示平均值。
[0028]
进一步地，所述目标跟踪模块中所述累积模板表示为：
[0029]
ti'＝(1-r)t
i-1
+rti[0030]
其中，t’i
为累积模板；t
i-1
为上一帧跟踪模板，ti为上一帧跟踪结果生成的模板，r表示比率。
[0031]
本发明的有益技术效果是：
[0032]
本发明基于siamese网络利用跟踪框的比率变化为更新契机，并且利用残差连接的累积模板以及干扰峰值检测模块对原有跟踪算法进行鲁棒性方向的改进，使其适用于牧场中无人机对牛的目标跟踪，极大提高了无人机对牛跟踪的鲁棒性，为后续对牲畜的行为分析提供更好的信息采集工具。
附图说明
[0033]
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。
[0034]
图1是siamese网络跟踪算法框架示意图。
[0035]
图2是本发明中深度可分离卷积结构示意图。
[0036]
图3是未更新前跟踪漂移现象示例图；其中，(a)和(b)为实际牛场跟踪第283帧搜索图像与对应的响应图像；(c)和(d)为实际牛场跟踪第297帧搜索图像与对应的响应图像；
[0037]
图4是相似个体部分重叠漂移现象示例图。
[0038]
图5是本发明中峰值检测可视化示意图。
[0039]
图6是本发明中峰值距离检测的流程图。
[0040]
图7是本发明总体模型结构设计示意图。
[0041]
图8是本发明中残差连接累积模板结构示意图。
[0042]
图9是本发明中高置信度模板更新判断模块流程图。
[0043]
图10是本发明实验中在三个挑战性视频序列上的跟踪结果对比图。
具体实施方式
[0044]
为了使本技术领域的人员更好地理解本发明方案，在下文中将结合附图对本发明
的示范性实施方式或实施例进行描述。显然，所描述的实施方式或实施例仅仅是本发明一部分的实施方式或实施例，而不是全部的。基于本发明中的实施方式或实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式或实施例，都应当属于本发明保护的范围。
[0045]
本发明实施例提出一种基于siamese网络的牧场中无人机对牛目标跟踪方法，该方法包括：对于牧场中无人机上视频采集设备实时采集的视频，利用目标检测算法检测获得包含目标的初始帧；
[0046]
利用改进的孪生网络实现对目标的实时跟踪，改进之处在于：孪生网络的特征提取骨干网络替换为mobilenet网络；在跟踪时对于后续帧：根据预设的多个锚框比率判断锚框比率变化，进而判断当前帧跟踪结果是否需要更新模板；若模板待更新，则利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实目标正在相互靠近；若判断没有相似目标在靠近，则利用高置信度模板更新机制对当前帧进行质量判断；若当前帧被判断为质量高的模板，则将当前帧对应的特征融入累积模板，并与初始模板进行残差连接形成下一帧跟踪模板。
[0047]
本实施例中，优选地，在获取包含目标的初始帧后，利用初始模板与搜索图像通过特征提取骨干网进行特征提取，统一特征图维度后分别输入rpn网络的分类分支和回归分支，使用模板特征图与搜索特征图进行互相关操作，并预设多个锚框比率个数，获取有多个跟踪框的分类响应图和回归响应图。
[0048]
本实施例中，优选地，利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实目标正在相互靠近的过程包括：获取当前帧的分类响应图，并获得当前二值响应峰值图，计算与跟踪结果响应峰值最接近的峰值距离；当所述峰值距离小于预设阈值时判断为有相似目标在靠近真实目标；其中，按照下述公式计算与跟踪结果响应峰值最接近的峰值距离：
[0049]
distance
min
＝min((w-wn)2*(h-hn)2)
[0050]
式中，(w，h)是跟踪结果的响应峰值在响应峰值图上的位置，(wn，hn)是其他相似目标在响应峰值图上的位置；distance
min
是最小的相似目标峰值与跟踪结果的峰值欧式距离。
[0051]
本实施例中，优选地，利用高置信度模板更新机制对当前帧进行质量判断的过程包括：
[0052]
当前帧跟踪结果框的apce平均峰值相关能量以及响应值均大于其对应的一定比例的历史均值时判定为质量高的模板，其中，apce平均峰值相关能量的计算公式如下：
[0053][0054]
式中，f
max
、f
min
、f
w，h
分别表示响应值最高、响应值最低和(w，h)位置上的响应值；mean表示平均值。
[0055]
本实施例中，优选地，所述累积模板表示为：
[0056]
ti'＝(1-r)t
i-1
+rti[0057]
其中，ti为累积模板；t
i-1
为上一帧跟踪模板，ti为上一帧跟踪结果生成的模板，r表示比率。
[0058]
下面对本发明实施例进行详细说明。
[0059]
基于孪生网络的视觉目标跟踪算法在精确度和运行效率上取得了非常不错的平衡。与基于相关滤波的跟踪算法相比，基于孪生网络的目标跟踪算法将视觉目标跟踪描述为一个模板特征与搜索特征互相关的问题，可以很好的利用深度网络端到端学习的优点。孪生网络跟踪算法相关网络结构如图1所示。孪生网络主要是由两个共享权重的网络分支组成，一个为提取模板图像特征的模板分支，一个为提取搜索图像特征的搜索分支。模板通常是由在视频中的第一帧获取需要跟踪目标的标注框中得到，实际应用中通常由目标检测算法提供该初始框，记为z，后续每帧都根据上一帧跟踪结果获得搜索区域，记为x。孪生网络将初始模板与搜索模板分别送入模板网络分支与搜索网络分支，通过一个离线训练好的共享权重的骨干网络进行特征提取，骨干网络的权重参数为θ，然后使用模板分支输出特征图对搜索特征图进行互相关操作，得到当前帧的跟踪响应图，响应图上的数值代表了当前目标在该位置的得分大小，其计算公式为：
[0060][0061]
其表示使用模板特征图在搜索特征图上进行循环卷积操作，得到每个位置上的置信度得分。
[0062]
针对跟踪算法网络的训练，一般都是从大量训练视频中采集大量模板与搜索图像对(z,x)和对应的真实标签y进行离线训练。但是siamfc算法无法准确的估计目标尺度，只能通过多尺度测试来判断目标尺度，但是这样会极大提高计算量，使得实时性不够。并且由于经过相关操作后得到跟踪目标位置需要网络具有平移不变性，所以仅能使用无padding层的浅层全卷积网络。
[0063]
孪生网络之前都是以去除了填充层的全卷积alexnet网络做为特征提取骨干网，没有利用到深层神经网络的优点，但是后续改进使用的resnet等网络由于参数量过大使得算法也不适合在无人机上部署，常用神经网络对比如下表1所示。
[0064]
表1常用神经网络对比
[0065][0066][0067]
因此，本发明将用来特征提取的骨干网换成了对于移动设备十分友好的mobilenetv2，mobilenetv2网络是一种轻量级的卷积神经网络，主要为嵌入式设备等移动端平台设计，具备参数量少、性能损失小等特点。
[0068]
如图2所示，其主要通过将普通卷积改进为由深度卷积和点卷积构成的深度可分离卷积结构来减少运算量，如果输入特征图形状为df×df
×
m，输出特征图的通道为n，则标准卷积的计算量为：
[0069]dk
×dk
×m×n×df
×df
ꢀꢀ
(2)
[0070]
而深度可分离卷积的计算量为：
[0071]dk
×dk
×m×df
×df
+m
×n×df
×df
ꢀꢀ
(3)
[0072]
两者计算量的比值为：
[0073][0074]
mobilenet的卷积核大小为3
×
3，所以使用深度可分离卷积的计算量是标准卷积的1/9。这种结构使得mobilenet在保持模型性能的时候同时大幅降低了模型的运算量。并使用eca轻量高效注意力模块嵌入mobilenetv2中的倒残差模块，其使用了不降维的局部跨信道交互策略代替了之前的全连接层，使得其相对于se注意力模块等其他注意力模块计算量更低，并且具备相当于se注意力的性能，可以在没有明显跟踪延迟的情况下，提高网络对目标重要特征的敏感度。
[0075]
本发明以siamrpn++算法为基线算法，分析了该算法在实际跟踪场景中跟踪失败的情况，并结合算法实际运行机制，发现之所以鲁棒性不足，是因为该算法仅使用第一帧的初始模板作为整个跟踪过程的模板，但是在跟踪目标的时候，目标的特征可能会随着尺度或者形状变化而发生变化，导致初始模板不能很好的匹配后续的目标特征，对于这个问题，其他现有技术也提出了相应的解决方案，即更新模板，但是固定更新时间以及简单的更新并不能很好的改善算法的性能。
[0076]
本发明从基线算法在跟踪场景中的实际跟踪现象着手，通过对三种不同情况漂移现象的分析，分析出了孪生网络算法频繁跟踪漂移的原因，并给出了对应的解决方案：
[0077]
1)因为孪生网络跟踪算法的本质是通过比较搜索图像中与模板图特征z的相似程度来确定最终跟踪目标，因此在后续的跟踪过程中，如果搜索图像帧x中目标特征发生变化，会使得真实目标部分响应值f
θ
下降，真实目标特征会与初始模板特征相差变大。如图3所示，此时只要周围物体与模板特征的相似度比变化后的响应值f
θ
更高，就会使得跟踪框漂移至其他物体上导致跟踪漂移。
[0078]
本发明通过分析多段无人机跟拍牛的视频，牛的姿势比较单一，并且行动较为缓慢，没有剧烈的形状变化，当牛发生转向等动作的时候，牛的特征随之发生变化，框住牛的跟踪框的比率也跟着变化，因此能够以锚框的比率变化作为更新模板的契机，不仅能够避免频繁更新带来的实时性损失，还能够及时的得到特征小幅变化后真实目标当前的模板特征。使得模板能够更好的表达跟踪过程中跟踪目标变化中的特征。
[0079]
2)在实现以尺度为契机对牛的特征模板z进行简单更新后，发现了常常在跟踪框比率变化导致模板更新时，不少目标周围的噪声信息被更新进来，从而随着跟踪时间变长，模板甚至完全丢失掉大部分真实目标的真实特征，最终导致跟踪失败。因此需要设计一个能够保留住跟踪目标真实特征，还能不引入过度噪声特征进入模板的模板更新策略。
[0080]
本发明设计了一种使用apce峰值相关能量与响应值结合的累积模板更新策略，响应值是用来表示搜索图像中对应部分与模板图像相似程度的依据，但是有些情况下，如复杂背景干扰等情况，使得最后跟踪结果非跟踪目标时响应值也较高。因此，本发明又引入了apce峰值相关能量与响应值大小共同来判断当前模板的质量。
[0081]
apce峰值相关能量计算公式如下：
[0082][0083]
式中f
max
，f
min
，f
w,h
分别表示响应值最高、响应值最低和(w,h)位置上的响应。这个判据可以反映响应图的振荡程度，当apce值变小的时候，就表示搜索图像中存在着干扰目标很多等问题。此时不便于将该帧的跟踪结果作为模板更新进累积模板。这样能够同时保证跟踪时模板能一直保留目标最为本质和真实的特征，还能在跟踪过程中特征变化时得到高质量的更新模板，减少引入污染模板的风险。
[0084]
3)当跟踪时的搜索图像中仅有极少数的相似个体，并且在跟踪过程中真实目标与相似目标发生部分重叠时，这时的响应值与apce值都会较高，从而使得针对上面第二种情况改进的高置信度的累积模板更新策略对这种情况没有比较强的鲁棒性。如图4所示，这个时候在搜索图对应的响应图上，两个目标的响应峰值逐渐靠拢，并且此时也同时达成了更新模板的条件，从而导致误更新，将相似目标的特征更新进模板，从而使得跟踪框漂移到另一个相似物体上面的概率变大。
[0085]
针对这种现象，本发明设计了一种响应峰值欧式距离检测机制，判断当前帧是否有相似目标与真实目标正在相互靠近。以此来合理的对后续的更新判断给予相关判定信息。
[0086]
为了解决搜索图像中相似目标相互遮挡导致模板误更新从而导致跟踪漂移到相似目标上的现象，提出了峰值欧式距离检测模块用于解决该类问题。峰值检测函数公式为：
[0087][0088]
峰值检测可视化如图5所示。通过计算其他响应峰值坐标与跟踪结果的响值坐标距离得出两者之间最小的距离。公式如下：
[0089]
distance
min
＝min((w-wn)2*(h-hn)2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0090]
其中(w,h)是跟踪结果的响应峰值在响应图上的位置，(wn,hn)是表示其他非跟踪结果响应值大于一定比例结果响应值的其他峰值坐标，distance
min
是最小的干扰物峰值与结果峰值欧式距离，当distance
min
小于一个阈值时，系统将设置一个状态变量表示该帧模板处于被污染状态，直到检测到距离大于阈值才取消被污染状态。该模块的流程如图6所示。
[0091]
综上，本发明以siamrpn++作为算法的基线，为了应对上述导致跟踪漂移的现象，提高基于孪生网络的跟踪算法的鲁棒性，提出基于峰值距离检测与高置信度残差累积模板的模板更新机制，通过将第一帧标注框作为跟踪目标最本质特征，将后续通过跟踪过程中得到的目标框图像作为更新备用模板。与现有的孪生网络跟踪算法一样，初始模板在第一帧之后的整个跟踪过程都固定不变，然后在跟踪过程中将后续高质量跟踪结果作为后续更新模板与初始模板融合，可以充分利用初始特征与目标发生变化后的特征，并且提高对相似干扰目标的鲁棒性，从而提高了算法的鲁棒性。
[0092]
如图7所示，本发明提出的siam-rat算法框架主要由siamrpn++的网络架构加上本发明提出的三大改进模块组成。在初始帧时，使用初始模板与搜索图像通过mobilenet特征提取骨干网进行特征提取，然后经过中间neck层进行升维操作，统一特征图维度，然后将其
分别输入rpn网络并且预设5个尺度的锚框进行前景与背景的分类和跟踪框4个方向的回归操作，最终得到目标的跟踪框。首先根据锚框尺度比率变化判断该帧跟踪结果是需要更新模板，然后输入峰值距离检测模块，判断是否处于“被污染”状态，接着在高置信度模板更新判断模块进行模板质量判断，质量达标的模板将输入残差累积模板生成下一帧高质量的跟踪模板，从而完成一轮跟踪流程。
[0093]
基于孪生网络的跟踪算法之前要么直接仅用初始帧模板跟踪，要么仅使用后续帧提取出来的模板对跟踪模板进行更新，这两种方法中前者一直使用初始模板，可能导致后续跟踪过程中不能很好的适应跟踪目标变化的特征，而后者则很可能因为目标被遮挡等情况使模板污染后会彻底跟踪失败。因此本发明综合上述两种方式，提出了残差累积模板，以初始模板特征作为残差连接，使整个跟踪过程都一直保留最为真实的特征，防止模板被完全污染，并且以后续帧高置信度结果特征融入模板，以给予模板对不断变化的特征的鲁棒性。
[0094]
模板的好坏决定了基于孪生网络的跟踪算法的跟踪性能，好的模板能够产生稳定的结果，而不合适的模板则会严重降低算法性能。图8展示了残差累积模板的整体架构。高置信度模板更新判断流程如图9所示。以从第一个现象中分析出的结论，使用牛运动时跟踪框的比率变化为契机更新模板，并且当此时不处于污染状态时才启动模板更新过程，然后对此刻的模板进行质量判断，当该帧跟踪结果框的apce平均峰值相关能量以及响应值的大小大于一定比例的历史均值，就判定为质量高的模板，最后将其融入累积模板并与初始模板进行残差连接形成一个新的模板。
[0095]
融入累积模板的后续帧模板是从具有最高置信度，也就是最终跟踪框所覆盖区域裁剪出一个新的模板z
′
，表示为:
[0096]z′
＝crop(argmaxf
θ
(z,x))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0097]
式中，crop(
·
)为裁剪操作，以该帧的跟踪结果裁剪出新的模板z
′
，f
θ
(z,x)是分类分支的响应得分。累积模板计算公式如下：
[0098]
ti′
＝(1-r)t
i-1
+rtiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0099]
其中ti′
为最终得到的跟踪模板，t
i-1
为上一帧跟踪模板，ti为上一帧跟踪结果生成的模板。
[0100]
需要说明的是，本发明上述提出的改进的目标跟踪算法不仅仅适用于牧场中对牛的实时跟踪，对牧场或其他场景中其他动物的实时跟踪同样适用。
[0101]
进一步通过实验验证本发明的技术效果。
[0102]
实验过程包括模型训练设置、实验评估指标、对比实验以及消融实验四个部分，由此来证明本发明方法在牧场跟踪牛的应用场景中的有效性。
[0103]
实验在got10k数据集上离线训练。got10k数据集包含超过10000个真实移动物体视频片段和超过150万个手动标记边界框，涵盖560多个类别，验证集和测试集各包含180个视频序列。模板图像大小为127
×
127
×
3，搜索图像大小为255
×
255
×
3，均为rgb三通道图。mobilenet经过大量数据预训练，网络训练时设置初始学习率为0.01，学习率由10-2
按指数型衰减至10-5
，批尺寸(batch size)大小为8，训练50轮(epoch)，采用sgd优化器，动量值(momentum)设置为0.9，l2惩罚项(weight_decay)设置为5e-4。实验使用5个尺度比例([0.33，0.5，1，2，3])对搜索图像进行缩放。超参数a初始为0.0001。
[0104]
单目标跟踪算法的评价指标主要有：accuracy(精确度)、robustness(鲁棒性)、expected average overlap(非重置重叠期望)、fps(帧率)等；
[0105]
accuracy(精确度)用来评价tracker跟踪目标的准确度，数值越大，准确度越高。某序列第t帧的accuracy定义为：每一帧的iou值，公式如下：
[0106][0107]
平均精度为所有有效帧的平均，公式如下：
[0108][0109]
robustness(鲁棒性)用来评价tracker跟踪目标的稳定性，数值越大，稳定性越差。f为在重复测试n_rep中失效的次数，公式如下：
[0110][0111]
expected average overlap(非重置重叠期望)：vot2015提出，基于arrank的评价方式没有充分利用accuracy和robustness的原始数据，所以创造了一个新的评价指标eao(expected average overlap)。正如字面意思，这个评价指标只针对基于overlap定义的accuracy。
[0112]
fps：指部署在设备上的算法在一秒钟处理的图片的张数，公式如下：
[0113][0114]
为了验证siam-rat跟踪方法的性能，与当前主流、先进的跟踪算法进行了比较。选取了最新的几种基于孪生网络的跟踪算法与本发明方法进行了对比实验。
[0115]
对比实验选取了由无人机在牧场采集的牛的视频制作的测试数据集以及vot2018数据集中有类似情况的视频对几种不同的跟踪算法与本发明方法进行比较。vot2018数据集总共60多个测试视频。是目标跟踪领域具有权威性的性能评估数据集，包含旋转、形变、遮挡等多种情况。该公开数据集评估主要由三个重要指标组成accuracy(a)、robustness(r)、expected average overlap(eao)。实验中，将本发明方法与siamrpn++
[1]
(li等,2019)、siamdw
[2]
(zhang和peng,2019)、dasiamrpn
[3]
(zhu等,2018)、siamrpn
[4]
(li等,2018)、eco-hc
[5]
(wang等)、siamfc
[6]
(bertinetto等)等6种最先进的跟踪算法进行比较,不同方法在牧场跟踪牛场景下自制测试数据集上的性能具体指标的比较结果见表2。
[0116]
表2不同方法在自制测试数据集上性能比较
[0117][0118][0119]
注：加粗字体表示各列最优结果。
[0120]
不同方法在vot2018测试数据集中有与本发明应用场景下相同属性的视频的数据集上的性能具体指标的比较结果如表3所示。
[0121]
表3不同方法在vot2018数据集上性能比较
[0122][0123]
注：加粗字体表示各列最优结果。
[0124]
从表2和表3可以看出，与siamrpn++、siamdw等相比，本发明方法siam-rat表现出来非常具有竞争力的性能，在鲁棒性上得到了最好的结果，并且实时性相对于siamrpn++有了较大提升，虽然精度稍有下降，但是也位于所有跟踪器中的第二位，更加适合牧场中实际跟踪的需求。
[0125]
图10进一步展示了本发明方法与siamrpn、siamrpn++、siamdw和siam-rat等跟踪算法在本发明应用场景的视频序列以及vot中有相似属性的视频上3个挑战性的视频序列的定性对比结果，第一个视频初始模板与后续图像之间特征变化明显，第二行与第三行视频帧存在相似个体之间相互干扰，使用本发明方法均未发生漂移，而其他算法均漂移到相似目标上，由此可以发现，本发明方法siam-rat在有较大外观变化、相似干扰物和部分遮挡时依旧具有良好的跟踪效果。可以证明本发明提出的跟踪算法可以大幅提高孪生网络跟踪算法的鲁棒性。
[0126]
通过使用自制测试数据集进行消融实验可以验证本发明方法改进方案的有效性，在均使用mobilenet作为骨干网络的前提下探索不同改进模块对实验结果的影响，得到的实验结果如表4所示。
[0127]
表4消融实验对比
[0128][0129][0130]
从消融实验对比表格可以看出经过轻量级网络改进，以及加入残差累积模板时，极大的提高了其帧率，鲁棒性也得到了较大的提升，但是精度有轻微的下降，在对残差累积模板进行高置信度更新，以及多峰欧式距离判断后，跟踪算法的鲁棒性得到了较大的提升，同时大大的改善了跟踪时的漂移现象，使得本发明方法更加适合本发明场景的应用。
[0131]
本发明另一实施例提出一种基于siamese网络的牧场中无人机对牛目标跟踪系统，该系统包括：
[0132]
目标检测模块，其配置成对于牧场中无人机上视频采集设备实时采集的视频，利用目标检测算法检测获得包含目标的初始帧；
[0133]
目标跟踪模块，其配置成利用改进的孪生网络实现对目标的实时跟踪，改进之处在于：孪生网络的特征提取骨干网络替换为mobilenet网络；在跟踪时对于后续帧：根据预设的多个锚框比率判断锚框比率变化，进而判断当前帧跟踪结果是否需要更新模板；若模板待更新，则利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实目标正在相互靠近；若判断没有相似目标在靠近，则利用高置信度模板更新机制对当前帧进行质量判断；若当前帧被判断为质量高的模板，则将当前帧对应的特征融入累积模板，并与初始模板进行残差连接形成下一帧跟踪模板。
[0134]
本实施例中，优选地，所述目标跟踪模块中在获取包含目标的初始帧后，利用初始模板与搜索图像通过特征提取骨干网进行特征提取，统一特征图维度后分别输入rpn网络的分类分支和回归分支，使用模板特征图与搜索特征图进行互相关操作，并预设多个锚框比率个数，获取有多个跟踪框的分类响应图和回归响应图。
[0135]
本实施例中，优选地，所述目标跟踪模块中利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实目标正在相互靠近的过程包括：获取当前帧的分类响应图，并获得当前二值响应峰值图，计算与跟踪结果响应峰值最接近的峰值距离；当所述峰值距离小于预设阈值时判断为有相似目标在靠近真实目标；其中，按照下述公式计算与跟踪结果响应峰值最接近的峰值距离：
[0136]
distance
min
＝min((w-wn)2*(h-hn)2)
[0137]
式中，(w，h)是跟踪结果的响应峰值在响应峰值图上的位置，(wn，hn)是其他相似目标在响应峰值图上的位置；distance
min
是最小的相似目标峰值与跟踪结果的峰值欧式距
离。
[0138]
本实施例中，优选地，所述目标跟踪模块中利用高置信度模板更新机制对当前帧进行质量判断的过程包括：
[0139]
当前帧跟踪结果框的apce平均峰值相关能量以及响应值均大于其对应的一定比例的历史均值时判定为质量高的模板，其中，apce平均峰值相关能量的计算公式如下：
[0140][0141]
式中，f
max
、f
min
、f
w，h
分别表示响应值最高、响应值最低和(w，h)位置上的响应值；mean表示平均值。
[0142]
本实施例中，优选地，所述目标跟踪模块中所述累积模板表示为：
[0143]
ti'＝(1-r)t
i-1
+rti[0144]
式中，ti″
为累积模板；t
i-1
为上一帧跟踪模板，ti为上一帧跟踪结果生成的模板，r表示比率。
[0145]
本实施例所述一种基于siamese网络的牧场中无人机对牛目标跟踪系统的功能可以由前述一种基于siamese网络的牧场中无人机对牛目标跟踪方法说明，因此本实施例未详述部分，可参见以上方法实施例，在此不再赘述。
[0146]
尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。
[0147]
本发明所援引的文献如下：
[0148]
[1]li b,wu w,wang q,et al.siamrpn++:evolution of siamese visual tracking with very deep networks[c].usa:ieee,2019:4282-4291.
[0149]
[2]zhang z,peng h.deeper and wider siamese networks for real-time visual tracking[c].usa:ieee,2019:4591-4600.
[0150]
[3]zhu z,wang q,li b,et al.distractor-aware siamese networks for visual object tracking[c].german:springer,2018:101-117.
[0151]
[4]li b,yan j,wu w,et al.high performance visual tracking with siamese region proposal network[c].usa:
[0152]
ieee,2018:8971-8980.
[0153]
[5]wang y,huang h,huang x,et al.eco-hc based tracking for ground moving target using single uav[c].china:ieee,2020:6414-6419.
[0154]
[6]bertinetto l,valmadre j,henriques j f,et al.fully-convolutional siamese networks for object tracking[c].german:springer,2016:850-865。

技术特征：
1.一种基于siamese网络的牧场中无人机对牛目标跟踪方法，其特征在于，所述方法包括以下步骤：对于牧场中无人机上视频采集设备实时采集的视频，利用目标检测算法检测获得包含目标的初始帧；利用改进的孪生网络实现对目标的实时跟踪，改进之处在于：孪生网络的特征提取骨干网络替换为mobilenet网络；在跟踪时对于后续帧：根据预设的多个锚框比率判断锚框比率变化，进而判断当前帧跟踪结果是否需要更新模板；若模板待更新，则利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实目标正在相互靠近；若判断没有相似目标在靠近，则利用高置信度模板更新机制对当前帧进行质量判断；若当前帧被判断为质量高的模板，则将当前帧对应的特征融入累积模板，并与初始模板进行残差连接形成下一帧跟踪模板。2.根据权利要求1所述的一种基于siamese网络的牧场中无人机对牛目标跟踪方法，其特征在于：在获取包含目标的初始帧后，利用初始模板与搜索图像通过特征提取骨干网络进行特征提取，统一特征图维度后分别输入rpn网络的分类分支和回归分支，使用模板特征图与搜索特征图进行互相关操作，并预设多个锚框比率个数，获取有多个跟踪框的分类响应图和回归响应图。3.根据权利要求2所述的一种基于siamese网络的牧场中无人机对牛目标跟踪方法，其特征在于：利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实目标正在相互靠近的过程包括：获取当前帧的分类响应图，并获得当前二值响应峰值图，计算与跟踪结果响应峰值最接近的峰值距离；当所述峰值距离小于预设阈值时判断为有相似目标在靠近真实目标；其中，按照下述公式计算与跟踪结果响应峰值最接近的峰值距离：distance
min
＝min((w-w
n
)2*(h-h
n
)2)式中，(w，h)是跟踪结果的响应峰值在响应峰值图上的位置，(w
n
，h
n
)是其他相似目标在响应峰值图上的位置；distance
min
是最小的相似目标峰值与跟踪结果的峰值欧式距离。4.根据权利要求3所述的一种基于siamese网络的牧场中无人机对牛目标跟踪方法，其特征在于：利用高置信度模板更新机制对当前帧进行质量判断的过程包括：当前帧跟踪结果框的apce平均峰值相关能量以及响应值均大于其对应的一定比例的历史均值时判定为质量高的模板，其中，apce平均峰值相关能量的计算公式如下：式中，f
max
、f
min
、f
w，h
分别表示响应值最高、响应值最低和(w，h)位置上的响应值；mean表示平均值。5.根据权利要求4所述的一种基于siamese网络的牧场中无人机对牛目标跟踪方法，其特征在于：所述累积模板表示为：t
i
′
＝(1-r)t
i-1
+rt
i
其中，t
i
′
为累积模板；f
i-1
为上一帧跟踪模板，t
i
为根据上一帧跟踪结果生成的模板，r表示比率。6.一种基于siamese网络的牧场中无人机对牛目标跟踪系统，其特征在于，所述系统包括：
目标检测模块，其配置成对于牧场中无人机上视频采集设备实时采集的视频，利用目标检测算法检测获得包含目标的初始帧；目标跟踪模块，其配置成利用改进的孪生网络实现对目标的实时跟踪，改进之处在于：孪生网络的特征提取骨干网络替换为mobilenet网络；在跟踪时对于后续帧：根据预设的多个锚框比率判断锚框比率变化，进而判断当前帧跟踪结果是否需要更新模板；若模板待更新，则利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实目标正在相互靠近；若判断没有相似目标在靠近，则利用高置信度模板更新机制对当前帧进行质量判断；若当前帧被判断为质量高的模板，则将当前帧对应的特征融入累积模板，并与初始模板进行残差连接形成下一帧跟踪模板。7.根据权利要求6所述的一种基于siamese网络的牧场中无人机对牛目标跟踪系统，其特征在于，所述目标跟踪模块中在获取包含目标的初始帧后，利用初始模板与搜索图像通过特征提取骨干网络进行特征提取，统一特征图维度后分别输入rpn网络的分类分支和回归分支，使用模板特征图与搜索特征图进行互相关操作，并预设多个锚框比率个数，获取有多个跟踪框的分类响应图和回归响应图。8.根据权利要求7所述的一种基于siamese网络的牧场中无人机对牛目标跟踪系统，其特征在于，所述目标跟踪模块中利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实目标正在相互靠近的过程包括：获取当前帧的分类响应图，并获得当前二值响应峰值图，计算与跟踪结果响应峰值最接近的峰值距离；当所述峰值距离小于预设阈值时判断为有相似目标在靠近真实目标；其中，按照下述公式计算与跟踪结果响应峰值最接近的峰值距离：distance
min
＝min((w-w
n
)2*(h-h
n
)2)式中，(w，h)是跟踪结果的响应峰值在响应峰值图上的位置，(w
n
，h
n
)是其他相似目标在响应峰值图上的位置；distance
min
是最小的相似目标峰值与跟踪结果的峰值欧式距离。9.根据权利要求8所述的一种基于siamese网络的牧场中无人机对牛目标跟踪系统，其特征在于，所述目标跟踪模块中利用高置信度模板更新机制对当前帧进行质量判断的过程包括：当前帧跟踪结果框的apce平均峰值相关能量以及响应值均大于其对应的一定比例的历史均值时判定为质量高的模板，其中，apce平均峰值相关能量的计算公式如下：式中，f
max
、f
min
、f
w，h
分别表示响应值最高、响应值最低和(w，h)位置上的响应值；mean表示平均值。10.根据权利要求9所述的一种基于siamese网络的牧场中无人机对牛目标跟踪系统，其特征在于，所述目标跟踪模块中所述累积模板表示为：t
i
′
＝(1-r)t
i-1
+rt
i
其中，t
i
′
为累积模板；t
i-1
为上一帧跟踪模板，t
i
为上一帧跟踪结果生成的模板，r表示比率。

技术总结
本发明公开了一种基于Siamese网络的牧场中无人机对牛目标跟踪方法及系统，涉及目标跟踪技术领域，用以解决现有基于Siamese网络的目标跟踪方法中仅使用初始模板而导致跟踪过程中鲁棒性较差的问题。本发明的技术要点包括：在跟踪时对于后续视频帧：根据锚框比率变化判断当前帧跟踪结果是否需要更新模板；若模板待更新则利用响应峰值欧式距离检测机制判断当前帧中是否有相似目标与真实目标正在相互靠近；若判断没有则利用高置信度模板更新机制对当前帧进行质量判断；若判断为质量高的模板则将其对应的特征融入累积模板，并与初始模板进行残差连接形成下一帧跟踪模板。本发明极大提高了无人机对目标跟踪的鲁棒性，为后续的牲畜行为分析提供更好的信息采集工具。牲畜行为分析提供更好的信息采集工具。牲畜行为分析提供更好的信息采集工具。

技术研发人员：杨颜博鲁宇李敏超杜永兴
受保护的技术使用者：内蒙古科技大学
技术研发日：2023.03.23
技术公布日：2023/7/20

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于Siamese网络的牧场中无人机对牛目标跟踪方法及系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于Siamese网络的牧场中无人机对牛目标跟踪方法及系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表