基于时空记忆网络的无人机目标跟踪方法
未命名
08-27
阅读:94
评论:0
1.本发明属于无人机目标跟踪技术领域,具体涉及一种基于时空记忆网络的无人机目标跟踪方法。
背景技术:
2.视觉目标跟踪是计算机视觉领域中一个极具吸引力的方向,其目的是针对给定视频或者图像序列,以初始帧中目标的位置和大小进行初始化,逐帧跟踪给定的目标。随着深度学习的发展,目标跟踪已被广泛应用于环境监测、灾害探测、智能监控等领域。无人机作为一种新兴的遥感平台,凭借其体积小和操作简单同时能够适应多种环境和天气等优点,受到越来越多的关注。在智能化趋势的背景下,基于无人机视觉的目标跟踪受到人们的青睐,并逐渐应用于民用领域。
3.无人机目标跟踪和地面目标跟踪相比,无人机拍摄视角较高,所拍摄的视频范围广,包含背景信息较多,使得目标含有的特征信息较少,易受到周围物体以及背景的干扰;另外由于无人机在飞行的过程中容易出现相机抖动和飞行速度变化,导致目标发生形变以及遮挡等复杂情况。因此无人机目标跟踪要比地面目标跟踪困难得多。
4.随着深度学习的发展,目标跟踪领域取得了令人瞩目的进展,涌现出了一批杰出的算法,其中基于siamese网络的跟踪算法受到了许多学者的青睐。全卷积孪生网络算法(siamfc)利用孪生网络直接学习目标模板和候选目标的匹配函数,然后利用这个匹配函数比较目标模板和搜索区域的相似度,最后得到搜索区域的得分图,来获得跟踪目标的位置,有效地将目标跟踪问题转化为了相似度匹配问题,该跟踪算法虽然在精度和速度上都取得了不错的效果,但是该算法仅使用单一的初始帧模板特征,目标一旦受到干扰,就容易出现漂移现象。为了进一步提高模型的性能,后续算法继续在此基础上增加了特征融合和注意力机制。这类算法仅通过相似性函数得到搜索区域的分数,获得目标的位置信息,并没有得到目标的尺度信息,导致算法的尺度信息缺失。siamrpn算法在siamese网络的基础上引入rpn,将每一帧的跟踪转换为一次局部检测任务,另外通过先验的锚框设置使得算法能够自适应尺度的变化,从而使得该算法获得了较高的精度和速度,当目标周围有干扰物以及受到遮挡时,跟丢的概率依然很高。近年来,transformer由于在自然语言处理和语音识别等任务中取得了巨大的成功,开始被应用于计算机视觉模型,但其在计算机视觉方面的应用仍然有限,主要与卷积网络结合使用,用于替换卷积网络的某些模块以保持整体结构不变。
5.通过上述分析,现有方法存在的不足为:
6.(1)模型结构简单的跟踪算法对于特定的目标跟踪效果很好,但其不具有很强的鲁棒性,对于目标跟踪中出现背景干扰严重等问题表现得不理想,模型泛化性较低。
7.(2)现有的大多数跟踪算法都是采用第一帧作为模板帧,模板特征单一,对于目标发生形变等问题解决不好,容易跟踪失败,这就导致跟踪成功率和精度较低。
技术实现要素:
8.本发明的是提供一种基于时空记忆网络的无人机目标跟踪方法,解决了无人机目标发生形变而导致的问题,提升了跟踪成功率和准确率。
9.本发明所采用的技术方案是,基于时空记忆网络的无人机目标跟踪方法,包括以下步骤:
10.步骤1,从数据集中采样图像并进行图像增强构成训练数据集;
11.步骤2,创建基于时空记忆网络的无人机目标跟踪网络模型;
12.步骤3,对基于时空记忆网络的无人机目标跟踪网络模型进行基于掩码重建的预训练;
13.步骤4,对于步骤3预训练好的基于时空记忆网络无人机目标跟踪网络模型进行再训练;
14.步骤5,将待跟踪视频输入到步骤4训练好的基于时空记忆网络的无人机目标跟踪网络模型,得到跟踪结果。
15.本发明的特征还在于,
16.步骤1中的数据集为trackingnet、lasot、got10k或coco;其中,步骤1中的图像为从视频数据集trackingnet、lasot或got10k中同一个视频中采样的三帧图像,或,将coco数据集中原始图像采用平移或亮度抖动来生成两张图像,加上原始图像共得到三帧图像。
17.步骤2创建基于时空记忆网络的无人机目标跟踪网络模型的具体方法为:利用vision transformer构建记忆分支编码器、查询分支编码器、特征融合模块、解码器及边界框预测头,记忆分支编码器输出和查询分支编码器输出均与特征融合模块输入连接,特征融合模块输出与解码器输入连接,解码器输出端连接边界框预测头。
18.边界框预测头包括依次连接的分类头和回归头,所述分类头和回归头均由3个卷积块构建而成。
19.步骤3具体按照以下步骤实施:
20.步骤3.1,对训练数据集中的每三张图像中一个图像作为搜索图像,另两张图像作为模板图像;以目标为中心对三张图像进行一定尺度的裁剪,其中模板图像裁剪为x*x大小,则搜索图像裁剪为2x*2x大小;
21.步骤3.2,分别将模板图像和搜索图像分割成不相重叠且像素大小为16*16的图像块,得到模板图像块序列s
t1
、s
t2
和搜索图像块序列ss;
22.步骤3.3,对搜索图像块序列ss进行随机掩码,将掩码的图像块从序列中移除,得到掩码后的图像块序列s
′s以及掩码标记mask
token
,然后将s
′s和s
t1
拼接在一起得到图像块序列s
′
x
;
23.步骤3.4,将拼接后的图像块序列s
′
x
送入查询分支编码器,将s
t2
送人记忆分支编码器,通过vision transformer中的自注意力机制构建图像块之间的关系,得到编码后的图像块序列s
query_encode
和s
mem_encode
,其中注意力计算公式如下:
[0024][0025]
其中,q、k、v是通过输入进行线性变换得到的矩阵,dk是矩阵q、k的维度,softmax()表示归一化指数函数,attention()为注意力计算公式函数;
[0026]
步骤3.5,与编码器相同,利用vision transformer构建对称的解码器,将编码后的图像块序列s
query_encode
分割为搜索图像块序列s
s_encode
和模板图像块序列s
t_encode
,s
s_encode
和掩码标记mask
token
拼接起来构成查询编码序列s
query
,其中每一个掩码标记都是一个共享的、可学习的向量,表示要预测的缺失图像块,将模板图像块序列s
t_encode
和s
men_encode
拼接构成记忆编码序列s
memory
,利用查询编码序列s
query
和记忆编码序列s
memory
进行特征融合得到融合的特征s
feature
,其中特征融和计算公式如下:
[0027][0028]
其中,(s
memory
)
t
是s
memory
的转置,w为s
query
和s
memory
的相似度权重,w计算公式如下:
[0029][0030]
其中,i是上每个像素的索引,j是上每个像素的索引,
⊙
表示向量点乘,s是一个比例因子;
[0031]
步骤3.6,并将融合后的特征s
feature
送入解码器,解码器根据输入的信息进行掩码重建,通过预测每个被掩码屏蔽的图像块的像素值来重建输入图像,解码器输出的每个元素都是代表一个图像块的像素值向量,其输出的通道数等于一个图像块中像素值的数量,然后将输出重塑成重建图像;
[0032]
步骤3.7,将重建后的图像送入边界框预测头,分别进行分类和回归得到预测的边界框,计算重建图像和原始图像以及预测边界框和真实边界框之间的均方误差损失,对损失进行反向传播,更新模型权重,让模型学习强表征能力,提升泛化性能。
[0033]
步骤4具体按照以下步骤实施:
[0034]
步骤4.1,对训练数据集中的每三张图像中一个图像作为搜索图像,另两张图像作为模板图像;以目标为中心对两张图像进行一定尺度的裁剪,其中若模板图像裁剪为x*x大小,则搜索图像裁剪为2x*2x大小;将其分割成不相重叠且大小相同的图像块,得到模板图像块序列s
t1
、s
t2
和搜索图像块序列ss;
[0035]
步骤4.2,将模板图像块序列s
t1
和搜索图像块序列ss拼接在一起得到图像块序列s
x
;
[0036]
步骤4.3,将拼接后的图像块序列s
x
送入查询分支编码器,将s
t2
送人记忆分支编码器,通过vision transformer中的自注意力机制构建图像块之间的关系,得到编码后的图像块序列s
query_encode
和s
mem_encode
。
[0037]
步骤4.4,将编码后的图像块序列s
query_encode
分割为搜索图像块序列s
s_encode
和模板图像块序列s
t_encode
,模板图像块序列s
t_encode
和s
mem_encode
拼接构成记忆编码序列s
menory
,利用搜索图像块序列s
s_encode
和记忆编码序列s
menory
进行特征融合,并将融合后的特征送入解码器,最后将解码后的特征送入边界框预测头得到最后的目标位置预测。
[0038]
步骤5具体按照以下步骤实施:
[0039]
步骤5.1,在视频序列的第一帧图像中以给定目标的位置为中心裁剪出x*x大小的图像当作模板图像,将模板图像裁剪为固定大小的图像块,得到图像块序列s
t
,并将s
t
送入记忆分支编码器得到s
mem_encode
;
[0040]
步骤5.2,读取下一帧图像并以上一帧预测目标为中心裁剪出大小为2x*2x的图像
当作搜索图像,将搜索图像裁剪为固定大小的图像块,得到图像块序列ss,将s
t
和ss拼接在一起同时嵌入位置编码来表示图像块的相对位置得到输入序列s
inpute
,将s
inpute
送入训练好的查询分支编码器,将编码后的图像块序列分割为搜索图像块序列s
s_encode
和模板图像块序列s
t_encode
,模板图像块序列s
t_encode
和s
mem_encode
拼接构成记忆编码序列s
memory
,利用搜索图像块序列s
s_encode
和记忆编码序列s
memory
进行特征融合,并将融合后的特征送入解码器;
[0041]
步骤5.3,将解码后的特征送入边界框预测头,得到当前帧预测的目标位置;
[0042]
步骤5.4,以上一帧预测目标位置为中心将当前帧图像裁剪为x*x大小,并裁剪为固定大小图像块,送入记忆分支编码器得到s
mem
,将s
mem
拼接到s
mem_encode
;
[0043]
步骤5.5,读取下一帧图像,并重复步骤5.2到步骤5.4,直到整个视频序列结束,得到输入视频跟踪结果。
[0044]
本发明的有益效果是:
[0045]
(1)针对无人机视频中目标背景干扰严重、目标容易出现模糊等问题,需要跟踪模型具有很好的泛化性能以供算法预测目标,提出了一种基于掩码重建的预训练方法,利用vision transformer对图像掩码进行重建,以获得较强的目标表征能力,再通过目标检测任务进行训练,有效地提升了跟踪模型的泛化性。
[0046]
(2)本发明方法针对无人机目标跟踪中目标容易发生形变以及被遮挡问题,如果只利用初始帧作为模板特征,目标特征信息较少,提出了记忆网络存储历史帧中目标的特征信息,利用历史帧的特征信息得到跟踪目标更加完备的特征描述,从而提升了跟踪准确度和精确度。
附图说明
[0047]
图1为本发明方法的总体框架图;
[0048]
图2为本发明方法中视频序列跟踪过程流程图;
[0049]
图3为本发明实施例1中视频第100帧的跟踪效果图;
[0050]
图4为本发明实施例1中视频第400帧的跟踪效果图;
[0051]
图5为本发明方法在无人机通用数据集uav123中不同位置误差阈值的跟踪精度;
[0052]
图6为本发明方法在无人机通用数据集uav123中不同重叠率阈值的跟踪成功率。
具体实施方式
[0053]
下面结合附图和具体实施方式对本发明进行详细说明。
[0054]
本发明公开了一种基于时空记忆网络的无人机目标跟踪方法如图1所示,方法包括掩码预训练、网络微调以及在线跟踪三部分,本发明的具体步骤如下:
[0055]
步骤1,从数据集trackingnet、lasot、got10k和coco中采样三帧图像,其中对于视频数据集trackingnet、lasot和got10k直接从一个视频中间隔一定帧数采样三帧图像,为了解决视频数据集中样本种类不足的问题增加了coco数据集,对coco数据集中原始图像采用平移或亮度抖动来额外生成两帧图像,加上原始图像共得到三帧图像,最后对所有图像进行平移、裁剪、灰度变化的数据增强操作构成训练数据集。
[0056]
步骤2,搭建基于时空记忆网络的无人机目标跟踪网络模型,创建基于时空记忆网络的无人机目标跟踪网络模型具体为:利用vision transformer构建记忆分支编码器、查
询分支编码器、特征融合模块、解码器及边界框预测头,记忆分支编码器输出和查询分支编码器输出均与特征融合模块输入连接,特征融合模块输出与解码器输入连接,解码器输出端连接边界框预测头。其中边界框预测头包括依次连接的分类头和回归头,所述分类头和回归头均由3个卷积块构建而成。
[0057]
步骤3,利用训练数据集通过掩码重建任务和掩码重建后目标检测任务对基于时空记忆网络的无人机目标跟踪网络模型进行基于掩码重建的预训练,得到预训练的基于时空记忆网络无人机目标跟踪网络模型;提升模型表征能力,基于掩码重建的预训练方法为:
[0058]
步骤3.1,对训练数据集中的每三张图像中一个图像作为搜索图像,另两张图像作为模板图像;以目标为中心对三张图像进行一定尺度的裁剪,其中模板图像裁剪为x*x大小,则搜索图像裁剪为2x*2x大小;
[0059]
步骤3.2,分别将模板图像和搜索图像分割成不相重叠且像素大小为16*16的图像块,得到模板图像块序列s
t1
、s
t2
和搜索图像块序列ss;
[0060]
步骤3.3,对搜索图像块序列ss进行随机掩码,将掩码的图像块从序列中移除,得到掩码后的图像块序列s
′s以及掩码标记mask
token
,然后将s
′s和s
t1
拼接在一起得到图像块序列s
′
x
;
[0061]
步骤3.4,将拼接后的图像块序列s
′
x
送入查询分支编码器,将s
t2
送人记忆分支编码器,通过vision transformer中的自注意力机制构建图像块之间的关系,得到编码后的图像块序列s
query_encode
和s
mem_encode
,其中注意力计算公式如下:
[0062][0063]
其中,q、k、v是通过输入进行线性变换得到的矩阵,dk是矩阵q、k的维度,softmax()表示归一化指数函数,attention()为注意力计算公式函数。
[0064]
步骤3.5,与编码器相同,利用vision transformer构建对称的解码器,将编码后的图像块序列s
query_encode
分割为搜索图像块序列s
s_encode
和模板图像块序列s
t_encode
,s
s_encode
和掩码标记maask
token
拼接起来构成查询编码序列s
query
,其中每一个掩码标记都是一个共享的、可学习的向量,表示要预测的缺失图像块,将模板图像块序列s
t_encode
和s
mem_encode
拼接构成记忆编码序列s
memory
,利用查询编码序列s
query
和记忆编码序列s
memory
进行特征融合得到融合的特征s
feature
,其中特征融和计算公式如下:
[0065][0066]
其中,(s
memory
)
t
是s
memory
的转置,w为s
query
和s
memory
的相似度权重,w计算公式如下:
[0067][0068]
其中,i是上每个像素的索引,j是上每个像素的索引,
⊙
表示向量点乘,s是一个比例因子。
[0069]
步骤3.6,并将融合后的特征s
feature
送入解码器,解码器根据输入的信息进行掩码重建,通过预测每个被掩码屏蔽的图像块的像素值来重建输入图像,解码器输出的每个元素都是代表一个图像块的像素值向量,其输出的通道数等于一个图像块中像素值的数量,然后将输出重塑成重建图像;
[0070]
步骤3.7,将重建后的图像送入边界框预测头,分别进行分类和回归得到预测的边界框,计算重建图像和原始图像以及预测边界框和真实边界框之间的均方误差损失,对损失进行反向传播,更新模型权重,让模型学习强表征能力,提升泛化性能;
[0071]
步骤4:对预训练的基于时空记忆网络无人机目标跟踪网络模型进行再训练,得到训练好的基于时空记忆网络的无人机目标跟踪网络模型,利用目标检测任务让模型更专注于学习目标特征确保其能更好地应用于无人机目标跟踪任务,再训练的过程为:
[0072]
步骤4.1,对训练数据集中的每三张图像中一个图像作为搜索图像,另两张图像作为模板图像;以目标为中心对两张图像进行一定尺度的裁剪,其中若模板图像裁剪为x*x大小,则搜索图像裁剪为2x*2x大小;将其分割成不相重叠且大小相同的图像块,得到模板图像块序列s
t1
、s
t2
和搜索图像块序列ss;
[0073]
步骤4.2,将模板图像块序列s
t1
和搜索图像块序列ss拼接在一起得到图像块序列s
x
;
[0074]
步骤4.3,将拼接后的图像块序列s
x
送入查询分支编码器,将s
t2
送人记忆分支编码器,通过vision transformer中的自注意力机制构建图像块之间的关系,得到编码后的图像块序列s
query_encode
和s
mem_encode
。
[0075]
步骤4.4,将编码后的图像块序列s
query_encode
分割为搜索图像块序列s
s_encode
和模板图像块序列s
t_encode
,模板图像块序列s
t_encode
和s
mem_encode
拼接构成记忆编码序列s
memory
,利用搜索图像块序列s
s_encode
和记忆编码序列s
memory
进行特征融合,并将融合后的特征送入解码器,最后将解码后的特征送入边界框预测头得到最后的目标位置预测。
[0076]
步骤5:将待跟踪视频输入到步骤4训练好的基于时空记忆网络的无人机目标跟踪网络模型,得到跟踪结果。如图2所示,具体过程如下:
[0077]
步骤5.1,在视频序列的第一帧图像中以给定目标的位置为中心裁剪出x*x大小的图像当作模板图像,将模板图像裁剪为固定大小的图像块,得到图像块序列s
t
,并将s
t
送入记忆分支编码器得到s
mem_encode
;
[0078]
步骤5.2,读取下一帧图像并以上一帧预测目标为中心裁剪出大小为2x*2x的图像当作搜索图像,将搜索图像裁剪为固定大小的图像块,得到图像块序列ss,将s
t
和ss拼接在一起同时嵌入位置编码来表示图像块的相对位置得到输入序列s
inpute
,将s
inpute
送入训练好的查询分支编码器,将编码后的图像块序列分割为搜索图像块序列s
s_encode
和模板图像块序列s
t_encode
,模板图像块序列s
t_encode
和s
mem_encode
拼接构成记忆编码序列s
memory
,利用搜索图像块序列s
s_encode
和记忆编码序列s
memory
进行特征融合,并将融合后的特征送入解码器。
[0079]
步骤5.3,将解码后的特征送入边界框预测头,得到当前帧预测的目标位置;
[0080]
步骤5.4,以上一帧预测目标位置为中心将当前帧图像裁剪为x*x大小,并裁剪为固定大小图像块,送入记忆分支编码器得到s
mem
,将s
mem
拼接到s
mem_encode
。
[0081]
步骤5.5,读取下一帧图像,并重复步骤5.2到步骤5.4,直到整个视频序列结束,得到输入视频跟踪结果。
[0082]
实施例1
[0083]
本实施例采用无人机通用数据集uav123上的视频作为待跟踪视频,执行步骤1~步骤5,
[0084]
其中步骤3.1和步骤4.1中模板图像裁剪为128*128大小,搜索图像裁剪为256*256
大小;图像块大小为16*16。
[0085]
得到的结果见图3-4,图3-4分别为视频第100帧和第400帧的可视化跟踪结果,得到目标在图像中的位置信息。
[0086]
其中图5-6分别为不同位置误差阈值的跟踪精度和不同重叠率阈值的跟踪成功率,如图5-6可知,本实施的平均跟踪成功率达到0.57,在误差阈值为20像素情况下跟踪准确度达到0.742。下面是本实施在uav123数据集不同环境属性下跟踪成功率和跟踪精度,以及本实施和一些跟踪算法在无人机通用数据集uav123上跟踪精度和跟踪精度的比较。
[0087]
表1本实施在不同环境下跟踪成功率和准确率
[0088]
环境属性跟踪成功率跟踪准确率目标被部分遮挡0.5630.780目标移出视野0.5920.790目标尺度变化0.6160.822光照变化0.6060.827快速运动0.5760.768视角改变0.6570.856背景干扰0.6460.860小目标0.5980.829
[0089]
表2本实施与其他跟踪算法比较
[0090]
跟踪算法跟踪成功率跟踪精度siamfc0.4980.726mdnet0.5280.735eco0.5250.741siamrpn0.5270.748本发明跟踪算法0.6270.835
[0091]
通过表1可知,本发明在大多数的环境下都能够取得不错的跟踪成功率和跟踪精度,能够有效解决无人机视频中目标背景干扰严重、目标容易出现模糊等问题,很好地提升了模型泛化性。
[0092]
通过表2可以看出,本发明在无人机通用数据集uav123上平均跟踪成功率可达0.627,平均跟踪精度为0.835,同时跟踪速度可达45fps,相较于之前的一些无人机目标跟踪算法,在平均跟踪成功率和跟踪精度方面有提升。
[0093]
针对无人机视频中目标易受到遮挡、变形以及相似物干扰等问题,本发明基于时空记忆网络的无人机目标跟踪方法,通过预训练网络模型获取更加鲁棒的特征信息,降低复杂背景对跟踪算法的影响,提升模型泛化性,同时设计了记忆网络存储历史帧的目标特征信息;解决了无人机目标发生形变而导致的问题,提升了模型跟踪成功率和准确率。
技术特征:
1.基于时空记忆网络的无人机目标跟踪方法,其特征在于,包括以下步骤:步骤1,从数据集中采样图像并进行图像增强构成训练数据集;步骤2,创建基于时空记忆网络的无人机目标跟踪网络模型;步骤3,对基于时空记忆网络的无人机目标跟踪网络模型进行基于掩码重建的预训练;步骤4,对于步骤3预训练好的基于时空记忆网络无人机目标跟踪网络模型进行再训练;步骤5,将待跟踪视频输入到步骤4训练好的基于时空记忆网络的无人机目标跟踪网络模型,得到跟踪结果。2.如权利要求1所述的基于时空记忆网络的无人机目标跟踪方法,其特征在于,步骤1中的数据集为trackingnet、lasot、got10k或coco;其中,步骤1中的图像为从视频数据集trackingnet、lasot或got10k中同一个视频中采样的三帧图像,或,将coco数据集中原始图像采用平移或亮度抖动来生成两张图像,加上原始图像共得到三帧图像。3.如权利要求1所述的基于时空记忆网络的无人机目标跟踪方法,其特征在于,步骤2创建基于时空记忆网络的无人机目标跟踪网络模型的具体方法为:利用vision transformer构建记忆分支编码器、查询分支编码器、特征融合模块、解码器及边界框预测头,记忆分支编码器输出和查询分支编码器输出均与特征融合模块输入连接,特征融合模块输出与解码器输入连接,解码器输出端连接边界框预测头。4.如权利要求3所述的基于时空记忆网络的无人机目标跟踪方法,其特征在于,所述边界框预测头包括依次连接的分类头和回归头,所述分类头和回归头均由3个卷积块构建而成。5.如权利要求3或4所述的基于时空记忆网络的无人机目标跟踪方法,其特征在于,步骤3具体按照以下步骤实施:步骤3.1,对训练数据集中的每三张图像中一个图像作为搜索图像,另两张图像作为模板图像;以目标为中心对三张图像进行一定尺度的裁剪,其中模板图像裁剪为x*x大小,则搜索图像裁剪为2x*2x大小;步骤3.2,分别将模板图像和搜索图像分割成不相重叠且像素大小为16*16的图像块,得到模板图像块序列s
t1
、s
t2
和搜索图像块序列s
s
;步骤3.3,对搜索图像块序列s
s
进行随机掩码,将掩码的图像块从序列中移除,得到掩码后的图像块序列s
′
s
以及掩码标记mask
token
,然后将s
′
s
和s
t1
拼接在一起得到图像块序列s
′
x
;步骤3.4,将拼接后的图像块序列s
′
x
送入查询分支编码器,将s
t2
送人记忆分支编码器,通过vision transformer中的自注意力机制构建图像块之间的关系,得到编码后的图像块序列s
query_encode
和s
mem_encode
,其中注意力计算公式如下:其中,q、k、v是通过输入进行线性变换得到的矩阵,d
k
是矩阵q、k的维度,softmax()表示归一化指数函数,attention()为注意力计算公式函数;步骤3.5,与编码器相同,利用visiontransformer构建对称的解码器,将编码后的图像块序列s
query_encode
分割为搜索图像块序列s
s_encode
和模板图像块序列s
t_encode
,s
s_encode
和掩码标记mask
token
拼接起来构成查询编码序列s
query
,其中每一个掩码标记都是一个共享的、可
学习的向量,表示要预测的缺失图像块,将模板图像块序列s
t_encode
和s
mem_encode
拼接构成记忆编码序列s
memory
,利用查询编码序列s
query
和记忆编码序列s
menory
进行特征融合得到融合的特征s
feature
,其中特征融和计算公式如下:其中,(s
memory
)
t
是s
memory
的转置,w为s
query
和s
memory
的相似度权重,w计算公式如下:其中,i是上每个像素的索引,j是上每个像素的索引,
⊙
表示向量点乘,s是一个比例因子;步骤3.6,并将融合后的特征s
feature
送入解码器,解码器根据输入的信息进行掩码重建,通过预测每个被掩码屏蔽的图像块的像素值来重建输入图像,解码器输出的每个元素都是代表一个图像块的像素值向量,其输出的通道数等于一个图像块中像素值的数量,然后将输出重塑成重建图像;步骤3.7,将重建后的图像送入边界框预测头,分别进行分类和回归得到预测的边界框,计算重建图像和原始图像以及预测边界框和真实边界框之间的均方误差损失,对损失进行反向传播,更新模型权重。6.如权利要求5所述的基于时空记忆网络的无人机目标跟踪方法,其特征在于,步骤4具体按照以下步骤实施:步骤4.1,对训练数据集中的每三张图像中一个图像作为搜索图像,另两张图像作为模板图像;以目标为中心对两张图像进行裁剪,其中若模板图像裁剪为x*x大小,则搜索图像裁剪为2x*2x大小;将其分割成不相重叠且大小相同的图像块,得到模板图像块序列s
t1
、s
t2
和搜索图像块序列s
s
;步骤4.2,将模板图像块序列s
t1
和搜索图像块序列s
s
拼接在一起得到图像块序列s
x
;步骤4.3,将拼接后的图像块序列s
x
送入查询分支编码器,将s
t2
送人记忆分支编码器,通过visiontransformer中的自注意力机制构建图像块之间的关系,得到编码后的图像块序列s
query_encode
和s
mem_encode
;步骤4.4,将编码后的图像块序列s
query_encode
分割为搜索图像块序列s
s_encode
和模板图像块序列s
t_encode
,模板图像块序列s
t_encode
和s
mem_encode
拼接构成记忆编码序列s
memory
,利用搜索图像块序列s
s_encode
和记忆编码序列s
memory
进行特征融合,并将融合后的特征送入解码器,最后将解码后的特征送入边界框预测头得到最后的目标位置预测。7.如权利要求6所述的基于时空记忆网络的无人机目标跟踪方法,其特征在于,步骤5具体按照以下步骤实施:步骤5.1,在视频序列的第一帧图像中以给定目标的位置为中心裁剪出x*x大小的图像当作模板图像,将模板图像裁剪为固定大小的图像块,得到图像块序列s
t
,并将s
t
送入记忆分支编码器得到s
mem_encode
;步骤5.2,读取下一帧图像并以上一帧预测目标为中心裁剪出大小为2x*2x的图像当作搜索图像,将搜索图像裁剪为固定大小的图像块,得到图像块序列s
s
,将s
t
和s
s
拼接在一起同时嵌入位置编码来表示图像块的相对位置得到输入序列s
inpute
,将s
inpute
送入训练好的查
询分支编码器,将编码后的图像块序列分割为搜索图像块序列s
s_encode
和模板图像块序列s
t_encode
,模板图像块序列s
t_encode
和s
mem_encode
拼接构成记忆编码序列s
memory
,利用搜索图像块序列s
s_encode
和记忆编码序列s
memory
进行特征融合,并将融合后的特征送入解码器;步骤5.3,将解码后的特征送入边界框预测头,得到当前帧预测的目标位置;步骤5.4,以上一帧预测目标位置为中心将当前帧图像裁剪为x*x大小,并裁剪为固定大小图像块,送入记忆分支编码器得到s
mem
,将s
mem
拼接到s
mem_encode
;步骤5.5,读取下一帧图像,并重复步骤5.2到步骤5.4,直到整个视频序列结束,得到输入视频跟踪结果。
技术总结
本发明公开基于时空记忆网络的无人机目标跟踪方法,包括以下步骤:步骤1,从数据集中采样图像并进行图像增强构成训练数据集;步骤2,创建基于时空记忆网络的无人机目标跟踪网络模型;步骤3,对基于时空记忆网络的无人机目标跟踪网络模型进行基于掩码重建的预训练;步骤4,对于步骤3预训练好的基于时空记忆网络无人机目标跟踪网络模型进行再训练;步骤5,将待跟踪视频输入到步骤4训练好的基于时空记忆网络的无人机目标跟踪网络模型,得到跟踪结果。该方法解决了无人机目标发生形变而导致的问题,提升了跟踪成功率和准确率。提升了跟踪成功率和准确率。提升了跟踪成功率和准确率。
技术研发人员:梁继民 牟剑 郑洋 卫晨 郭开泰 胡海虹 王梓宇
受保护的技术使用者:西安电子科技大学
技术研发日:2023.02.23
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
