一种基于YOLOv7-RS的遥感图像目标检测方法
未命名
10-19
阅读:93
评论:0
一种基于yolov7-rs的遥感图像目标检测方法
技术领域
1.本发明属于计算机视觉技术领域,具体涉及一种基于yolov7-rs的遥感图像目标检测方法。
背景技术:
2.随着遥感技术的不断发展,遥感图像目标检测已成为遥感图像解译领域中的重要研究方向。基于遥感图像的目标检测在军事行动、国防安全等领域具有重要意义,提高目标检测准确率有助于在大量影像数据中快速检测到关注的目标信息,提高情报侦搜能力。
3.近年来,深度学习的快速发展,为遥感图像特征提取提供有利的技术支撑。基于深度学习的目标检测方法大多以卷积神经网络作为主干网络,因为卷积神经网络可以自动提取高层语义特征,与传统的人工提取特征相比,具有更强的特征表示能力,同时卷积神经网络主动学习特征的能力,在大数据时代具有更强的优势。卷积神经网络的快速发展,解决了计算机视觉领域的很多难题,在图像目标检测领域取得了巨大成功。然而,由于遥感图像目标具有多尺度、多种旋转角度、场景复杂等特点,在高质量标记样本有限的情况下,深度学习在遥感图像目标检测应用中仍面临巨大挑战。
4.当前基于深度学习的目标检测算法主要分为双阶段目标检测和单阶段目标检测。yolo系列算法是典型的单阶段目标检测算法。yolov1在2015年首次提出来,有效解决了两阶段检测网络推理速度慢的问题。yolov2从更快、更多、更精准三个角度进行改进,识别对象也扩展到9000种,因此也称为yolo9000。yolov3引入了特征金字塔fpn和残差模块darknet-53,支持检测三种不同尺度的物体检测,实现了多尺度的融合。yolov4和yolov5结合加权残差连接(wrc)、跨阶段部分连接(csp)、mosaic数据增强等当时流行的技术,进一步提高了检测精度和速度。yolox结合anchor-free网络将yolov5耦合检测头替换为解耦检测头,提高了网络的收敛速度,除此之外还在ota的基础上提出了正负样本匹配策略simota。yolov6是美团视觉智能部研发优化的目标检测框架,在工业界得到了广泛的应用。2022年7月yolov7诞生,针对网络性能提出了e-elan架构和辅助训练模块,进一步提高了算法的速度和精度。
5.已有的研究工作取得了许多成果和进展,但还存在需要进一步研究和解决的问题:基于yolo的目标检测算法在自然图像中表现良好,但是由于遥感图像与自然图像的成像方式不同,遥感图像背景复杂多样、遥感目标具有旋转不变性和尺度差异大两个特性,使得基于yolo的遥感图像目标检测效果欠佳。
技术实现要素:
6.本发明的目的在于解决遥感图像目标检测精度欠佳的问题,提出了一种基于yolov7-rs的遥感图像目标检测方法,设计了一种基于yolov7-rs的遥感图像目标检测网络,能够高效地解决遥感图像目标检测中存在的问题。
7.为达到上述目的,本发明采用了以下技术方案:
8.一种基于yolov7-rs的遥感图像目标检测方法,包括以下步骤:
9.步骤1,获取遥感图像并对遥感图像进行预处理;
10.步骤2,基于yolov7-rs网络结构,构建遥感图像目标检测模型;
11.步骤3,将经过预处理的遥感图像连同权重文件输入构建的模型,进行遥感图像的目标检测。
12.进一步,所述步骤1中对遥感图像进行预处理,具体为:将获取的遥感图像缩放至640x640大小,不足的部分采用像素填充的方式进行补充。
13.进一步,所述步骤1中yolov7-rs网络结构包括d-elan模块、siou损失函数部分和输入端(input)阶段、骨干网络(backbone)阶段、颈部网络(neck)阶段、头部网络(head)阶段;
14.所述d-elan模块是根据cspnet的分割梯度流思想,对elan模块进行重新设计:即第一条分支直接经过一个1x1的卷积;第二条分支在此基础上经过三组两个3x3的卷积,最后将1x1的卷积和三组3x3的卷积结果进行拼接,通过提高block利用率和增加网络深度的方式提升特征提取能力。
15.再进一步,在所述骨干网络阶段中,引入融合通道注意力和空间注意力的三维注意力模块simam,计算公式如下:
[0016][0017]
其中,为输出特征,x为输入特征,e表示通道和空间上所有神经元最小能量函数的能量张量,单个神经元最小能量函数如公式(2)所示:
[0018][0019]
其中,t为目标神经元,λ为超参数,是所有神经元在单个通道上的平均值,是所有神经元在单个通道上的方差,如公式(3)和(4)所示:
[0020][0021][0022]
其中,m表示每个通道的神经元个数,xi表示输入特征图在单个通道上的第i个神经元。
[0023]
再进一步,在所述siou损失函数中,将真实框与预测框之间的角度偏差定义为角度损失,并加入距离损失的计算,即siou损失函数由角度损失(angle cost)、距离损失(distance cost)、形状损失(shape cost)和iou损失四部分组成,计算公式如下:
[0024][0025]
其中,iou为iou损失,δ为距离损失,ω为形状损失,三者的计算公式如下:
[0026]
[0027][0028][0029][0030]
其中,λ为角度损失,ch和cw分别为真实框与预测框最小外接矩形的高和宽,γ被赋予为时间有限的距离值,ρ
x
为真实框的宽与预测框的宽之间的差值在cw中的比重,ρy为真实框的高与预测框的高之间的差值在ch中的比重,x
gt
和y
gt
分别为真实框中心点的横纵坐标,x、y为预测框中心点的横纵坐标,σ为真实框和预测框中心点的距离,w
gt
和h
gt
为真实框的宽和高,w、h为预测框的宽和高,ωw为真实框的宽与预测框的宽之间的差值在两者最大值中所占的比重,ωh为真实框的高与预测框的高之间的差值在两者最大值中所占的比重,θ为控制对形状损失的关注程度。
[0031]
再进一步,所述siou损失函数中只有正样本参与损失函数的计算。
[0032]
更进一步,所述siou损失函数中优化正负样本分配策略,即在yolov7的正负样本分配策略基础上,综合考虑遥感图像目标的旋转不变性,将三个正样本候选框增加至四个正样本候选框。
[0033]
与现有技术相比,本发明具有以下优点:
[0034]
(1)为了改进yolov7网络提取遥感图像特征能力的不足,重新设计了d-elan模块。
[0035]
(2)为了减少遥感图像中背景噪声的干扰,在yolov7网络中融合了simam注意力机制,使网络能够关注遥感图像中更有价值的信息。
[0036]
(3)为了提高网络的收敛速度,使用siou损失函数来替换ciou损失函数。
[0037]
(4)为了改善遥感图像中小目标密集排列时的漏检问题,优化了正负样本分配策略。
[0038]
(5)本发明所提出的yolov7-rs优于现有的大多数方法,在nwpu vhr-10数据集和dota数据集上表现出具有竞争力的检测能力,能够较好地适应遥感图像的复杂性和多样性,表明了本方法的有效性。
附图说明
[0039]
图1是本发明基于yolov7-rs的遥感图像目标检测方法流程图;
[0040]
图2是本发明基于yolov7-rs的遥感图像目标检测方法网络结构图;
[0041]
图3是本发明d-elan模块和yolov7中elan模块的结构图对比;
[0042]
图4是本发明siou中真实框与预测框参数示意图;
[0043]
图5是正负样本策略优化示意图;
[0044]
图6是nwpu vhr-10数据集可视化结果对比图;
[0045]
图7是dota数据集可视化结果对比图。
具体实施方式
[0046]
为了便于理解本发明,下面将对本发明进行更全面的描述。但是,本发明可以以许
多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
[0047]
实施例1
[0048]
如图1所示,本发明的一种基于yolov7-rs的遥感图像目标检测方法,包括以下步骤:
[0049]
步骤1,获取遥感图像并对遥感图像进行预处理,即将图像缩放至640x640;
[0050]
步骤2,基于yolov7-rs网络结构(如图2所示),构建遥感图像目标检测模型,yolov7-rs网络结构包括d-elan模块、siou损失函数部分和输入端阶段、骨干网络阶段、颈部网络阶段、头部网络阶段;
[0051]
其中d-elan(deeply-elan)模块是根据cspnet的分割梯度流思想,对elan模块进行重新设计:第一条分支直接经过一个1x1的卷积;第二条分支在此基础上经过三组两个3x3的卷积,最后将1x1的卷积和三组3x3的卷积结果进行拼接,通过提高block利用率和增加网络深度的方式提升特征提取能力。d-elan模块和elan模块的结构图对比如图3所示。
[0052]
在骨干网络阶段中,引入融合通道注意力和空间注意力的三维注意力模块simam,计算公式如下:
[0053][0054]
其中,为输出特征,x为输入特征,e表示通道和空间上所有神经元最小能量函数的能量张量,单个神经元最小能量函数如公式(2)所示:
[0055][0056]
其中,t为目标神经元,λ为超参数,是所有神经元在单个通道上的平均值,是所有神经元在单个通道上的方差,如公式(3)和(4)所示:
[0057][0058][0059]
其中,m表示每个通道的神经元个数,xi表示输入特征图在单个通道上的第i个神经元。
[0060]
在siou损失函数中,将真实框与预测框之间的角度偏差定义为角度损失,并加入距离损失的计算,即siou损失函数由角度损失、距离损失、形状损失和iou损失四部分组成,计算公式如下:
[0061][0062]
其中,iou为iou损失,δ为距离损失,ω为形状损失,三者的计算公式如下:
[0063]
[0064][0065][0066][0067]
其中,λ为角度损失,ch和cw分别为真实框与预测框最小外接矩形的高和宽,γ被赋予为时间有限的距离值,ρ
x
为真实框的宽与预测框的宽之间的差值在cw中的比重,ρy为真实框的高与预测框的高之间的差值在ch中的比重,x
gt
和y
gt
分别为真实框中心点的横纵坐标,x、y为预测框中心点的横纵坐标,σ为真实框和预测框中心点的距离,w
gt
和h
gt
为真实框的宽和高,w、h为预测框的宽和高,ωw为真实框的宽与预测框的宽之间的差值在两者最大值中所占的比重,ωh为真实框的高与预测框的高之间的差值在两者最大值中所占的比重,θ为控制对形状损失的关注程度,参数范围为[2,6],各参数示意图如图4所示,左下方为预测框,右上方为真实框。
[0068]
siou损失函数中只有正样本参与损失函数的计算,通过优化正负样本分配策略来改善了遥感图像中小目标密集排列时的漏检问题。优化正负样本分配策略是在yolov7的正负样本分配策略基础上,综合考虑遥感目标的旋转不变性,将三个正样本候选框增加至四个正样本候选框,如图5所示,经过计算,在遥感图像旋转45
°
的情况下,正样本丢失率由原先的46%降低为28%。
[0069]
步骤3,将经过预处理的遥感图像连同权重文件输入构建的模型,进行遥感图像的目标检测,本实施例的权重文件为通过对nwpu vhr-10数据集和dota数据集迭代训练300个epoch所得到的最佳权重文件。
[0070]
实施例2
[0071]
在nwpu vhr-10数据集应用本发明提出的遥感图像目标检测网络模型,通过实验表明网络模型的有效性。
[0072]
nwpu vhr-10数据集由西北工业大学于2014年发布,图像提取自google earth和vaihingen,包括飞机(pl)、船舶(sh)、储罐(st)、棒球场(bd)、网球场(tc)、篮球场(bc)、地面跑道(gtf)、港口(ha)、桥梁(br)和车辆(ve)10个类别,800张遥感图像(含150张背景图)。数据标注采用hbb(horizontal bounding boxes,水平边界框)标注格式,共3651个实例。从数据集中随机划分90%作为训练集,10%作为测试集。
[0073]
在目标检测任务中通常用map(meanaverage precision)来衡量模型整体性能的好坏;map是数据集中多个类别的平均精度ap(avanrage precision)的平均值;每个类别可以根据precision和recall在0到1的坐标内绘制一条曲线,其与坐标轴围成的面积即为平均精度,如式(10)所示:
[0074][0075]
其中,准确率precision代表检测器中预测的正样本中tp的比例,如式(11)所示;召回率recall代表检测器中正确预测正样本占总样本数量的比例,如式(12)所示:
[0076]
[0077][0078]
式中tp为真正例,fn为假反例,fp为假正例。
[0079]
在nwpu vhr-10数据集上将本发明提出的yolov7-rs与ssd、faster r-cnn、yolov3、yolov5s、yolov7算法进行实验对比,结果如表1所示。
[0080]
表1不同算法在nwpu vhr-10数据集上的实验结果
[0081][0082]
由表1可知,yolov7-rs相比ssd、faster r-cnn、yolov3、yolov4、yolov5s、yolov7,map分别提升了14.3%、10.9%、20.3%、6.3%、5.3%、2.6%。yolov7-rs在各个类别的检测精度均在89%以上,整体检测精度较好,在飞机(pl)、储罐(st)的目标检测中,精度相较其他算法最优达到99.6%;相比于原始的yolov7,在飞机(pl)、储罐(st)、网球场(tc)、篮球场(bc)、车辆(ve)的检测精度上有所提升。
[0083]
通过大量实验对yolov7和yolov7-rs的检测结果进行对比并选取两组可视化结果来分析,如图6所示,左侧为yolov7算法检测结果,右侧为yolov7-rs算法检测结果。
[0084]
图6中(a)误将黄色地标检测为飞机,图6中(b)大桥漏检。yolov7-rs能够准确检测出目标,可见yolov7-rs有效提升了复杂背景下的检测效果。
[0085]
实施例3
[0086]
在dota数据集应用本发明提出的遥感图像目标检测网络模型,通过实验表明网络模型的有效性。
[0087]
dotav1.0数据集来自谷歌地球、中国资源卫星数据与应用中心提供的gf-2和jl-1卫星图像,以及cyclomedia b.v提供的航空图像,包括飞机(pl)、轮船(sh)、小型车辆(sv)、大型车辆(lv)、储油罐(st)、网球场(tc)、操场跑道(gtf)、桥梁(br)、环路(ra)、游泳池(sp)、棒球场(bd)、篮球场(bc)、港口(ha)、直升机(hc)和足球场(sbf)15个类别、2806幅来自不同传感器和平台的航空图像,图像大小从800x800到4000x4000不等,共188282个实例。本实施例采用dota_devkit对其hbb标注方式的数据集进行预处理,将原始图像裁剪为1024x1024、重叠像素为200的子图像,裁剪后分辨率未达到规定像素的图像通过像素填充的方式进行填充。处理后的训练集有15749张图片,测试集有5297张图片。
[0088]
在nwpu vhr-10数据集上将本发明提出的yolov7-rs与ssd、faster r-cnn、yolov3、yolov5s、yolov7算法进行实验对比,结果如表2所示。
[0089]
表2不同模型在dota数据集上的结果对比
[0090][0091]
由表2可知,yolov7-rs相比ssd、faster r-cnn、yolov3、yolov4、yolov5s、yolov7,map分别提升了21.7%、32.1%、9.6%、5.7%、4.6%、2.4%。yolov7-rs在棒球场(bd)、桥梁(br)、大型车辆(lv)、足球场(sbf)、环路(ra)的检测精度相较其他算法最优;相比于原始的yolov7,除了网球场(tc)、篮球场(bc)、储油罐(st)三个类别的检测精度上有0.1%-0.2%的下降之外,其余均有明显提升。
[0092]
通过大量实验对yolov7和yolov7-rs的检测结果进行对比并选取两组可视化结果来分析,如图7所示,左侧为yolov7算法检测结果,右侧为yolov7-rs算法检测结果。
[0093]
yolov7在图7中(a)检测到5个港口,图7中(b)检测到153辆小车和3辆大车。yolov7-rs在图7中(a)检测到5个港口和小车6辆,在图7中(b)检测到272辆小车和4辆大车,可见yolov7-rs有效改善了复杂背景和小目标密集排列情况下的漏检问题。
[0094]
综上所述,本发明所提出的yolov7-rs优于现有的大多数方法,nwpu vhr-10和dota数据集上的map达到95.4%和74.1%,能够较好地适应遥感图像的复杂性和多样性,表明了本方法的有效性。
技术特征:
1.一种基于yolov7-rs的遥感图像目标检测方法,其特征在于,包括以下步骤:步骤1,获取遥感图像并对遥感图像进行预处理;步骤2,基于yolov7-rs网络结构,构建遥感图像目标检测模型;步骤3,将经过预处理的遥感图像连同权重文件输入构建的模型,进行遥感图像的目标检测。2.根据权利要求1所述的一种基于yolov7-rs的遥感图像目标检测方法,其特征在于,所述步骤1中对遥感图像进行预处理,具体为:对获取的遥感图像缩放至640x640大小,不足的部分采用像素填充的方式进行补充。3.根据权利要求1所述的一种基于yolov7-rs的遥感图像目标检测方法,其特征在于,所述步骤1中yolov7-rs网络结构包括d-elan模块、siou损失函数部分和输入端阶段、骨干网络阶段、颈部网络阶段、头部网络阶段;所述d-elan模块的第一条分支直接经过一个1x1的卷积;第二条分支在此基础上经过三组两个3x3的卷积,最后将1x1的卷积和三组3x3的卷积结果进行拼接,通过提高block利用率和增加网络深度的方式提升特征提取能力。4.根据权利要求3所述的一种基于yolov7-rs的遥感图像目标检测方法,其特征在于,在所述骨干网络阶段中,引入融合通道注意力和空间注意力的三维注意力模块simam,计算公式如下:其中,为输出特征,x为输入特征,e表示通道和空间上所有神经元最小能量函数的能量张量,单个神经元最小能量函数如公式(2)所示:其中,t为目标神经元,λ为超参数,是所有神经元在单个通道上的平均值,是所有神经元在单个通道上的方差,如公式(3)和(4)所示:经元在单个通道上的方差,如公式(3)和(4)所示:其中,m表示每个通道的神经元个数,x
i
表示输入特征图在单个通道上的第i个神经元。5.根据权利要求3所述的一种基于yolov7-rs的遥感图像目标检测方法,其特征在于,在所述siou损失函数中,将真实框与预测框之间的角度偏差定义为角度损失,并加入距离损失的计算,即siou损失函数由角度损失、距离损失、形状损失和iou损失四部分组成,计算公式如下:其中,iou为iou损失,δ为距离损失,ω为形状损失,三者的计算公式如下:
其中,λ为角度损失,c
h
和c
w
分别为真实框与预测框最小外接矩形的高和宽,γ被赋予为时间有限的距离值,ρ
x
为真实框的宽与预测框的宽之间的差值在c
w
中的比重,ρ
y
为真实框的高与预测框的高之间的差值在c
h
中的比重,x
gt
和y
gt
分别为真实框中心点的横纵坐标,x、y为预测框中心点的横纵坐标,σ为真实框和预测框中心点的距离,σ为真实框和预测框中心点的距离,w
gt
和h
gt
为真实框的宽和高,w、h为预测框的宽和高,ω
w
为真实框的宽与预测框的宽之间的差值在两者最大值中所占的比重,ω
h
为真实框的高与预测框的高之间的差值在两者最大值中所占的比重,θ为控制对形状损失的关注程度。6.根据权利要求3所述的一种基于yolov7-rs的遥感图像目标检测方法,其特征在于,所述siou损失函数中只有正样本参与损失函数的计算。7.根据权利要求6所述的一种基于yolov7-rs的遥感图像目标检测方法,其特征在于,所述siou损失函数中优化正负样本分配策略,即在yolov7的正负样本分配策略基础上,综合考虑遥感图像目标的旋转不变性,将三个正样本候选框增加至四个正样本候选框。
技术总结
本发明属于计算机视觉技术领域,具体涉及一种基于YOLOv7-RS的遥感图像目标检测方法。为提高在遥感图像中目标检测的精度,本发明设计了一种基于YOLOv7-RS的遥感图像目标检测网络,在该网络中重新设计D-ELAN模块,在骨干网络中融合SimAM注意力机制,使用SIOU损失函数来替换CIOU损失函数,优化正负样本分配策略。优化正负样本分配策略。优化正负样本分配策略。
技术研发人员:梁琦 曹亚明 杨晓文 薛红新 贾彩琴 郭磊 孙福盛 焦世超 赵融
受保护的技术使用者:中北大学
技术研发日:2023.07.05
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
