一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质

未命名 07-12 阅读：98 评论：0

1.本发明涉及计算机视觉领域，具体涉及一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质。

背景技术：

2.光学遥感技术是指利用卫星、飞机、无人机等设备通过光学遥感传感器对地面进行大范围观测的一种技术，利用此技术能够高效的观测大范围的地面目标与资源。近些年来随着遥感成像技术的不断提高，遥感图像的分辨率与成像质量也不断上升，许多带有高质量标注的光学遥感图像数据开始出现，为遥感图像的目标检测，以及具体到目标子类别的细粒度识别技术提供了强有力的数据支撑。
3.遥感目标检测技术是遥感图像处理方面的一个基础性的任务，其目标是在遥感图像中寻找需要关注的目标，获取其在整个图像中的空间位置并做基本的分类识别。随着遥感技术的发展，在自然场景下应用广泛的细粒度识别技术，开始在遥感领域内取得突破。与粗粒度的识别技术相比，细粒度识别技术能够大幅度扩展遥感技术的应用范围。
4.现有的遥感目标检测方法有：
5.(1)光学遥感图像中的目标检测方法
6.遥感目标检测是通用的目标检测技术的一个分支，由于其独有的高空俯瞰视角，导致面向遥感图像的目标检测技术需要克服更多的难题。通常的基于faster rcnn的两阶段目标检测器的步骤为：首先通过卷积网络提取特征，通过区域建议网络rpn生成候选区域，再根据特征对候选区域进行分类和回归。但将该类方法应用到光学遥感图像中，无法适应遥感图像中朝向各异的旋转目标，需要额外的方法来编码锚框的方向信息；同时，遥感图像中存在大量的密集小目标，准确的检测该类目标也是难点之一。
7.(2)旋转目标检测
8.为了适应各种方向的遥感目标，rrpn将旋转的锚框引入到fasterrcnn中，该算法起初是应用于文本检测当中，但在遥感目标检测领域也有着不错的效果。其改进了锚框的表达方式，在原有的锚框参数(x，y，w，h)上，添加了旋转角度θ。其中x，y为锚框的中心点坐标，w,h为锚框的宽和高，θ为锚框与x轴正方向的夹角。由于此方法预置了6种旋转角度的参数，使得锚框的总参数量扩大了6倍，极大的增加了计算量，并且，此方法设置的锚框过多，过于冗余，造成了大量的资源浪费。
9.针对rrpn中锚框数量冗余的问题，又设计一个自学习的特征提取模块，通过旋转敏感的roialign将有方向的旋转不变的特征区域映射到水平特征区域，将其送入到最后的分类器中；此方法通过网络去学习旋转角度，不需要额外设置多种方向的锚框，解决了锚框冗余的问题，但是其网络本身的参数量也较大，同样有很大的计算量。
10.(3)旋转目标的特征对齐方法
11.refinedet网络通过由粗到细的方式来回归边界框，使得特征与候选框定位更加
精准，即先通过rpn网络得到粗粒度的锚框信息，然后再通过回归支路得到更加精确的边界框。但是refinedet两次回归得到的锚框不够精准，其用于回归的特征都是与感兴趣区域不对齐的特征。aligndet方法的第一步先对初始的锚框进行回归得到学习锚框(learned anchor)，此时的锚框已经比较接近真实的候选框了；第二步，aligndet采用了可变性卷积在卷积核加上此位置给定的偏移量，将卷积核映射到对齐后的位置上，使用对齐的特征回归最后的锚框位置，该方法提取的对象特征不够精准，无法反映物体具体的细节特征。
12.名称为“一种基于fpn与pan网络的双重注意力的遥感小目标检测方法”，公开号为「cn114821341a」的发明，首先对fpn网络中的顶层特征图进行池化得到通道向量，再将通道向量进行矩阵运算后得到通道注意力矩阵，接着将其归一化得到通道权重矩阵，并将该权重乘到特征图中得到带有通道权重的特征图，再与低层特征融合，在pan网络中首先对底层特征图进行通道压缩得到空间向量，再将空间向量进行矩阵运算后得到空间注意力矩阵，接着将其归一化得到空间权重矩阵，并将该权重乘到特征图中得到带有空间权重的特征图，再与高层特征融合，最后送往检测头生成检测结果；该种方法由于采用了fpn与pan双重结构的注意力机制，虽然在精度上有所上升，但是复杂的结构使得该方法具有计算量较大与模型结构臃肿的缺点。

技术实现要素：

13.为了克服上述现有技术的缺点，本发明的目的在于提供一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质，通过提供一种端到端的目标检测网络，将多尺度注意力模块mam与融合级联注意力模块fcam相结合，在新的旋转框的表示方法上，优化并改进了模型的损失函数，具有较少背景噪声对检测结果的影响，增强小目标的特征信息，改善各类小目标的检测精度，改善了正负样本不均衡问题，提升模型的平均检测精度，提高光学遥感目标检测性能的特点。
14.一种基于融合级联注意力机制的遥感小目标检测方法，包括以下步骤：
15.步骤1：输入图像进入特征提取网络，获得通道注意力机制与多尺度融合的多尺度融合特征图；
16.步骤2：将经过步骤1得到的通道注意力机制与多尺度融合的多尺度融合特征图，放入可旋转的区域候选网络中，针对候选网络定义新的旋转目标的检测方法和自定义损失函数，通过区域候选网络选取出包含目标的候选区域图；
17.步骤3：将经过步骤2得到的候选区域图进行分类预测和边界框回归，得到基于融合级联注意力机制的遥感小目标检测结果。
18.所述步骤1的特征提取网络是以resnet-50为骨干网络，经过优化后，得到多尺度注意力模块mam和融合级联注意力模块fcam；所述步骤1获得通道注意力机制与多尺度融合的多尺度融合特征图具体过程为：
19.步骤1.1：输入图像到特征提取网络的骨干网络resnet-50进行6层卷积操作，提取到第3、4层卷积操作后的特征图；
20.步骤1.2：根据步骤1.1提取到的第3、4层卷积操作后的特征图一起送入融合级联注意力模块fcam，得到带有融合多尺度特性的特征图；
21.步骤1.3：根据步骤1.2得到的带有融合多尺度特性的特征图，与经过骨干网络4层
卷积操作后得到的特征图通过逐元素相加的操作，得到多尺度融合特征图；
22.步骤1.4：输出步骤1.2中的带有融合多尺度特性的特征图、步骤1.3中多尺度融合特征图以及骨干网络6层卷积操作后的特征图，将上述特征图并行输出，得到多尺度融合特征图。
23.所述步骤1.2中融合级联注意力模块fcam的构建过程具体为：
24.步骤1.2.1：通过一个带孔洞的反卷积的操作，对骨干网络第4层进行卷积操作，输出特征图；
25.步骤1.2.2：将骨干网络第3层卷积操作输出后的特征图输入多尺度注意力模块mam1，得到特征图2，将经过步骤1.2.1得到特征图1与特征图2，用逐元素相加的方式进行融合，得到融合后的特征图，送入到多尺度注意力模块mam2，得到结合了注意力机制与多尺度融合的多尺度融合特征图。
26.所述的多尺度注意力模块mam1或mam2，是将通道注意力机制同改进的inception结构相结合，并行引入了带有跳跃链接的空间注意力模块；所述步骤1.2.2中的多尺度注意力模块mam1或mam2的具体构建过程为：
27.步骤1.2.2.1：输入特征图，对特征图采用1
×
1卷积压缩输入特征的维度，得到输出通道数减少的特征图；
28.步骤1.2.2.2：对步骤1.2.2.1输出的特征图利用1
×
1卷积、3
×
1卷积组合1
×
3卷积、5
×
1卷积组合1
×
5卷积，这三路卷积操作获取不同尺度的特征；
29.步骤1.2.2.3：对步骤1.2.2.2输出的3路不同尺度的特征，分别连接3
×
3的空洞卷积，输出2～10倍感受野的的特征；
30.步骤1.2.2.4：通过concat的方式将步骤1.2.2.3中输出的三路不同尺度的特征进行拼接，并再次通过1
×
1卷积调整维度，得到多尺度融合特征；
31.步骤1.2.2.5：将步骤1.2.2.4输出的多尺度融合特征与通道注意力机制分支输出的通道注意力特征图进行通道相加的操作，输出中间层的特征图；
32.步骤1.2.2.6：将步骤1.2.2.5中的中间层的特征图进行空间注意力的操作，最终输出多尺度注意力特征图。
33.所述步骤1.2.2.5中的通道注意力机制分支构建过程为：
34.步骤1.2.2.5.1：输入原始特征图，通过一个全局平均池化将原始特征图压缩为1维度向量的特征图；
35.步骤1.2.2.5.2：根据步骤1.2.2.5.1得到的特征图先通过两个全连接层，后进行relu激活函数运算，学习通道的重要权重，得到激活后的特征图；
36.步骤1.2.2.5.3：根据步骤1.2.2.5.2得到的激活特征图，通过sigmoid函数将权重映射到实数域得到不同层的激活特征；
37.步骤1.2.2.5.4：根据步骤1.2.2.5.3得到的不同层的激活特征通过逐元素相乘的方式，作用于fi，进行通道域内的特征选择作用，其计算公式如下所示，最终输出通道注意力特征图，其计算公式如下所示：
38.fc＝σ(mlp(avgpool(f)))，
39.其中σ为sigmoid函数，f为输入特征图，mlp为两个全连接层与relu激活函数构成的多层感知器，avgpool为全局平均池化操作。
40.所述步骤2中可旋转的区域候选网络的设计过程为：
41.步骤2.1：根据经过特征提取网络的多尺度融合特征图，连接1
×
1卷积，使得多尺度融合特征图的通道数由256转变为64，即h
×w×
256-＞h
×w×
64，得到通道数减少的特征图；
42.步骤2.2：根据经过步骤2.1得到通道数减少的特征图，采用滑窗的方式遍历每个像素点，在每个像素点上，以像素点为中心，按照预设的五种比例的水平锚框，生成候选的区域框图，后进行筛选，得到区域框图；
43.在每个空间位置上的所有层级的特征中设置了五种比例的水平锚框，即{3∶1，2∶1，1∶1，1∶2，1∶3}，对于每个不同位置的锚框，输出(x，w，h，δα，δβ)6个回归参数来为一个有向的锚框。
44.所述步骤2.2获得区域框图的表示方法为：
45.区域框图的表示方法即是中心点加偏移量的表示方法，该方法的坐标表示公式为：
[0046][0047]
其中x，y为锚框的中心点坐标，w，h分别为该有向锚框的外接水平矩形锚框的宽和高，δα和δβ分别表示有向锚框的顶边及右边的顶点，距离外接水平矩形锚框顶边及右边中点的偏移量，该值可正可负；(x1，y1)、(x2，y2)、(x3，y3)与(x4，y4)为有向边界框四个顶点的坐标。
[0048]
所述步骤2中的自定义的损失函数为：
[0049][0050]
其中，i是每个训练批次(batch)中锚框的编号，n是锚框的最大总量，pi是第i个锚框属于前景的概率，是第i个锚框的真实候选，是第i个锚框同真实候选框的差异也就是偏移量，f
reg
是smoothl1损失，其定义公式为：
[0051][0052]
一种基于融合级联注意力机制的遥感小目标检测系统，包括：
[0053]
特征提取模块：将输入的图像进行多尺度的特征提取，并将不同尺度的特整图融合，生成融合特征；
[0054]
区域候选模块：在特征提取模块生成的融合特征的基础上，寻找到目标所在的区域框图，将其送入分类预测模块；
[0055]
分类预测模块：将区域候选模块中送入的区域框图进行分类预测，得到基于融合
级联注意力机制的遥感小目标检测结果预测结果并输出。
[0056]
一种基于融合级联注意力机制的遥感小目标检测设备，包括：
[0057]
存储器，用于存储计算机程序；
[0058]
处理器，用于执行所述计算机程序时实现所述的种基于融合级联注意力机制的遥感小目标检测方法。
[0059]
一种计算机可读存储介质，包括：
[0060]
所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够对一种基于融合级联注意力机制的遥感小目标进行检测。
[0061]
相对于现有技术，本发明的有益效果在于：
[0062]
1.本发明针对光学遥感图像中背景复杂多样的问题，设计了多尺度注意力模块mam，可用于过滤无用特征；设计了融合级联注意力模块fcam，可获得更好的小目标检测能力；针对数据集类别极度不平衡的问题，在新的旋转框的表示方法上，优化并改进了模型的损失函数，提高了模型的平均检测性能，提升了光学遥感目标检测性能。
[0063]
2.本发明结合了inception网络以及通道域和空间域上的两种注意力机制的思路，设计了多尺度注意力模块mam，多尺度注意力模块mam可将通道注意力机制同改进的inception结构相结合，然后并行引入了一个带有跳跃链接的空间注意力模块，起到同时保留重要的通道信息与空间信息与扩大感受野的作用。
[0064]
3.本发明针对旋转目标的实现问题，改进了区域候选网络以适应极端长宽比的目标，设计可选转的区域候选网络，即在特征金字塔的每一层都分别连接1个3
×
3卷积和两个并行的1
×
1卷积去学习有向的锚框，为了适应更多的极限长宽比的目标，在每个空间位置上的所有层级的特征中设置了五种比例的水平锚框，即{3:1,2:1,1:1,1:2,1:3}，对于每个不同位置的锚框，输出(x，w，h，δα，δβ)6个回归参数来表示一个有向的锚框，可旋转的区域候选网络的损失函数定义为可实现极端长宽比的目标。
[0065]
4.本发明在卷积神经网络中，通过一系列的卷积、非线性激活函数、可旋转的区域候选特征网络的互相连接，能够提取到图像中各个位置的空间信息和通道信息，实现了通过一种机制来提取到具有强判别性的多尺度特征。
[0066]
5.本发明中inception结构通过加宽网络的方式，在保证模型质量的前提下，减少参数个数，提升了高维特征的提取能力，通过进行多尺度卷积以及池化的操作来得到不同尺度的特征，最后将这些特征进行融合叠加，即通过将稀疏矩阵聚类为较为密集的子矩阵的方式提高了计算性能。
[0067]
6.本发明通过注意力机制模仿了人眼对物体的观察方式，学习人眼对重点区域额外关注的特性，设计了能够强化局部的空间区域的方法，通过一个可以自学习的网络，学习各个位置的权重信息，从而抑制无用的背景等特征，并强化稀少的小目标等物体的特征，从而使得整个特征图具有更强的判别性。
[0068]
7.本发明通过提供一种端到端的目标检测网络，将多尺度注意力模块mam与融合级联注意力模块fcam相结合，在新的旋转框的表示方法上，优化并改进了模型的损失函数，因此可以对复杂背景下的各类目标有着较为精准的检测效果，经过实验也验证了本发明的
鲁棒性与有效性。
附图说明
[0069]
图1为本发明的方法流程图。
[0070]
图2为本发明的特征提取网络结构图。
[0071]
图3为本发明的融合级联注意力模块fcam结构图。
[0072]
图4为本发明的多尺度注意力模块mam结构图。
[0073]
图5为本发明的可旋转的区域候选网络图。
[0074]
图6为本发明dota数据集上的可视化结果图。
[0075]
图7为本发明与当前同领域方法性能的对比图。
具体实施方式
[0076]
下面结合附图对本发明的工作原理作详细叙述。
[0077]
参见图1，一种基于融合级联注意力机制的遥感小目标检测方法，包括以下步骤：
[0078]
步骤1：输入图像进入特征提取网络，获得注意力机制与多尺度融合的多尺度融合特征图；
[0079]
步骤2：将经过步骤1得到的注意力机制与多尺度融合的多尺度融合特征图，放入可旋转的区域候选网络中，针对候选网络定义新的旋转目标的检测方法和自定义损失函数，通过该网络选取出包含目标的候选区域图；
[0080]
步骤3：将经过步骤2处理得到的候选区域图进行分类预测和边界框回归，得到基于融合级联注意力机制的遥感小目标检测结果；注意力机制模仿了人眼对物体的观察方式，学习人眼对重点区域额外关注的特性，设计了能够强化局部的空间区域的方法，通过一个可以自学习的网络，学习各个位置的权重信息，从而抑制无用的背景等特征，并强化稀少的小目标等物体的特征，从而使得整个特征图具有更强的判别性。
[0081]
所述步骤1的特征提取网络是以resnet-50为骨干网络，经过优化后，得到多尺度注意力模块mam和融合级联注意力模块fcam；设计了多尺度注意力模块mam，可用于过滤无用特征；设计了融合级联注意力模块fcam，可获得更好的小目标检测能力。
[0082]
参见图2，所述步骤1获得注意力机制与多尺度融合的多尺度融合特征图具体过程为：
[0083]
步骤1.1：输入图像到特征提取网络的骨干网络resnet-50进行6层卷积操作，提取到第3、4层卷积操作后的特征图；
[0084]
步骤1.2：根据步骤1.1提取到的第3、4层卷积操作后的特征图一起送入融合级联注意力模块fcam，得到带有融合多尺度特性的特征图；
[0085]
步骤1.3：根据步骤1.2得到的带有融合多尺度特性的特征图，与经过骨干网络4层卷积操作后得到的特征图进行通道相加的操作，得到多尺度融合特征图；
[0086]
步骤1.4：输出步骤1.2中的带有融合多尺度特性的特征图、步骤1.3中多尺度融合特征图以及骨干网络6层卷积操作后的特征图，将上述特征图并行输出，得到多尺度融合特征图；所述步骤1的特征提取网络是以resnet-50为骨干网络，经过优化后，得到多尺度注意力模块mam和融合级联注意力模块fcam。
[0087]
参见图3，所述步骤1.2中融合级联注意力模块fcam的构建过程具体为：
[0088]
步骤1.2.1：通过一个带孔洞的反卷积的操作，对骨干网络第4层卷积操作，输出特征图，即c4层特征图进行两倍上采样，输出特征图1；
[0089]
步骤1.2.2：将骨干网络第3层卷积操作输出后的特征图输入多尺度注意力模块mam1，得到特征图2，将经过步骤1.2.1得到特征图1与特征图2，用逐元素相加的方式进行融合，得到融合后的特征图，送入到多尺度注意力模块mam2，得到结合了注意力机制与多尺度融合的多尺度融合特征图；可增强融合特征的语义信息，提升小尺度目标的特征数量；
[0090]
在骨干网络的c3和c4层上添加了融合级联注意力模块fcam，通过此类模块的串联设计，可以提升多尺度的特征提取能力，从而改善小目标多，分布稠密的问题。
[0091]
参见图4，所述步骤1.2.2中的多尺度注意力模块mam1和mam2的具体构建过程为：
[0092]
步骤1.2.2.1：输入特征图，对特征图采用1
×
1卷积压缩输入特征的维度，可减少计算量，得到输出通道数减少的特征图；
[0093]
步骤1.2.2.2：对步骤1.2.2.1输出的特征图利用1
×
1卷积、3
×
1卷积组合1
×
3卷积、5
×
1卷积组合1
×
5卷积，这三路卷积操作获取不同尺度的特征；
[0094]
步骤1.2.2.3：对步骤1.2.2.2输出的3路不同尺度的特征，分别连接3
×
3的空洞卷积，输出2～10倍感受野的的特征，可进一步提升网络的感受野与深层特征提取能力，并且控制计算量的提升；
[0095]
步骤1.2.2.4：通过concat的方式将步骤1.2.2.3中输出的三路不同尺度的特征进行拼接，并再次通过1
×
1卷积调整维度，得到多尺度融合特征；
[0096]
步骤1.2.2.5：将步骤1.2.2.4输出的多尺度融合特征与通道注意力机制分支输出的通道注意力特征图进行通道相加的操作，输出中间层的特征图；
[0097]
步骤1.2.2.6：将步骤1.2.2.5中的中间层的特征图进行空间注意力的操作，最终输出多尺度注意力特征图；
[0098]
多尺度注意力模块mam1或mam2，是将通道注意力机制同改进的inception结构相结合，并行引入了带有跳跃链接的空间注意力模块；结合了inception网络以及通道域和空间域上的两种注意力机制的思路，设计了多尺度注意力模块mam即mam1和mam2，多尺度注意力模块mam可将通道注意力机制同改进的inception结构相结合，然后并行引入了一个带有跳跃链接的空间注意力模块，起到同时保留重要的通道信息与空间信息与扩大感受野的作用；inception结构通过加宽网络的方式，在保证模型质量的前提下，减少参数个数，提升了高维特征的提取能力，通过进行多尺度卷积以及池化的操作来得到不同尺度的特征，最后将这些特征进行融合叠加，即通过将稀疏矩阵聚类为较为密集的子矩阵的方式提高了计算性能。
[0099]
所述步骤1.2.2.5中的通道注意力机制分支构建过程为：
[0100]
步骤1.2.2.5.1：输入原始特征图，通过一个全局平均池化将原始特征图压缩为1维度向量的特征图；
[0101]
步骤1.2.2.5.2：根据步骤1.2.2.5.1得到的特征图先通过两个全连接层，后进行relu激活函数运算，学习通道的重要权重，得到激活后的特征图；
[0102]
步骤1.2.2.5.3：根据步骤1.2.2.5.2得到的激活特征图，通过sigmoid函数将权重映射到实数域得到不同层的激活特征；
[0103]
步骤1.2.2.5.4：根据步骤1.2.2.5.3得到的不同层的激活特征通过逐元素相乘的方式，作用于fi，进行通道域内的特征选择作用，其计算公式如下所示，最终输出通道注意力特征图，其计算公式如下所示：
[0104]
fc＝σ(mlp(avgpool(f)))，
[0105]
其中σ为sigmoid函数，f为输入特征图，mlp为两个全连接层与relu激活函数构成的多层感知器，avgpool为全局平均池化操作。
[0106]
参见图5，所述可旋转的区域候选网络的设计过程为：
[0107]
步骤2.1：根据经过特征提取网络的多尺度融合特征图，连接1
×
1卷积，使得多尺度融合特征图的通道数由256转变为64，即h
×w×
256—》h
×w×
64，得到通道数减少的特征图；
[0108]
步骤2.2：根据经过步骤2.1得到通道数减少的特征图，采用滑窗的方式遍历每个像素点，在每个像素点上，以像素点为中心，按照预设的五种比例的水平锚框，生成候选的区域框图，后进行训练拟合，得到区域框图，即图中的decoding过程；以一个点(x,y)为例，在每个空间位置上的所有层级的特征中设置了五种比例的水平锚框，即{3:1,2:1,1:1,1:2,1:3}，对于每个不同位置的锚框，输出(x,w,h,δα,δβ)6个回归参数来表示一个有向的锚框，可实现极端长宽比的目标。
[0109]
所述步骤2.2区域框图的表示方法即中心点加偏移量的表示方法，该方法的坐标表示公式如下所示：
[0110][0111]
其中，x,y为锚框的中心点坐标，w,h分别为该有向锚框的外接水平矩形锚框的宽和高，δα和δβ分别表示有向锚框的顶边及右边的顶点，距离外接水平矩形锚框顶边及右边中点的偏移量，该值可正可负；(x1,y1)、(x2,y2)、(x3,y3)与(x4,y4)为有向边界框四个顶点的坐标。
[0112]
所述步骤2中的自定义的损失函数为：
[0113][0114]
其中，i是每个训练批次(batch)中锚框的编号，n是锚框的最大总量，pi是第i个锚框属于前景的概率，是第i个锚框的真实候选，是第i个锚框同真实候选框的差异也就是偏移量，f
reg
是smooth l1损失，其定义公式为：
[0115][0116]
为了验证本发明提出的旋转的多尺度注意力网络的有效性和可行性，在dota数据集、ucas-aod数据集以及hrsc2016数据集上进行实验。
[0117]
在dota数据集上，先针对粗粒度的目标检测问题，验证本方法的小目标检测能力；然后，在hrsc2016数据集上进行舰船检测实验，再扩展到细粒度识别任务上做初步的验证；最后，在ucas-aod数据集上进行泛化实验，验证方法的鲁棒性。
[0118]
为了评估遥感图像目标检测模型的性能，将旋转多尺度注意力网络rman与目前针对遥感目标检测所设计的一些优秀方法进行对比，在dota数据集上，对比了cad-net、scr-det、drn以及r3-det。
[0119]
试验结果如表所示：
[0120][0121]
其中，15类目标分别为：飞机(pl)、棒球场(bd)、桥梁(br)、田径场(gtf)、小型车辆(sv)、大型车辆(lv)、船只(sh)、网球场(tc)、篮球场(bc)、油罐(st)、足球场(sbf)、交叉路口(ra)、港口(ha)、游泳池(sp)和直升机(hc)；
[0122]
从上表可以看出，本发明多尺度注意力网络rman在dota数据集上的平均精度值达到了73.34％，比r3det的平均精度高1.38％，在每个测试结果中，多尺度注意力网络rman在sv、lv、tc、st和ha类别中取得了最好的性能；在小型车辆类中，多尺度注意力网络rman的精度达到了74.21％，比drn高0.73％；在油罐类中，多尺度注意力网络rman的ap达到了88.53％，比scrdet的精度高1.67％。
[0123]
参见图6，图(a)是针对密集分布的车辆类别的目标，本发明对图片中存在的车辆
类别目标精准的选中，其中黄色框体选中的是小型货车，绿色框体选中的是大型货车，并对其类别做出了正确的判断；图(b)是针对密集分布的船舶类目标，其中绿色框体选中的是船类目标，蓝色框体选中的是港口目标，可以看出本发明准确的寻找到目标并做出了正确的判别；图(c)针对的是不同类别、尺度的目标，黄色框体选中的是小型火车目标，浅绿色框体选中的是船类目标，深绿色框体选中的是网球场目标；可以看出本发明准确并完整的对目标进行框选，并且做出了正确的分类；图(d)深绿色框体选中的是网球场目标，黄色框体选中的是小型货车目标，可以看出本发明对复杂背景下的各类目标有着较为精准的检测效果。
[0124]
参见图7，与dota数据集不同，hrsc2016数据集中的对象多为纵横比很大的舰船目标，并且其朝向各异；在hrsc2016数据集上进行二分类检测时，多尺度注意力网络rman在hrsc216数据集上的准确率达到93.3％，比drn高0.6％。
[0125]
为了验证泛化能力，本发明使用多尺度注意力网络rman在ucas-aod数据集上进行跨数据集验证，结果如表2所示：
[0126]
算法dota(map％)ucas-aod(map％)drn70.7085.73r3det71.6983.16rman(ours)73.3487.24
[0127]
表2：ucas-aod数据集上的泛化验证结果
[0128]
本实施例提出的模型是在dota数据集上进行训练的，但在ucas-aod数据集上取得了很好的效果，提升了整体的检测精度；
[0129]
此外，在dota数据集上进行了消融实验，以验证本节所提出的模块与优化方法对算法的整体影响，实验结果如表3所示：
[0130][0131]
表3：在dota数据集上的消融实验结果
[0132]
由表3可知，改进的损失函数使map提高了2.27％，在此基础上，多尺度注意力模块mam使map提高了2.83％，结合了多尺度注意力模块mam与融合级联注意力模块fcam的方法，自顶向下的结合了深、浅层特征，相比于只采用了改进的损失函数的方法，使得检测精度整体上提高了6.30％。总的来说，改进的损失函数、多尺度注意力模块mam和融合级联注意力模块fcam的组合使map比基线增加了11.02％。
[0133]
一种基于融合级联注意力机制的遥感小目标检测系统，包括：
[0134]
特征提取模块：将输入的图像进行多尺度的特征提取，并将不同尺度的特整图融
合，生成融合特征；
[0135]
区域候选模块：在特征提取模块生成的融合特征的基础上，寻找到目标所在的区域框图，将其送入分类预测模块；
[0136]
分类预测模块：将区域候选模块中送入的区域框图进行分类预测，得出预测结果并进行输出。
[0137]
一种基于融合级联注意力机制的遥感小目标检测设备，包括：
[0138]
存储器，用于存储计算机程序；
[0139]
处理器，用于执行所述计算机程序时实现所述的一种基于融合级联注意力机制的遥感小目标检测方法。
[0140]
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够对一种基于融合级联注意力机制的遥感小目标进行检测。
[0141]
所称处理器可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器也可以是任何常规的处理器等，所述处理器是所述一种基于融合级联注意力机制的遥感小目标检测设备的控制中心，利用各种接口和线路连接整个一种基于融合级联注意力机制的遥感小目标检测设备的各个部分。
[0142]
所述处理器执行所述计算机程序时实现上述一种基于融合级联注意力机制的遥感小目标检测方法的步骤，例如：输入图像进入特征提取网络，获得通道注意力机制与多尺度融合的多尺度融合特征图；将经过步骤1得到的通道注意力机制与多尺度融合的多尺度融合特征图，放入可旋转的区域候选网络中，针对候选网络定义新的旋转目标的检测方法和自定义损失函数，通过对区域候选网络选取出包含目标的候选区域图；实现了所述得到基于融合级联注意力机制的遥感小目标检测结果。
[0143]
或者，所述处理器执行所述计算机程序时实现上述系统中各模块的功能，例如：特征提取模块：将输入的图像进行多尺度的特征提取，并将不同尺度的特整图融合，生成融合特征；区域候选模块：在特征提取模块生成的融合特征的基础上，寻找到目标所在的区域框图，将其送入分类预测模块；分类预测模块：将区域候选模块中送入的区域框图进行分类预测，得到基于融合级联注意力机制的遥感小目标检测结果预测结果并输出；输出得到所述一种基于融合级联注意力机制的遥感小目标检测结果。
[0144]
示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成预设功能的一系列计算机程序指令段，所述指令段用于描述所述计算机程序在所述一种基于融合级联注意力机制的遥感小目标检测的设备中的执行过程。例如，所述计算机程序可以被分割成特征提取模块、区域候选模块、分类预测模块，各模块具体功能如下：特征提取模块：将输入的图像进行多尺度的特征提取，并将不同尺度的特整图融合，生成融合特征；区域候选模块：在特征提取模块生成的融合特征的基础上，寻找到目标所在的区域框图，将其送入分类预测模块；分类预测模块：将区域候选模块中送入
的区域框图进行分类预测，得到基于融合级联注意力机制的遥感小目标检测结果预测结果并输出；输出得到所述一种基于融合级联注意力机制的遥感小目标检测系统的结果。
[0145]
所述一种基于融合级联注意力机制的遥感小目标检测设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述一种基于融合级联注意力机制的遥感小目标检测设备可包括，但不仅限于处理器、存储器。本领域技术人员可以理解，上述是一种基于融合级联注意力机制的遥感小目标检测设备的示例，并不构成对一种基于融合级联注意力机制的遥感小目标检测设备的限定，可以包括比上述更多的部件，或者组合某些部件，或者不同的部件，例如所述一种基于融合级联注意力机制的遥感小目标检测设备还可以包括输入输出设备、网络接入设备、总线等。
[0146]
所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种基于融合级联注意力机制的遥感小目标检测设备的各种功能。
[0147]
所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smartmedia card,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0148]
本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述的一种基于融合级联注意力机制的遥感小目标检测的方法的步骤。
[0149]
所述一种基于融合级联注意力机制的遥感小目标检测系统集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。
[0150]
本发明实现上述一种基于融合级联注意力机制的遥感小目标检测方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，所述计算机程序在被处理器执行时，可实现上述一种基于融合级联注意力机制的遥感小目标检测方法的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或预设中间形式等。
[0151]
所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-onlymemory，rom)、随机存取存储器(random accessmemory，ram)、电载波信号、电信信号以及软件分发介质等。
[0152]
需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。
[0153]
应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系
统，例如微处理器或者专用设计硬件来执行。
[0154]
本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

技术特征：
1.一种基于融合级联注意力机制的遥感小目标检测方法，其特征在于，包括以下步骤：步骤1：输入图像进入特征提取网络，获得通道注意力机制与多尺度融合的多尺度融合特征图；步骤2：将经过步骤1得到的通道注意力机制与多尺度融合的多尺度融合特征图，放入可旋转的区域候选网络中，针对候选网络定义新的旋转目标的检测方法和自定义损失函数，通过区域候选网络选取出包含目标的候选区域图；步骤3：将经过步骤2得到的候选区域图进行分类预测和边界框回归，得到基于融合级联注意力机制的遥感小目标检测结果。2.根据权利要求1所述的一种基于融合级联注意力机制的遥感小目标检测方法，其特征在于，所述步骤1的特征提取网络是以resnet-50为骨干网络，经过优化后，得到多尺度注意力模块mam和融合级联注意力模块fcam；所述步骤1获得通道注意力机制与多尺度融合的多尺度融合特征图具体过程为：步骤1.1：输入图像到特征提取网络的骨干网络resnet-50进行6层卷积操作，提取到第3、4层卷积操作后的特征图；步骤1.2：根据步骤1.1提取到的第3、4层卷积操作后的特征图一起送入融合级联注意力模块fcam，得到带有融合多尺度特性的特征图；步骤1.3：根据步骤1.2得到的带有融合多尺度特性的特征图，与经过骨干网络4层卷积操作后得到的特征图通过逐元素相加的操作，得到多尺度融合特征图；步骤1.4：输出步骤1.2中的带有融合多尺度特性的特征图、步骤1.3中多尺度融合特征图以及骨干网络6层卷积操作后的特征图，将上述特征图并行输出，得到多尺度融合特征图。3.根据权利要求2所述的一种基于融合级联注意力机制的遥感小目标检测方法，其特征在于，所述步骤1.2中融合级联注意力模块fcam的构建过程具体为：步骤1.2.1：通过一个带孔洞的反卷积的操作，对骨干网络第4层进行卷积操作，输出特征图；步骤1.2.2：将骨干网络第3层卷积操作输出后的特征图输入多尺度注意力模块mam1，得到特征图2，将经过步骤1.2.1得到特征图1与特征图2，用逐元素相加的方式进行融合，得到融合后的特征图，送入到多尺度注意力模块mam2，得到结合了注意力机制与多尺度融合的多尺度融合特征图。4.根据权利要求3所述的一种基于融合级联注意力机制的遥感小目标检测方法，其特征在于，所述的多尺度注意力模块mam1或mam2，是将通道注意力机制同改进的inception结构相结合，并行引入了带有跳跃链接的空间注意力模块；所述步骤1.2.2中的多尺度注意力模块mam1或mam2的具体构建过程为：步骤1.2.2.1：输入特征图，对特征图采用1
×
1卷积压缩输入特征的维度，得到输出通道数减少的特征图；步骤1.2.2.2：对步骤1.2.2.1输出的特征图利用1
×
1卷积、3
×
1卷积组合1
×
3卷积、5
×
1卷积组合1
×
5卷积，这三路卷积操作获取不同尺度的特征；步骤1.2.2.3：对步骤1.2.2.2输出的3路不同尺度的特征，分别连接3
×
3的空洞卷积，输出2～10倍感受野的特征；
步骤1.2.2.4：通过concat的方式将步骤1.2.2.3中输出的三路不同尺度的特征进行拼接，并再次通过1
×
1卷积调整维度，得到多尺度融合特征；步骤1.2.2.5：将步骤1.2.2.4输出的多尺度融合特征与通道注意力机制分支输出的通道注意力特征图进行通道相加的操作，输出中间层的特征图；步骤1.2.2.6：将步骤1.2.2.5中的中间层的特征图进行空间注意力的操作，最终输出多尺度注意力特征图。5.根据权利要求4所述的一种基于融合级联注意力机制的遥感小目标检测方法，其特征在于，所述步骤1.2.2.5中的通道注意力机制分支构建过程为：步骤1.2.2.5.1：输入原始特征图，通过一个全局平均池化将原始特征图压缩为1维度向量的特征图；步骤1.2.2.5.2：根据步骤1.2.2.5.1得到的特征图先通过两个全连接层，后进行relu激活函数运算，学习通道的重要权重，得到激活后的特征图；步骤1.2.2.5.3：根据步骤1.2.2.5.2得到的激活特征图，通过sigmoid函数将权重映射到实数域得到不同层的激活特征；步骤1.2.2.5.4：根据步骤1.2.2.5.3得到的不同层的激活特征通过逐元素相乘的方式，作用于f
i
，进行通道域内的特征选择作用，其计算公式如下所示，最终输出通道注意力特征图，其计算公式如下所示：f
c
＝σ(mlp(avgpool(f)))，其中，σ为sigmoid函数，f为输入特征图，mlp为两个全连接层与relu激活函数构成的多层感知器，avgpool为全局平均池化操作。6.根据权利要求1所述的一种基于融合级联注意力机制的遥感小目标检测方法，其特征在于，所述步骤2中可旋转的区域候选网络的设计过程为：步骤2.1：根据经过特征提取网络的多尺度融合特征图，连接1
×
1卷积，使得多尺度融合特征图的通道数由256转变为64，即h
×
w
×
256—>h
×
w
×
64，得到通道数减少的特征图；步骤2.2：根据经过步骤2.1得到通道数减少的特征图，采用滑窗的方式遍历每个像素点，在每个像素点上，以像素点为中心，按照预设的五种比例的水平锚框，生成候选的区域框图，后进行筛选，得到区域框图；在每个空间位置上的所有层级的特征中设置了五种比例的水平锚框，即{3:1,2:1,1:1,1:2,1:3}，对于每个不同位置的锚框，输出(x,w,h,δα,δβ)6个回归参数来表示一个有向的锚框；所述步骤2.2获得区域框图的表示方法为：区域框图的表示方法即是中心点加偏移量的表示方法，该方法的坐标表示公式为：其中，x,y为锚框的中心点坐标，w,h分别为该有向锚框的外接水平矩形锚框的宽和高，δα和δβ分别表示有向锚框的顶边及右边的顶点，距离外接水平矩形锚框顶边及右边中点
的偏移量，该值可正可负；(x1,y1)、(x2,y2)、(x3,y3)与(x4,y4)为有向边界框四个顶点的坐标。7.根据权利要求1所述的一种基于融合级联注意力机制的遥感小目标检测方法，其特征在于，所述步骤2中的自定义的损失函数为：其中，i是每个训练批次(batch)中锚框的编号，n是锚框的最大总量，p
i
是第i个锚框属于前景的概率，是第i个锚框的真实候选，是第i个锚框同真实候选框的差异也就是偏移量，f
reg
是smooth l1损失，其定义公式为：8.一种基于融合级联注意力机制的遥感小目标检测系统，其特征在于，包括：特征提取模块：将输入的图像进行多尺度的特征提取，并将不同尺度的特整图融合，生成融合特征；区域候选模块：在特征提取模块生成的融合特征的基础上，寻找到目标所在的区域框图，将其送入分类预测模块；分类预测模块：将区域候选模块中送入的区域框图进行分类预测，得到基于融合级联注意力机制的遥感小目标检测结果预测结果并输出。9.一种基于融合级联注意力机制的遥感小目标检测设备，其特征在于，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现所述的权利要求1-7一种基于融合级联注意力机制的遥感小目标检测方法。10.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够对权利要求1-7一种基于融合级联注意力机制的遥感小目标进行检测。

技术总结
一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质，方法为：输入图像进入特征提取网络，获得多尺度融合特征图，放入可旋转区域候选网络，定义新的旋转目标检测方法和自定义损失函数，选出包含目标的候选区域图，对其进行分类预测和边界框回归，得到检测结果；系统、设备及介质，用于实现一种基于融合级联注意力机制的遥感小目标检测方法；本发明通过提供一种端到端的目标检测网络，将多尺度注意力模块MAM与融合级联注意力模块FCAM结合，在新的旋转框表示方法上，优化并改进模型的损失函数；具有减少背景噪声对检测结果的影响，增强小目标特征信息，改善正负样本不均衡，提升模型平均检测精度，提高光学遥感目标检测性能的特点。检测性能的特点。检测性能的特点。

技术研发人员：纪建杨勇曾璞罗迈徐贺凯康宇翰苗启广
受保护的技术使用者：西安电子科技大学
技术研发日：2023.03.20
技术公布日：2023/7/7

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表