一种多模型融合的遥感影像分类方法

未命名 07-27 阅读:154 评论:0


1.本发明涉及一种多模型融合的遥感影像分类方法,属于遥感影像分类技术领域。


背景技术:

2.随着遥感卫星技术的不断发展,越来越多的遥感卫星进入人们的视野,同时更多先进的传感器逐渐应用其中,使得人们获得高分辨率的遥感数据变得愈发的便捷。遥感影像得益于分辨率的优势,能够提供更为丰富的地物表面特征(比如形状、纹理、大小等),这就使得影像中相关特征间的关系表达更为精细。特别是高空间分辨率的遥感影像包含了大量的细节信息,能够从更为广阔的视角实施对地观测,为专业人员提供更为详尽的原始影像资料,便于后期的分析与应用。遥感影像分类便是诸多后期应用中最为常见的一种,它旨在提取地物的特征信息并加以充分利用,将图像像元按照一定规则进行分类。该技术已经广泛的应用在可视化表达、陆地覆盖分析和土地规划等诸多领域。但是,丰富信息的背后同样带来了海量数据的处理难题,如何从复杂影像中准确的提取准确的类别信息,仍然是遥感影像分类领域的难题。
3.传统的遥感影像分类方法结合影像中的低阶特征信息(如灰度、纹理等),通过人工设计的方式(如稀疏编码、fisher特征等),获取有用的分类信息。传统方法的工作主要集中在滤波器的设计和具有良好表达能力的特征提取两个方面。视觉词袋模型(bag of visual word,bovw)便是传统方法中最具代表性的模型之一,bovw提取影像的局部特征,形成无序字典进行识别,并且有人将bovw模型应用到遥感场景识别当中,结合空间结构信息取得了良好的实验效果。为了解决空间结构信息的缺失问题,有人设计了空间金字塔匹配核(spatial pyramid match kernel,spmk)模型,依据不同分辨率对应影像进行分割,而后计算分割块的局部特征直方图,从而实现影像分类。然而,这些传统方法中所使用的低阶特征表达能力极为有限,难以应对同物异谱、异物同谱等复杂的遥感分类场景;并且手工设计的特征过分依赖设计人员的经验,不能充分表达复杂影像的全部信息,缺乏对遥感数据细节信息的考虑。
4.近年来,随着深度学习技术的不断发展,基于深度学习的遥感影像分类方法取得了长足的进步,成为解决传统方法局限性的一种替代方案。它的成功之处在于能够以端到端的方式从大量标记的训练数据中学习到人眼不可见的高阶语义特征。这些特征具有高度的表达能力和泛化性,能够提供丰富的分类信息;而通过网络学习的方式进行特征学习,降低了传统方法中对于专业知识的依赖程度。然而,对于高分辨率遥感影像而言,完全从头开始设计并训练网络模型是一项艰巨的任务,需要依赖大量带有标签数据,并需要大量的时间成本才能完成。为此,研究人员还将预训练深度学习网络引入到任务中来,并取得了较好的效果。遥感影像分类的预训练模型使用可分为两种方式:第一种是将在自然影像数据集上训练好的网络直接作为特征提取器。第二种是采用预训练好的网络模型,利用遥感影像对其参数进行微调。
5.但是,预训练模型大都是在自然影像数据集上训练获得,所提取出的深度特征对
遥感影像而言,可能存在冗余和不适用的问题,并且不同的预训练模型所提取的深度信息具有不同的关注范围,因此,模型融合成为提升性能的一种可能性。模型融合是指采用多种模型对同一影像空间进行提取特征,进而进行优化和组合。不同模型从相同影像空间提取的特征具备不同的特征表达。这种特征融合策略不仅保留了多组特征的有用信息,同时还消除了特征向量之间的信息冗余,有助于提升模型的分类性能。常用的模型融合方法分为串行和并行两种,就是简单的通过连接或平均特征的方式实现。
6.现有的模型融合简单,很容易实现,但它们没有考虑到来自不同模型的对应特征之间的相关性,使得最终分类的准确性较低。


技术实现要素:

7.本技术的目的在于提供一种多模型融合的遥感影像分类方法,用以解决现有模型融合进行遥感影像分类的方法准确性低的问题。
8.为实现上述目的,本技术提出了一种多模型融合的遥感影像分类方法的技术方案,包括以下步骤:
9.1)获取待分类的遥感影像;
10.2)将待分类的遥感影像输入训练好的分类模型中得到分类结果,所述分类模型包括至少两个基于cnn模型的基础模型、融合器、解码器和门控单元;各基础模型中均包括若干依次设置的编码卷积层,且各基础模型中编码卷积层的数量相同,若干编码卷积层用于输出不同大小的特征提取结果;融合器用于进行特征融合;解码器包括若干依次设置的解码卷积层,用于生成分类空间所用的编码信息;门控单元用于通过门控卷积实现基础模型和解码器的跳跃链接;
11.其中,各基础模型中部分对应的编码卷积层的特征提取结果拼接后通过门控单元与解码器相应的解码卷积层的输出端拼接;各基础模型中部分对应的编码卷积层的特征提取结果与融合器的输入端拼接;各基础模型中部分对应的编码卷积层的特征提取结果与融合器的输出端拼接。
12.本发明的多模型融合的遥感影像分类方法的技术方案的有益效果是:本发明对遥感影像进行分类时采用了多模型融合的分类模型,并且分类模型中各基础模型中对应的编码卷积层的特征提取结果拼接后分为至少三种连接,一种通过门控单元与解码器对应的解码卷积层的输出端连接;一种与融合器的输入端拼接;一种与融合器的输出端拼接,本发明考虑了对应特征之间的相关性,将各基础模型中对应的特征提取结果进行拼接,提高了分类的准确性。
13.进一步地,各基础模型均包括第一编码卷积层、第二编码卷积层、第三编码卷积层、第四编码卷积层、第五编码卷积层;解码器至少包括第一解码卷积层、第二解码卷积层、第三解码卷积层、第四解码卷积层;门控单元包括第一门控单元和第二门控单元;各基础模型中对应的第一编码卷积层与第三解码卷积层的输出端拼接后连接第四解码卷积层的输入端;各基础模型中对应的第二编码卷积层拼接后连接第一门控单元的输入端,第一门控单元的输出端与第二解码卷积层的输出端拼接后连接第三解码卷积层的输入端;各基础模型中对应的第三编码卷积层拼接后连接第二门控单元的输入端,第二门控单元的输出端与第一解码卷积层的输出端拼接后连接第二解码卷积层的输入端;各基础模型中对应的第四
编码卷积层与融合器的输出端拼接后连接第一解码卷积层的输入端;各基础模型中对应的第五编码卷积层拼接后连接融合器的输入端。
14.进一步地,为了防止过拟合现象的发生,所述融合器包括从输入到输出依次设置的1
×
1卷积、1
×
1卷积、se模块、1
×
1卷积和注意力模块,前两个1
×
1卷积之间设置有4个并行的3
×
3卷积支路以及全局平均池化支路。
15.进一步地,为了增强分类模型对有用信息的提取能力,所述注意力模块为注意力增强模块。
16.进一步地,为了提高解码器对特定特征的捕获能力,所述解码器中的各编码卷积层从输入至输出依次包括残差模块、转置卷积、注意力增强模块。
17.进一步地,为了提高对应区域像素的可分性,门控单元均为注意力门控单元,注意力门控单元从输入至输出依次包括1
×
1卷积、3
×
3卷积、批处理层、激活层、1
×
1卷积,并且输入与最后一个1
×
1卷积拼接后进行输出。
18.进一步地,为了提高分类模型的分类性能和分类精度,通过生成对抗网络训练分类模型,生成对抗网络包括与分类模型相同的生成器和辨别器。
19.进一步地,为了在降低输入数据维度的同时,提高网络的运算效率,所述辨别器为马尔科夫辨别器。
20.进一步地,为了避免发生梯度弥散,造成分类的误判或漏判的情况,辨别器的损失函数为:
[0021][0022]
其中,θd为判别器的参数,为均方误差损失,x
(n)
为第n个输入生成器的影像;y
(n)
为第n个真值标签;g(
·
)为生成器的预测函数;d(
·
)为判别器的辨别函数;n为影像数量。
[0023]
进一步地,为了避免发生梯度弥散,造成分类的误判或漏判的情况,生成器的损失函数为:
[0024][0025]
其中,为均方误差损失;为多路径融合的焦点损失函数;θg为生成器的参数;λ为的权重系数。
附图说明
[0026]
图1是本发明分类模型的网络结构图;
[0027]
图2a是现有技术中特征融合器的结构示意图;
[0028]
图2b是本发明特征融合器的结构示意图;
[0029]
图3是本发明注意力增强模块的结构示意图;
[0030]
图4是本发明解码器中嵌入ar的解码卷积层的结构示意图;
[0031]
图5是本发明注意力门控单元的结构示意图;
[0032]
图6是本发明对抗网络架构图;
[0033]
图7是本发明辨别器的结构示意图。
具体实施方式
[0034]
多模型融合的遥感影像分类方法实施例:
[0035]
本发明的主要构思在于,基于现有的多模型简单融合造成分类准确性低的问题,本发明对多个基础模型中的对应的编码卷积层进行了不同的拼接操作,部分对应的编码卷积层拼接后通过门控单元与解码器进行跳跃链接,部分对应的编码卷积层与融合器的输出端拼接,部分对应的编码卷积层与融合器的输入端拼接,进而在输入待分类的遥感影像后,将多个基础模型提取的高维特征进行了融合,提高了分类的准确性。
[0036]
多模型融合的遥感影像分类方法,包括以下步骤:
[0037]
1)获取待分类的遥感影像;
[0038]
2)将待分类的遥感影像输入训练好的分类模型中得到分类结果。
[0039]
分类模型的结构如图1所示,包括三个基础模型、融合器、解码器、和两个注意力门控单元。
[0040]
基础模型为基于imagenet训练的卷积神经网络预模型(convolutional neural network,cnn),用于进行特征提取。本实施例采用的基础模型为vgg-16、resnet-50和resnext-50,每个基础模型如图1所示,均包括从输入到输出依次设置的5个编码卷积层,分别为卷积层1(即第一编码卷积层)、卷积层2(即第二编码卷积层)、卷积层3(即第三编码卷积层)、卷积层4(即第四编码卷积层)、卷积层5(即第五编码卷积层)。
[0041]
各基础模型的相关参数如表一所示:
[0042]
表一 各基础模型的参数
[0043]
名称层数输入大小参数量最后一个卷积层输出维度vgg1616224
×
224138
×
106512resnet5050224
×
22425.5
×
1062048resnext5050224
×
22425.0
×
1062048
[0044]
上述表格中,每个基础模型已经具备了提取丰富特征的能力,然而鉴于其训练时是在imagenet数据集上进行的,无法完美的直接迁移至高分辨率遥感影像上来。因此,本文采用多模型深度特征提取的策略,从三种不同的预训练模型(也即基础模型)中提取特征空间相异的深度特征,利用不同深度特征的强大的特征表达能力,构建起描述输入遥感场景的高维特征空间。
[0045]
融合器为res2net+模块,用于进行特征融合。本实施例中,为了更加充分利用多个基础模型提取的深度特征,采用了res2net+模块对这些特征进行融合。res2net+模块是在现有的res2net模块的基础上改进的。
[0046]
res2net模块是一种将多尺度特征与squeeze-and-excitation(se)模块相结合的神经网络结构。现有的res2net模块如图2a所示,将resnet瓶颈(bottleneck)块中的3
×
3卷积替换为4个并行的3
×
3卷积支路,每个并行支路获得输入数据25%的特征信息。同时,se模块是一种常用的注意力机制,通过对通道间的依赖关系进行建模,重新校准通道维的特征相应,使得模型在不增加网络大小的前提下,充分利用不同通道上的依赖关系提升模型性能。
[0047]
res2net+模块如图2b所示,包括从输入到输出依次设置的1
×
1卷积、1
×
1卷积、se模块、1
×
1卷积和注意力模块,前两个1
×
1卷积之间设置有4个并行的3
×
3卷积支路以及全
局平均池化支路,在原有结构的基础上增加了第五条全局平均池化并行支路,使用全局平均池化对特征图进行缩放,防止过拟合的发生;同时在输出端增加了1
×
1卷积和注意力增强模块,进一步增强模型对于有用信息的提取能力。
[0048]
注意力增强模块(attention-enforced block,ae)是基于注意力机制(attention mechanism)建立的。注意力机制最早应用于自然语言处理(national language process,nlp)领域并且成绩斐然,它借鉴人类视觉注意力机制,利用有限的注意力资源,获取更多有价值目标的细节信息,忽略无用信息,其基本过程是通过计算所有位置上特征的权重,得到所需关注对象的特征表现。
[0049]
注意力增强模块如图3所示,采用融合空间域和通道域软注意力的并行混合域设计,一条支路包括依次设置的1
×
1卷积和sigmoid(激活函数),采用1
×
1卷积将输入特征进行语义信息的提取并生成对应的掩码,利用掩码提升特征中特定语义信息的权重,实现对语义信息的增强;另一条支路包括依次设置的全局平均池化、1
×
1卷积、relu、1
×
1卷积和sigmoid,采用通道注意力机制,通过提升信息量大的特征权重调整各个卷积通道之间的信息资源,实现对高维抽象的位置信息增强;最后,将二者处理后的特征图进行相加,得到经过语义和空间增强的特征图。图3中的w和h分别表示特征图的尺寸大小,c表示特征图的通道数,注意力增强模块为现有的一种注意力模块,这里不做详述。
[0050]
当然,本发明的融合器可以使用res2net+模块,也可以使用res2net模块,并且res2net+模块中的注意力模块也可以使用常规的注意力模块,本发明对此不做限制。
[0051]
解码器用于生成分类空间所用的编码信息,包括第一解码卷积层、第二解码卷积层、第三解码卷积层、第四解码卷积层、第五解码卷积层、以及3
×
3卷积+批处理层+激活函数,每个解码卷积层融合了注意力与残差结构(attention-residual block,ar),也即在解码器中嵌入了注意力与残差结构,依靠注意力机制调整感兴趣区域的特征图权重,使其尽完整的提取出有用的空间结构和语义信息,提升解码器网络对于某些特定特征的捕获能力。
[0052]
各解码卷积层的结构如图4所示,从输入至输出依次包括残差模块、转置卷积、注意力增强模块。残差模块可以有效缓解多层神经网络的网络退化问题,同时,采用转置卷积作为上采样模块,使得上采样过程具备学习能力,并且减少了人工设置阈值的影响。图4中w和h表示特征图大小,输入的通道数c>输出的通道数c


[0053]
当然,解码器也可以使用不嵌入ar结构的解码器,本发明对此不做限制。
[0054]
两个注意力门控单元分别为第一注意力门控单元和第二注意力门控单元,注意力门控单元用于通过门控卷积实现基础模型和解码器的跳跃链接;跳跃链接(skip-connection)是u-net设计中的一个重要技术要点,用以解决高层特征与低层特征之间的信息隔离问题。具体来讲,对于像素级的影像分类问题,空间域的信息非常的重要,随着网络层数的不断加深,编码器中各层级的特征图分辨率都非常的小,不利于像素级分类的精准预测,通过跳跃连接操作,可以将较浅层的特征图引入到网络的深层之中,使得具有丰富低阶信息服务于分割掩码的生成,提升网络的预测精度。但是,这种简单的特征连接不具有区分性,未考虑不同位置的特征对于最终预测结果的影响,为此,本发明提出了一种门控卷积的跳跃连接结构,门控机制最早出现在长短时记忆(long short-term memory,lstm)网络,用以控制信息传递的路径。
[0055]
本发明的注意力门控单元用于提取来自低层的特定信息,采取软注意力策略,依据网络的深度生成对应权重掩码,从而提高对应区域像素的可分性。注意力门控单元如图5所示,从输入到输出依次设置1
×
1卷积(通道数为512)、3
×
3卷积(通道数为512)、批处理层(通道数为512)、激活层(通道数为512)、1
×
1卷积,并且输入与最后一个1
×
1卷积拼接后进行输出。当然,本发明也可以采用常规的门控单元进行拼接,无需引入注意力机制。
[0056]
分类模型中的连接关系如下:
[0057]
各基础模型中对应的卷积层1与第三解码卷积层的输出端拼接后连接第四解码卷积层的输入端;各基础模型中对应的卷积层2拼接后连接第一注意力门控单元的输入端,第一注意力门控单元的输出端与第二解码卷积层的输出端拼接后连接第三解码卷积层的输入端;各基础模型中对应的卷积层3拼接后连接第二注意力门控单元的输入端,第二注意力门控单元的输出端与第一解码卷积层的输出端拼接后连接第二解码卷积层的输入端;各基础模型中对应的卷积层4与融合器的输出端拼接后连接第一解码卷积层的输入端;各基础模型中对应的卷积层5拼接后连接融合器的输入端。
[0058]
分类模型是基于“编码器-解码器”的整体网络结构设计,在编码器中采用三个特征提取器(也即三个基础模型)并行配置,使用相同的输入影像,提取三组不同特征空间的深度特征;接着使用res2net+模块进行模型融合,对这三组深度特征进行过滤提纯,保留有用的特征信息;最后解码器使得网络能够从抽象的深度特征空间生成分类空间所用的编码信息,从而得到最终的分类结果(嵌入其中的ar结构,在提升网络信息提取能力的同时,能够有效防止过拟合的发生);同时采用了带有注意力门控单元的跳跃连接操纵(跳跃链接提升低阶特征的复用性,在三个特征提取器中的对应的卷积层2和卷积层3的跳跃连接操作中分别增加了两个注意力门控单元,提高了该过程的可区分性)。
[0059]
上述分类模型在训练时,基于最小二乘生成对抗网络(least square gan,lsgan)的对抗训练的方式,提出一种如图6所示的多模型融合的生成对抗网络架构(multi model fusion generative adversarial networks for remote sensing image classification,mmfgan)。
[0060]
生成对抗网络(generative adversarial nets,gan)是目前一种备受瞩目的网络架构。借助零和博弈的思想,生成对抗网络采用一种对抗式的训练方式,同时训练两个模型,一个是获取数据分布的生成器g,另一个是估计输入来源的判别器d,通过以下二元极小极大博弈:
[0061][0062]
其中,x表示待学习的数据,z为输入噪声,p
data
(x)为待学习数据x的概率分布空间;pz(z)为输入噪声变量的概率分布空间;g(z)为z经过生成器映射到x所在空间的预测数据;表示对分布的期望;ln d(x)为判别器对x的判断;ln(1-d(g(z)))为判别器对g(z)的判断,d的输出范围在[0,1]之间,d的输入数据与真实数据越相似,则输出结果越接近1。通常在实现的过程中,g和d采用多隐含层的深度学习模型来近似拟合。
[0063]
但是,针对遥感影像这种像素级分类而言,噪声变量pz(z)的不可控性导致了分类结果的不确定。在遥感影像中普遍存在着“同物异谱”和“异物同谱”的现象,这反映出像素
与像素之间在语义层面存在着一定的联系,仅从像素灰度的角度进行区分,并不能准确的实现精确分类。而且,传统的深度学习模型所使用的优化方式比较了预测结果与真值标签各个单一像素的差异,忽略了局部区域的整体相关性,使得分类结果的精度较低,容易出现分类图边缘不连续或者分类结果与真值标签在几何形状上差异较大的情况。
[0064]
为此,本发明借鉴具有条件控制能力的pix2pix架构,在与分类模型相同的生成器基础上,引入带有控制条件的判别器。带有控制条件的判别器为基于patchgan的判别器,其作用是通过获取真实标签与生成器生成的预测结果之间的高阶一致性,从而实现两者较为准确的区分。patchgan是一种马尔科夫判别器,它从整体的角度出发,使用特定大小的图像块取代整幅影像作为输入,将所有图块的判定结果求平均,作为判别器的最终输出结果,其目的在于降低输入数据维度的同时,提高网络的运算效率。马尔科夫判别器的结构如图7所示,其中,掩膜图像的设计增强输入数据中的条件控制信息,关于马尔科夫判别器的具体实现过程为现有技术,这里不做赘述。
[0065]
本发明的mmfgan框架如图6所示,其中生成器与分割模型相同,用于生成分类结果(也即预测结果),判别器用于区分待选样本(即预测结果)与真实样本,两者在零和博弈框架中依照数据分布相互竞争,具体形式可以使用以下表示:
[0066][0067]
其中x={x
(1)
,x
(2)


,x
(n)
}表示输入的影像集合,y={y
(1)
,y
(2)


,y
(n)
}为y对应的真值标签集合,v代表最小最大博弈的目标函数,代表分布函数的期望值;d(
·
)为判别器的辨别函数,θd为判别器中的参数;g(
·
)生成器的预测函数,θg为生成器中的参数;n为影像数量;p
x
(x
(n)
)为输入影像集合所在的数据分布空间;py(y
(n)
)为对应真值标签集合所在的数据分布空间。
[0068]
传统的gan采用交叉熵损失函数对网络进行优化,这样会导致那些距离分类边界远的假样本骗过判别器而不会继续参与迭代,此时,在更新生成器的时候容易发生梯度弥散的问题,造成分类的误判或漏判。为此,本发明采用lsgan中的最小二乘作为损失函数。
[0069]
判别器的损失函数可以定义为如下的形式:
[0070][0071]
其中,表示均方误差损失(即对抗损失),d(
·
)为判别器的辨别函数,用于判断输入的x是来自生成器的预测值g(x
(n)
)还是真值标签y
(n)

[0072]
生成器通过训练混合损失函数实现生成器生成判别器难以区分“真假”的样本。包括两个部分:和用来减弱判别器的性能,为多路径融合的焦点损失函数,用来逐像素生成的分类预测结果。其表示如下:
[0073][0074]
其中,是和的线性组合,λ作为的权重系数。
[0075]
本发明的mmfgan架构训练分为两个步骤:
[0076]
1.固定生成器的参数θg,更新判别器的参数θd使得判别器能够区分出预测结果;
[0077]
2.固定判别器的参数θd,更新生成器的参数θg,使得生成器生成出“以假乱真”的预测结果。
[0078]
借此训练方式,可以建立预测值和对应真值标签在高层语义和空间结构两个层面上的统计关系,使得损失函数变成了可学习的方式,而且在与判别器的对抗中,生成器中每一层都能够发挥其作用。同时,最小二乘损失函数保证了mmfgan的训练稳定性。当然,关于训练分类模型的方式,也可以采用其他常规的训练网络,本发明并不做限制。
[0079]
上述实施例中,基础模型的数量为3个,且各基础模型均包括五个编码卷积层,作为其他实施方式,本发明对基础模型的具体网络结构以及基础模型的数量并不限制,也可以使用四个编码卷积层,只要对应的编码卷积层连接相应的输入输出端即可;同时基础模型的数量为4个,只要基础模型的数量≥2个,能够融合即可。
[0080]
以下通过对比实验对本发明的mmfgan的有效性进行验证。
[0081]
为验证mmfgan的有效性、稳健性和泛化能力,选取了isprs发布的两套高分辨率航空遥感影像数据集,分别为vaihingen数据集和potsdam数据集。数据集中包含了数字正射影像和对应的数字表面模型,对应的真值标签文件按照地物的不同共分为6类,分别为不透水层、建筑物、矮灌、树木、车辆以及背景,其他具体参数如表二所示:
[0082]
表二 数据集相关参数
[0083] vaihingenpotsdam地面分辨率(cm)95波段类型近红外-红-绿(ir-r-g)近红外-红-绿-蓝(ir-r-g-b)训练集/测试集(幅)16/17(共33)24/14(共38)影像平均大小(像素)大约2500
×
20006000
×
6000覆盖地区属性农村城市类别占比(%)27.8/26.0/21.3/22.9/1.2/0.829.6/25.7/22.6/15.5/1.8/4.8
[0084]
参照isprs 2d semantic labeling contest的评价标准,本文采用全局精度(overall accuracy,oa)、f1值、和平均交并比(mean intersection over union,miou)共3项评价指标进行评估。
[0085]
本发明分别采用在imagenet上预训练的vgg16、resnet-50和resnext-50为特征提取器,分别对应图6中的模型1、模型2和模型3。数据集中的训练集和测试集划分与isprs公布的划分保持一致。在训练阶段,从每个批次的影像中随机裁切出256
×
256像素大小的影像块,并进行随机的旋转和垂直镜像;在测试阶段,采用75%重叠度的滑动窗口方法进行裁切,对重叠区域采用多个预测结果求平均的方法得到最终的像素分类结果。
[0086]
整个架构的训练共分为两个阶段完成:
[0087]
在第一个阶段,仅训练生成器,编码器中的三个特征提取采用预训练模型进行初始化,解码器采用kaiming方法初始化,初始学习率为0.0001,共迭代250000次。
[0088]
在第二个阶段,加入判别器进行对抗训练。判别器仍然采用kaiming方法进行初始化。在学习率的设置上,为进一步稳定生成对抗训练的稳定性,采用ttur(two time-scale update rule)策略对生成器和判别器分别设置不同的数值,生成器的学习率设置为0.0001,判别器的学习率设置为0.0005,权重系数λ设置为20,共迭代150000次。
[0089]
两个阶段形成端到端的训练方式,中间无间断。采用adam优化算法训练mmfgan架
构,β1为0.5,β2为0.999,权重衰减为10-4
,第一个阶段保持生成器的学习率不变,在第二个阶段学习率每迭代10000次衰减0.5倍,批大小设置为16。实验所使用的硬件环境与软件平台环境如表三所示:
[0090]
表三 实验所使用的软/硬件环境
[0091]
名称配置参数处理器intel core i9-11900k内存32g硬盘大小4t显卡nvidia rtx 3090 24g操作系统ubuntu20.04ltscuda版本11.1cudnn版本8.0.4.30编程语言python 3.6深度学习架构pytorch 1.7编译平台pycharm community 2020.1
[0092]
a.在非对抗的条件下、未加入融合器的情况下训练完成后,不同模型的特征提取的对比实验结果与分析如下:
[0093]
分别采用单模型、双模型和三模型进行特征提取,在相同的解码器(该实验未加入res2net+模块)进行影像的像素分类,在非对抗的条件下完成训练,对比不同特征提取器的各自表现。本部分对比实验在vaihingen数据集和potsdam数据集的irrg影像上完成,vaihingen数据集的对比结果如表四所示,potsdam数据集的对比结果如表五所示。
[0094]
表四 不同特征提取模型在vaihingen数据集上的分类对比(%)
[0095][0096]
表四为不同模型组合条件下的模型分类性能对比(vaihingen数据集)。从中可以看出:在单模型的条件下,vgg16作为特征提取器的方法取得了较好的miou和f1值,表明其较另外两种单模型能够更好的完成影像分类任务。两种双模型的特征提取器方法在此基础上又进一步提高了两类指标。最后,得益于多模型提取深度特征的多样性,三模型的特征提取器的方法在miou指标上取得了73.82%的结果,特别是“车辆”类f1值达到了90.47%的精度,较单模型获得较大幅度的提升,验证了多模型特征提取器设计的性能优越性。
[0097]
表五 不同特征提取模型在potsdam数据集(irrg波段)上的分类对比(%)
[0098][0099]
表五为potsdam数据集上不同模型组合条件下的模型分类性能对比,从中可以看出,多模型的特征提取方法在更高分辨率的遥感影像上同样具有较好的性能优势。
[0100]
b.在不同的改进策略的实验验证如下:
[0101]
为验证基于res2net+模块的深度融合策略和基于lsgan的对抗训练策略的有效性,在a的基础上,选用两数据集上综合性能较好的三模型的深度特征提取器并进行改进,对比采用上述两种策略前后的分类结果。
[0102]
表六为不同的改进策略在vaihingen数据集下的性能对比;表七为不同的改进策略在potsdam数据集(irrg波段)下的性能对比;表八为不同的改进策略在potsdam数据集(rgb波段)下的性能对比。
[0103]
表六 不同的改进策略在vaihingen数据集上的性能对比(%)
[0104][0105]
表七 不同的改进策略在potsdam数据集(irrg波段)上的性能对比(%)
[0106][0107]
表八 不同的改进策略在potsdam数据集(rgb波段)上的性能对比(%)
[0108][0109]
表六、表七和表八分别展示了不同的改进策略在两数据集上的分类性能。从表中可以看出,在采用了基于res2net+模块的深度融合策略和基于lsgan的对抗训练策略之后,整个架构的分类性能均有了一定程度的提升,在两数据集上的miou值均取得了最优的成绩,分别为75.00%、79.77%和78.99%。
[0110]
从深度融合策略的角度来看,res2net+模块能够很好的对高维的深度特征进行筛
选,增大有特征的权重,保留了对任务有用信息,使得解码器能够更有效的利用特征信息完成影像分类。从结果来看,miou分别为74.21%、78.52%和78.57%,较未增加任何改进策策略的方法分别提升了0.39%、5.57%和1.27%。
[0111]
为了进一步提升res2net+模块的性能,对抗训练从数据挖掘的角度出发,借助lsgan学习预测结果与真值标签之间的高阶一致性,使得预测结果尽可能的与真实标签处在相同的流行之内,进一步提升架构的准确性。从结果来看,miou值较仅增加res2net+模块的方法分别提升,0.79%、1.25%和0.42%,较未增加任何改进策略的方法分别提升1.18%、6.82%和1.69。
[0112]
从数据集的角度来看,分辨率更高的potsdam(irrg波段)数据上,本发明所提的mmfgan架构在各单项分类的f1值上均取得了最优的结果。
[0113]
c.对抗训练的泛化能力实验
[0114]
为了验证对抗训练(gan)的泛化能力,在vaihingen数据集上,随机选取训练集10%、50%和70%的影像作为训练数据进行对抗和非对抗训练,基准方法为图6所示的生成器,实验结果如表九所示:
[0115]
表九 对抗训练在vaihingen数据集上的泛化性能对比(%)
[0116][0117]
对比实验结果可以看出,采用对抗训练策略的“基准方法+gan”在不同数据量条件下,均较“基准方法”的分类精度有所提升。由于生成对抗训练采用的是一种特殊的损失函数设计,借助判别器的参与,使得其损失函数变为可学习的形式;相较于人工设计的方式,该训练策略能够使损失函数更具针对性,一定程度上解决了人工设计损失函数的不适用性,使得模型在少样本条件下学习到有用的任务信息,提升了模型的泛化能力。
[0118]
d.mmfgan架构与经典方法的对比实验
[0119]
本节将所提出的mmfgan架构与两种较为经典的网络进行对比。deeplabv3+是深度学习中最为经典的网络架构,以resnet-101为骨干网络,采用空间金字塔池化提高模型对于多尺度空间特征的感受能力,以空洞卷积增大卷积核的感受野,有利于多尺度信息的提取;同时新设计的解码器结构采用双线性插值和高低阶特征连接操作,使得模型能够得到更为精细的分割预测。spnet
[40]
以resnet-101为骨干网络,通过引入条纹池化模块和混合池化模块,结合注意力机制和多路径融合思路,提出了一种轻量级网络的设计思想。上述两种网络采用的均是采用“编码器-解码器”结构,具体实验结果对比如表十所示:
[0120]
表十mmfgan架构与经典方法的比较结果(%)
[0121][0122]
总体上来说,mmfgan在三个数据集上的表现优异,miou和oa两项指标均优于两种经典的方法。deeplabv3+和spnet均采用了网络层数更深的resnet-101作为特征提取器,其性能相较于mmfgan的多模型特征提取而言稍有欠缺;而mmfgan将三种层数较少的网络进行并联,使得提取的特征更为多样,所能描述的内容更多,为后端解码器向任务空间的映射提供了更为丰富的特征信息。spnet采用带有注意力机制的条纹池化模块和混合池化模块,能够捕获较远邻域区域间的相互关系,同时混合池化模块利用具有不同形状核的池化操作收集复杂场景中的上下文信息,较deeplabv3+的正方形卷积核有了一定程度上的提升,从精度来看印证这一观点。而本发明提出的mmfgan综合采用了融合ar结构的编码器和带有注意力门控单元的跳跃连接,同样达到了此目的,结合对抗训练的方式,使得模型的分类性能更具优势。
[0123]
本发明提出了一种多模型融合的生成对抗网络架构mmfgan,实现了高分辨率遥感影像的像素级分类,该架构采用三个较小的预训练模型进行深度特征提取,设计出res2net+模块进行特征融合,利用融合ar结构的解码器进行任务空间的特征映射。同时,为了提升网络对于有用信息的捕获能力,综合运用多层门控单元、注意力机制和生成对抗训练。实验结果表明,在不同空间分辨率和不同不同波段的vaihingen数据集和potsdam数据集上,本发明所提出的方法取得了75.00%、79.77%和78.99%的miou,单项类别分类精度同样居于前列。

技术特征:
1.一种多模型融合的遥感影像分类方法,其特征在于,包括以下步骤:1)获取待分类的遥感影像;2)将待分类的遥感影像输入训练好的分类模型中得到分类结果,所述分类模型包括至少两个基于cnn模型的基础模型、融合器、解码器和门控单元;各基础模型中均包括若干依次设置的编码卷积层,且各基础模型中编码卷积层的数量相同,若干编码卷积层用于输出不同大小的特征提取结果;融合器用于进行特征融合;解码器包括若干依次设置的解码卷积层,用于生成分类空间所用的编码信息;门控单元用于通过门控卷积实现基础模型和解码器的跳跃链接;其中,各基础模型中部分对应的编码卷积层的特征提取结果拼接后通过门控单元与解码器相应的解码卷积层的输出端拼接;各基础模型中部分对应的编码卷积层的特征提取结果与融合器的输入端拼接;各基础模型中部分对应的编码卷积层的特征提取结果与融合器的输出端拼接。2.根据权利要求1所述的多模型融合的遥感影像分类方法,其特征在于,各基础模型均包括第一编码卷积层、第二编码卷积层、第三编码卷积层、第四编码卷积层、第五编码卷积层;解码器至少包括第一解码卷积层、第二解码卷积层、第三解码卷积层、第四解码卷积层;门控单元包括第一门控单元和第二门控单元;各基础模型中对应的第一编码卷积层与第三解码卷积层的输出端拼接后连接第四解码卷积层的输入端;各基础模型中对应的第二编码卷积层拼接后连接第一门控单元的输入端,第一门控单元的输出端与第二解码卷积层的输出端拼接后连接第三解码卷积层的输入端;各基础模型中对应的第三编码卷积层拼接后连接第二门控单元的输入端,第二门控单元的输出端与第一解码卷积层的输出端拼接后连接第二解码卷积层的输入端;各基础模型中对应的第四编码卷积层与融合器的输出端拼接后连接第一解码卷积层的输入端;各基础模型中对应的第五编码卷积层拼接后连接融合器的输入端。3.根据权利要求1所述的多模型融合的遥感影像分类方法,其特征在于,所述融合器包括从输入到输出依次设置的1
×
1卷积、1
×
1卷积、se模块、1
×
1卷积和注意力模块,前两个1
×
1卷积之间设置有4个并行的3
×
3卷积支路以及全局平均池化支路。4.根据权利要求3所述的多模型融合的遥感影像分类方法,其特征在于,所述注意力模块为注意力增强模块。5.根据权利要求1所述的多模型融合的遥感影像分类方法,其特征在于,所述解码器中的各编码卷积层从输入至输出依次包括残差模块、转置卷积、注意力增强模块。6.根据权利要求1所述的多模型融合的遥感影像分类方法,其特征在于,门控单元均为注意力门控单元,注意力门控单元从输入至输出依次包括1
×
1卷积、3
×
3卷积、批处理层、激活层、1
×
1卷积,并且输入与最后一个1
×
1卷积拼接后进行输出。7.根据权利要求1所述的多模型融合的遥感影像分类方法,其特征在于,通过生成对抗网络训练分类模型,生成对抗网络包括与分类模型相同的生成器和辨别器。8.根据权利要求7所述的多模型融合的遥感影像分类方法,其特征在于,所述辨别器为马尔科夫辨别器。9.根据权利要求7所述的多模型融合的遥感影像分类方法,其特征在于,辨别器的损失
函数为:其中,θ
d
为判别器的参数,为均方误差损失,x
(n)
为第n个输入生成器的影像;y
(n)
为第n个真值标签;g(
·
)为生成器的预测函数;d(
·
)为判别器的辨别函数;n为影像数量。10.根据权利要求9所述的多模型融合的遥感影像分类方法,其特征在于,生成器的损失函数为:其中,为均方误差损失;为多路径融合的焦点损失函数;θ
g
为生成器的参数;λ为的权重系数。

技术总结
本发明涉及一种多模型融合的遥感影像分类方法,属于遥感影像分类技术领域。方法包括:获取待分类的遥感影像;将待分类的遥感影像输入训练好的分类模型中得到分类结果,分类模型包括至少两个基于CNN模型的基础模型、融合器、解码器和门控单元;各基础模型中部分对应的编码卷积层的特征提取结果拼接后通过门控单元与解码器对应的解码卷积层的输出端拼接;各基础模型中部分对应的编码卷积层的特征提取结果与融合器的输入端拼接;各基础模型中部分对应的编码卷积层的特征提取结果与融合器的输出端拼接。本发明考虑了对应特征之间的相关性,将各基础模型中对应的特征提取结果进行拼接,提高了分类的准确性。提高了分类的准确性。提高了分类的准确性。


技术研发人员:王慧 闫科 程挺 宋美娟 李靖 王海岩 李烁 吕洲 沙桐
受保护的技术使用者:中国人民解放军战略支援部队信息工程大学
技术研发日:2022.01.13
技术公布日:2023/7/26
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐