一种基于Transformer的双波段图像语义分割方法

未命名 07-27 阅读：110 评论：0

一种基于transformer的双波段图像语义分割方法
技术领域
1.在深度学习技术快速发展的推动下，卷积神经网络多年来一直主导着语义分割。卷积神经网络采用分层特征表示，具有较强的局部信息提取能力，但是卷积层的局部特性限制了网络捕获全局上下文的能力，为了将网络从卷积神经网络的局部模式焦点中解放出来，许多人尝试建模全局上下文信息，而最流行的方法是将注意机制纳入网络，因此提出transformer方法扩大感受野捕获全局上下文。现有的方法基于可见光图像分割中取得了良好的效果，然而在复杂场景中，由于物体种类多、光线变化大、易遮挡等因素，导致可见光图像语义分割任务存在较严重的边界模糊、类内误识别以及小目标物体丢失等问题。
2.中国专利公开号为“cn 113947680 a”，名称为“一种基于级联多尺度视觉transformer的图像语义分割方法”，该方法首先读取原始图像，接着对特征信息进行位置编码，然后将一维向量输入到transformer模块学习上下文信息，编码阶段的输出特征上采样后和前一阶段的特征利用像素点位置相加实现信息聚合，将新的特征输入到transformer模块中，最后用卷积操作将通道数变换为类别数，采用双线性插值算法将图像上采样至原图大小。该方法得到的分割图像精度不高，不适用复杂恶劣场景以及网络捕获全局上下文的能力弱。

背景技术：

3.因此我们提出了一种基于transformer的双波段图像语义分割方法来解决上述分割图像精度不高，复杂恶劣场景分割效果差问题。

技术实现要素：

4.(一)解决的技术问题
5.针对现有技术的不足，本发明提供了一种基于transformer的双波段图像语义分割方法，解决了上述背景技术中所提出的问题。
6.(二)技术方案
7.一种基于transformer的双波段图像语义分割方法，包括如下步骤：
8.步骤1，构建网络模型：整个语义分割网络主要由双分支transformer编码器、特征融合模块和卷积解码器组成；
9.步骤2，图像预处理：将输入到transformer网络的城市道路场景的语义分割图片进行图像预处理；
10.步骤3，训练网络模型：将步骤2中准备好的图像数据集输入到步骤1中构建好的transformer网络模型中进行训练；
11.步骤4，选取最佳损失函数和最优评价指标：通过最小化网络输出图像与标签的损失函数，直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成，保存模型参数；最优评估指标选择像素准确率，平均交并比和推理速度，能够评估算法的精度与实时性，衡量网络语义分割的作用；
12.步骤5，微调模型：用红外与可见光图像对模型进行训练和微调，得到稳定可用的模型参数。最终使得模型参数，，进一步提高模型的可见光与红外图像语义分割能力；最终使得模型对图像分割的效果更准确；
13.步骤6，保存模型：将最终确定的模型参数进行固化，之后需要进行可见光与红外图像语义分割时，直接将图像输入到网络中即可得到最终的语义分割图像。
14.进一步地，所述步骤1中双分支transformer编码器为可见光图像编码器和红外图像编码器：可见光和红外图像编码器由transformer模块和特征融合模块组成，可见光编码器由transformer模块一、transformer模块二、transformer模块三和transformer模块四组成，transformer模块一对输入的可见光图片进行初级特征提取，transformer模块二、transformer模块三和transformer模块四对可见光图像中高级特征进行提取；红外图像编码器由transformer模块五、transformer模块六、transformer模块七和transformer模块八组成，transformer模块五对输入的可见光图片进行初级特征提取，transformer模块六、transformer模块七和transformer模块八对红外图像中高级特征进行提取；卷积解码器由卷积块一、卷积块二、卷积块三和卷积块四组成，通过卷积操作恢复图像分辨率到达语义分割结果。
15.进一步地，所述步骤1中transformer模块一与transformer模块五图像特征输入到特征融合模块一后跳跃连接到卷积块三输出端、transformer模块二与transformer模块六图像特征输入到特征融合模块二后跳跃连接到卷积块二输出端、transformer模块三与transformer模块七图像特征输入到特征融合模块三后跳跃连接到卷积块一输出端，逐层提取特征编码。
16.进一步地，所述步骤1中transformer模块由高效全局局部多头自注意(eglmsa)和多层感知器(mlp)块组成两个层归一化层和两个加和操作组成，其中高效全局局部多头自注意层分别提取全局上下文和局部上下文，全局上下文对于复杂城市场景的语义分割至关重要，但局部信息对于保存丰富的空间细节，提出的有效全局-局部注意构建了两个并行分支。局部分支是一个相对较浅的结构，它使用两个并行的卷积层，来提取局部上下文。然后在最后的和运算之前附加两个批处理归一化运算；全局分支首先部署了一个深度卷积，降低了图像分辨率，从而压缩了计算量和内存，接着将向量作为层归一化的输入，三个向量q、k、v被送入三个线性预测，q、k、v是由输入的词向量x经过线性变换得到的,其中各个矩阵w可以经过学习得到,这种变换可以提升模型的拟合能力,得到的q、k、v可以理解为q:要查询的信息、k:被查询的向量、v:查询得到的值，对q和k向量进行矩阵乘法运算，然后通过卷积层、softmax激活函数和实例归一化操作进行注意映射，对所得到的注意图和v向量进行矩阵乘法运算，最后将全局分支中的全局上下文与局部分支中的局部上下文进一步聚合，生成全局-局部上下文，使用深度卷积、批处理归一化操作和标准卷积来表征细粒度的全局-局部上下文。
17.所述步骤2中语义分割数据集使用mfnet数据集；将训练集和验证集的图片裁剪成若干个分块图片，每个分块图片的分辨率和维度都为初始分辨率和初始维度；对分块图片类别进行语义分割标注。
18.进一步地，所述步骤3中在预训练过程中语义分割数据集使用mfnet数据集；通过对数据集四通道图片通道分离得到可见光彩色图像和红外图像，选取场景复杂、细节多样
和类别齐全的图像作为训练样本，其余图像作为测试集样本，将可见光图像与红外图像分别作为输入网络进行训练。
19.进一步地，所述步骤4中在训练过程中损失函数选择dice loss损失函数；损失函数的选择影响着模型的好坏，能够真实地体现出预测值与真值差异，并且能够正确地反馈模型的质量。
20.进一步地，所述步骤5中在微调模型参数过程中使用soda数据集。
21.(三)有益效果
22.与现有技术相比，本发明提供了一种基于transformer的双波段图像语义分割方法，具备以下有益效果：
23.本发明，在提取特征信息时，采用transformer模块编码器提取图像特征信息，解除了卷积层的局部特性限制了，使得网络捕获全局上下文的能力。
24.本发明，在提取特征信息时，采用transformer模块编码器，transformer比卷保留了更多的空间信息，逐层将输出特征图传入特征融合模块，通过给定输入模型，然后跳跃连接为解码器网络提供更多的浅层细节信息，去除冗余特征信息，得到优异的语义分割性能，语义分割图像精度更高效果更好。
25.本发明，在设计的可见光和红外图像双分支编码器，使得可见光和红外双流提取特征信息使得特征信息更加丰富，能实现在夜间、雨天以及浓雾等复杂恶劣场景仍可准确进行语义分割，适应各种复杂恶劣场景。
附图说明
26.图1为一种基于transformer的双波段图像语义分割方法流程图；
27.图2为一种基于transformer的双波段图像语义分割方法网络结构图；
28.图3为本发明transformer模块的具体组成图；
29.图4为本发明高效全局局部多头自注意的具体组成图；
30.图5为本发明特征融合模块的具体组成图；
31.图6为现有技术和本发明提出方法的相关指标对比图；
32.图7为现有技术和本发明提出方法的参数和运行时间对比图。
具体实施方式
33.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
34.实施例
35.如图1-5所示，一种基于transformer的双波段图像语义分割方法，该方法具体包括如下步骤：
36.步骤1，构建网络模型：整个语义分割网络主要由双分支transformer编码器、特征融合模块和卷积解码器组成；
37.双分支transformer编码器为可见光图像编码器和红外图像编码器：可见光和红
外图像编码器由transformer模块和特征融合模块组成，可见光编码器由transformer模块一、transformer模块二、transformer模块三和transformer模块四组成，transformer模块一对输入的可见光图片进行初级特征提取，transformer模块二、transformer模块三和transformer模块四对可见光图像中高级特征进行提取；红外图像编码器由transformer模块五、transformer模块六、transformer模块七和transformer模块八组成，transformer模块五对输入的可见光图片进行初级特征提取，transformer模块六、transformer模块七和transformer模块八对红外图像中高级特征进行提取；卷积解码器由卷积块一、卷积块二、卷积块三和卷积块四组成，通过卷积操作恢复图像分辨率到达语义分割结果；
38.进一步地，所述步骤1中transformer模块一与transformer模块五图像特征输入到特征融合模块一后跳跃连接到卷积块三输出端、transformer模块二与transformer模块六图像特征输入到特征融合模块二后跳跃连接到卷积块二输出端、transformer模块三与transformer模块七图像特征输入到特征融合模块三后跳跃连接到卷积块一输出端，逐层提取特征编码。
39.所述步骤1中transformer模块由高效全局局部多头自注意(eglmsa)和多层感知器(mlp)块组成两个层归一化层和两个加和操作组成，其中高效全局局部多头自注意层分别提取全局上下文和局部上下文，全局上下文对于复杂城市场景的语义分割至关重要，但局部信息对于保存丰富的空间细节仍然至关重要，提出的有效全局-局部注意构建了两个并行分支。局部分支是一个相对较浅的结构，它使用两个并行的卷积层，来提取局部上下文。然后在最后的和运算之前附加两个批处理归一化运算；全局分支首先部署了一个深度卷积，降低了图像分辨率，从而压缩了计算量和内存，接着将向量作为层归一化的输入，三个向量q、k、v被送入三个线性预测，q、k、v是由输入的词向量x经过线性变换得到的,其中各个矩阵w可以经过学习得到,这种变换可以提升模型的拟合能力,得到的q、k、v可以理解为q:要查询的信息、k:被查询的向量、v:查询得到的值，对q和k向量进行矩阵乘法运算，然后通过卷积层、softmax激活函数和实例归一化操作进行注意映射，对所得到的注意图和v向量进行矩阵乘法运算，最后将全局分支中的全局上下文与局部分支中的局部上下文进一步聚合，生成全局-局部上下文，使用深度卷积、批处理归一化操作和标准卷积来表征细粒度的全局-局部上下文。
40.所述步骤1中网络模型结构如图2所示，网络模型总共包括8个transformer模块、4个特征融合模块、4个解码卷积块，全局分支首先部署了一个内核大小为r+1、步幅为r的深度卷积，降低了k和v的分辨率，从而压缩了计算量和内存。对于四个transformer模块，r分别设为8,4,2,1，降低了图像分辨率，从而压缩了计算量和内存。接着将向量作为层归一化的输入，三个向量q、k、v被送入三个线性预测，对q和k向量进行矩阵乘法运算，然后卷积层是一个标准的1
×
1卷积、步幅为1，softmax激活函数和实例归一化操作进行注意映射，对所得到的注意图和v向量进行矩阵乘法运算，最后将全局分支中的全局上下文与局部分支中的局部上下文进一步聚合，生成全局-局部上下文，使用深度卷积、批处理归一化操作和标准卷积来表征细粒度的全局-局部上下文。全局分支计算公式如下所示：
41.42.局部分支使用两个并行的卷积层，来提取局部上下文,卷积3的卷积核为1
×
1步幅为1，卷积4的卷积核为3
×
3步幅为1，然后在最后的和运算之前附加两个批处理归一化运算。局部分支计算公式如下所示：
43.lmsa＝bn2(conv3)bn3(conv4)
44.最后将全局分支中的全局上下文与局部分支中的局部上下文进一步聚合，生成全局-局部上下文，使用深度卷积、批处理归一化操作和标准1
×
1卷积来表征细粒度的全局-局部上下文。
45.所述步骤1中特征融合模块分别将可见光图像输入首先与红外特征信息相乘后再与初始红外图像特征拼接、将红外图像输入与可见光图像相乘后再与初始可见光图像特征加和拼接，最终将特征信息聚合完成可见光与红外特征融合跳跃连接到解码器实现语义分割。
46.步骤2，图像预处理：将输入到网络的城市道路场景的语义分割图片进行图像预处理；
47.所述步骤2中语义分割数据集使用mfnet数据集；将训练集和验证集的图片裁剪成若干个分块图片，每个分块图片的分辨率和维度都为初始分辨率和初始维度；对分块图片类别进行语义分割标注；数据集包含1569对rgb和红外图像，其中820幅为白天拍摄，749幅为夜间拍摄，有9个手动标记的语义类，包括在真实背景中未标记的背景类，数据集的图像分辨率为480
×
640；训练集由50％的白天图像和50％的夜间图像组成，验证集由25％的白天图像和25％的夜间图像组成，其他图像用于测试。输入图片尺寸h
×w×
c为，其中h、w为图片的长和高，c为通道数，将图片划分为p
×
p
×
c大小的特征图，则分块数量为n＝h
×
w/(p
×
p)，再将小特征图进行线性映射成一维向量，则输入图片的总输入变换为n
×
(p2×
c)；接下来进行位置嵌入以学习到像素相对位置，具体而言，将上述尺寸变换后的图像特征累加一个可学习的随机初始化位置编码，并输入空间特征提取transformer编码器。
48.步骤3，训练网络模型。将步骤2中准备好的数据集输入到步骤1构建好的网络模型中进行训练。
49.步骤4，选取最佳损失函数和最优评价指标。通过最小化网络输出图像与标签的损失函数，直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已训练完成，保存模型参数。同时选择最优评估指标来衡量算法的精度，评估系统的性能。损失函数的选择影响着模型的好坏，能够真实地体现出预测值与真值差异，并且能够正确地反馈模型的质量；最优评估指标选择像素准确率，平均交并比和推理速度，能够评估算法的精度与实时性，衡量网络语义分割的作用。
50.所述步骤4中网络的输出与标签计算损失函数，通过最小化损失函数达到更好的融合效果，损失函数选择选择dice loss损失函数，损失函数计算公式如下所示：
[0051][0052]
其中，x表示输入样本，fi(x)表示第i个类别的预测结果，yi(x)表示第i个类别对应的真实标签。
[0053]
设定训练次数为300，每次输入到网络图片数量大小为8-16左右，每次输入到网络
图片数量大小的上限主要是根据计算机图形处理器性能决定，一般每次输入到网络图片数量越大越好，使网络更加稳定，训练过程的学习率设置为0.001，既能保证网络快速拟合，而不会导致网络过拟合，网络参数优化器选择adam优化器，并采用步骤4中的损失函数进行监督训练，它的优点主要在于实现简单，计算高效，对内存需求少，参数的更新不受梯度的伸缩变换影响，使得参数比较平稳，损失函数函数值阈值设定为0.005左右，小于0.005就可以认为整个网络的训练已基本完成。
[0054]
步骤5，微调模型。用红外与可见光图像对模型进行训练和微调，使得模型对融合的效果更好。在微调模型参数过程中使用soda数据集。
[0055]
步骤6，保存模型。将最终确定的模型参数进行固化，之后需要进行红外与可见光图像融合操作时，直接将图像输入到网络中即可得到最终的融合图像。
[0056]
所述步骤6中将网络训练完成后，需要将网络中所有参数保存，之后用将要分割红外和可见光图像输入到网络中就可以得到分割好的图像，该网络对两张输入图像大小没有要求，任意尺寸均可，但是必须保证两张图像的尺寸一致。
[0057]
其中，卷积、激活函数、拼接操作、transformer实现是本领域技术人员公知的算法，具体流程和方法可在相应的教科书或者技术文献中查阅到。
[0058]
本发明通过构建一种基于transformer的双波段图像语义分割网络，可以将图像直接生成分割图像，不再经过中间其他步骤，避免了人工手动设计相关分割规则。在相同条件下，通过计算与现有方法得到图像的相关指标，进一步验证了该方法的可行性和优越性，现有技术和本发明提出方法的相关指标对比，
[0059]
如图6所示：从图中可知，本发明提出的方法比现有方法拥有更高的图像像素准确率和平均交并比，这些指标也进一步说明了本发明提出的方法具有更好的分割图像精度。
[0060]
最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种基于transformer的双波段图像语义分割方法，其特征在于：包括如下步骤：步骤1，构建网络模型：整个语义分割网络主要由双分支transformer编码器、特征融合模块和卷积解码器组成；步骤2，图像预处理：将输入到transformer网络的城市道路场景的语义分割图片进行图像预处理；步骤3，训练网络模型：将步骤2中准备好的图像数据集输入到步骤1中构建好的transformer网络模型中进行训练；步骤4，选取最佳损失函数和最优评价指标：通过最小化网络输出图像与标签的损失函数，直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成，保存模型参数；最优评估指标选择像素准确率，平均交并比和推理速度，能够评估算法的精度与实时性，衡量网络语义分割的作用；步骤5，微调模型：用红外与可见光图像对模型进行训练和微调，得到稳定可用的模型参数。最终使得模型参数，，进一步提高模型的可见光与红外图像语义分割能力；最终使得模型对图像分割的效果更准确；步骤6，保存模型：将最终确定的模型参数进行固化，之后需要进行可见光与红外图像语义分割时，直接将图像输入到网络中即可得到最终的语义分割图像。2.根据权利要求1所述的一种rgb-t双模态特征融合的语义分割方法，其特征在于：所述步骤1中双分支transformer编码器为可见光图像编码器和红外图像编码器：可见光和红外图像编码器由transformer模块和特征融合模块组成，可见光编码器由transformer模块一、transformer模块二、transformer模块三和transformer模块四组成，transformer模块一对输入的可见光图片进行初级特征提取，transformer模块二、transformer模块三和transformer模块四对可见光图像中高级特征进行提取；红外图像编码器由transformer模块五、transformer模块六、transformer模块七和transformer模块八组成，transformer模块五对输入的可见光图片进行初级特征提取，transformer模块六、transformer模块七和transformer模块八对红外图像中高级特征进行提取；卷积解码器由卷积块一、卷积块二、卷积块三和卷积块四组成，通过卷积操作恢复图像分辨率到达语义分割结果。3.根据权利要求1所述的一种rgb-t双模态特征融合的语义分割方法，其特征在于：所述步骤1中transformer模块一与transformer模块五图像特征输入到特征融合模块一后跳跃连接到卷积块三输出端、transformer模块二与transformer模块六图像特征输入到特征融合模块二后跳跃连接到卷积块二输出端、transformer模块三与transformer模块七图像特征输入到特征融合模块三后跳跃连接到卷积块一输出端，逐层提取特征编码。4.根据权利要求1所述的一种rgb-t双模态特征融合的语义分割方法，其特征在于：所述步骤1中transformer模块由高效全局局部多头自注意(eglmsa)和多层感知器(mlp)块组成两个层归一化层和两个加和操作组成，其中高效全局局部多头自注意层分别提取全局上下文和局部上下文，全局上下文对于复杂城市场景的语义分割至关重要，但局部信息对于保存丰富的空间细节，提出的有效全局-局部注意构建了两个并行分支。局部分支是一个相对较浅的结构，它使用两个并行的卷积层，来提取局部上下文。然后在最后的和运算之前附加两个批处理归一化运算；全局分支首先部署了一个深度卷积，降低了图像分辨率，从而压缩了计算量和内存，接着将向量作为层归一化的输入，三个向量q、k、v被送入三个线性预
测，对q和k向量进行矩阵乘法运算，然后通过卷积层、softmax激活函数和实例归一化操作进行注意映射，对所得到的注意图和v向量进行矩阵乘法运算，最后将全局分支中的全局上下文与局部分支中的局部上下文进一步聚合，生成全局-局部上下文，使用深度卷积、批处理归一化操作和标准卷积来表征细粒度的全局-局部上下文。5.根据权利要求1所述的一种rgb-t双模态特征融合的语义分割方法，其特征在于：所述步骤2中语义分割数据集使用mfnet数据集；将训练集和验证集的图片裁剪成若干个分块图片，每个分块图片的分辨率和维度都为初始分辨率和初始维度；对分块图片类别进行语义分割标注。6.根据权利要求1所述的一种rgb-t双模态特征融合的语义分割方法，其特征在于：所述步骤3中在预训练过程中语义分割数据集使用mfnet数据集；通过对数据集四通道图片通道分离得到可见光彩色图像和红外图像，选取场景复杂、细节多样和类别齐全的图像作为训练样本，其余图像作为测试集样本，将可见光图像与红外图像分别作为输入网络进行训练。7.根据权利要求1所述的一种rgb-t双模态特征融合的语义分割方法，其特征在于：所述步骤4中在训练过程中损失函数选择dice loss损失函数；损失函数的选择影响着模型的好坏，能够真实地体现出预测值与真值差异，并且能够正确地反馈模型的质量。8.据权利要求1所述的一种rgb-t双模态特征融合的语义分割方法，其特征在于：所述步骤5中在微调模型参数过程中使用soda数据集。

技术总结
本发明属于语义分割技术领域，尤其为一种基于Transformer的双波段图像语义分割方法，包括如下步骤：步骤1，构建网络模型：整个语义分割网络主要由双分支Transformer编码器、特征融合模块和卷积解码器组成；步骤2，图像预处理：将输入到Transformer网络的城市道路场景的语义分割图片进行图像预处理；步骤3，训练网络模型：将步骤2中准备好的图像数据集输入到步骤1中构建好的Transformer网络模型中进行训练。本发明，在提取特征信息时，采用Transformer模块编码器提取图像特征信息，解除了卷积层的局部特性限制了，使得网络捕获全局上下文的能力。局上下文的能力。局上下文的能力。

技术研发人员：葛微李金龙李锐蒋一纯韩登李国宁
受保护的技术使用者：长春理工大学
技术研发日：2022.12.27
技术公布日：2023/7/25

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：基于运营商数据分析模型的收入风险识别方法与流程 下一篇：一种仓库订单处理方法和系统与流程

一种基于Transformer的双波段图像语义分割方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于Transformer的双波段图像语义分割方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表