一种图像语义分割模型及分割方法

未命名 07-27 阅读:120 评论:0


1.本发明涉及图像处理技术领域,具体涉及一种图像语义分割模型及分割方法。


背景技术:

2.图像分割是图像处理中的一项关键技术,是计算机视觉领域重要的组成部分,通过图像分割能进一步对图像进行更高层次的分析和理解。它将图像细分为不同的子区域,是一个像素级的图像解析过程。目前主要分为语义分割、实例分割和全景分割,他们根据将目标实体划分为不同类别、不同实体、以及二者的结合体进行区分。
3.语义分割是图像分割领域中最基础、最重要的内容,它将同一类的像素点归为一类,精确地对像素点实现分类,广泛应用在无人驾驶、无人机自主巡航、医学影像处理、卫星遥感图像处理以及其他数字图像处理等领域。早期,传统方法率先实现图像的精准分割,主要包括基于阈值、边缘、区域的分割,以及结合了一些特定理论工具的算法,比如:基于形态学的分割、混合遗传算法、基于小波分析和变化的分割技术等;还有一些结合了机器学习的方法,比如:fcm聚类、区域水平集等。虽然,这些传统图像分割方法可以达到一定的分割精度,但仍依靠先验知识,对复杂目标分割的鲁棒性较差,细粒度信息提取能力较弱,无法很好地应用到现实生活场景。
4.近年来,深度学习得到了快速发展,并在图像分割领域取得了较为优秀的表现。凭借着深度学习模型快速、高效的执行能力与强大的泛化性能,可以在保证时间和空间效率的前提下达到高精度级别的分割。经典的全卷积网络(fully convolutional networks,fcn),为了在进行像素级分割时更好地判断图像中每个像素点的精确类别,增大感受野而设计,但由于反复的卷积堆叠丧失了对图像细节的关注;而后一些基于fcn的改进网络日益增多,比如:基于编码器-解码器结构的u-net、基于空洞金字塔池化aspp的deeplabv3系列网络、基于transformer和u-net的结合体transunet等,但这些模型存在着一些缺陷:u-net系列网络通过残差跳连完成跨层信息保留,整合了高、低层特征信息,打破了信息丢失、不同层信息零交互的局面,但带来了较多的信息冗余和噪声,这些无用信息很大程度上降低了模型的分割能力;deeplabv3系列网络通过加入空洞卷积金字塔池化aspp扩大感受野,但针对一些小目标对象分割效果较差。面对不同分割任务,空洞卷积带来了不必要的感受野,不具有普适性,并且,模型整体计算成本消耗较大;transformer系列的分割网络大多与u-net进行结合实现分割任务,已取得良好效果,但transformer训练的时间长、算力成本高、数据需求量大,不适用于数据集稀缺的生物医学图像分割领域。综上所述,在应用技术领域,分割任务还存在着一些局限性:
5.(1)大多数分割算法都局限于单一领域应用,同一个分割模型针对不同分割目标比如在遥感图像、自动抠图、无人驾驶,以及生物医学图像分割等领域没有很好的普适性,对于不同模态2d、3d等图像信息不能同时呈现较好的分割性能;
6.(2)形态分布、大小差距过大的分割目标,分割效果有显著差异,比如在分割遥感图像时针对不同大小的街道、楼房都可以达到较好的分割效果,但是对于街道中的小车、树
林这些轮廓较小的目标分割效果较差,不能很好地定位,并且在目标边界部位的分割更加模糊,不易处理;
7.(3)由于分割精度的要求,分割网络普遍较深、较广,内部结构复杂,导致模型参数量和计算量巨大,在推理过程中效率极低,而针对某些特定场景比如无人驾驶、卫星遥感观测中需要实时对目标进行分割和评价,对模型的时间、空间成本和推理速度有着很高的要求,现有的大部分分割模型在时间效率和分割精度上不能达到很好的平衡。


技术实现要素:

8.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种训练成本低、适用范围宽、分割性能好的图像语义分割模型。
9.为了解决上述技术问题,本发明采用了的技术方案:
10.一种图像语义分割模型,包括特征提取模块、特征融合模块和深度监督训练模块;从不同层次对特征进行提取、融合和监督,以提高模型的性能和泛化能力;
11.特征提取模块由六层stdc骨干卷积层组成,包括阶段1至阶段6,每一层都包括多个基本模块和不同的注意力模块以及尺寸不同的跳连,以及arrm模块进行特征注意力矫正筛选;设计思路是针对不同特征层使用不同的注意力机制,而不是简单地整合通道和空间注意力模块;对于低层特征,使用多尺度空间注意力机制msp模块,通过三个不同的池化层提取的空间信息;对于高层特征,使用通道注意力机制,实现对语义信息的针对性筛选,通过不同尺寸的跳连实现特征保留,从而优化结果;
12.特征融合模块将阶段3特征和整合后的阶段5特征输入mffm模块进行融合,实现高层语义信息和低层空间信息的提取与结合,提高分割性能,此外,考虑到部分分割目标存在边界模糊的特点,本模型从加强提取边界信息的能力、自适应调整模型感受野的角度入手,在mffm模块中引入了可变形卷积,可变形卷积在普通卷积后微调像素点的方向,实现卷积核的自适应扩张;实验结果表明:可变形卷积的加入进一步优化了预测边界与标签的重合程度,但过多使用会导致负优化。
13.深监督训练模块受unet++和unet3+启发,经过对比试验,深度监督训练模块采用三个层级的特征进行上采样,即阶段5特征、经过重塑的阶段6特征以及通过mffm模块融合的阶段3特征和阶段5特征,将这三个特征作为分割头的输入,并采用加权平均的方式获得最终的输出结果;这种深度监督方法有助于解决训练过程中的梯度消失问题,同时提高了分割的准确性和稳定性;
14.msp模块用于将输入特征分别在通道维度上做avgpooling,strip-pooling和maxpooling,通过三条池化路径获得分割目标在空间维度上丰富的特征信息;然后在通道上堆叠,再通过卷积调整通道数为1,使用sigmoid激活函数进行归一化得到空间注意力权重,最后将空间注意力权重与原特征矩阵点乘,同样需要跳连保留原始信息。条纹池化的加入使模块获取到目标特征周围水平,垂直维度的上下文信息,通过条带形的池化核使模型很好地在离散分布的区域之间建立长距离依赖关系,提取到比传统方形池化核更丰富的信息,msp模块的计算如下:
15.msp=σ(conv3×3(concat(avgpool(f
input
),strippool(f
input
),maxpool(f
input
))))
ꢀꢀ
(1)
[0016][0017]
其中σ表示sigmoid激活函数;concat表示通道拼接操作;
[0018]
arrm模块包括一个doublepooling-attention模块和残差跳连,先将输入特征图通过一个3
×
3卷积降维,经过两个并联的maxpooling和avgpooling后,再经过一个共享mlp层将通道压缩和扩张(ratio=4),最后将两个输出结果进行逐元素相加,通过bn层和sigmoid激活函数后得到相应的注意力矫正权重矩阵,经过与原特征矩阵点乘后再与原特征矩阵跳连,得到输出结果,本模块通过2个并联的不同池化操作使模型关注较突出和相对平均的全局信息,从两个角度提高了模型对特征的提取能力;同时利用跳连保留了信息,防止信息丢失,arrm模块的计算如下:
[0019]finput'
=relu(bn(conv3×3(f
input
)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0020]fmaxpool
=mlp(maxpool(f
input'
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0021]favgpool
=mlp(avgpool(f
input'
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0022][0023][0024]
其中f
input
表示输入的原始特征图,f
input'
表示经过卷积调整通道数后的新特征,maxpool和avgpool分别表示最大池化和平均池化操作,mlp表示共享的多层感知机,bn表示批量归一化,relu和σ表示不同的激活函数,和分别表示逐元素求和、点乘;dpa为双池化注意力模块;
[0025]
mffm模块包括含有msp模块与se模块的混合注意力机制和可变形卷积,输入端由低层级特征和高层语义特征组成,考虑到低层特征和高层特征的差异性,采取了不同的注意力机制进行处理;低层特征与微小特征点、边界轮廓信息十分相关。其分辨率大、通道数小,适合模型关注每个通道的特征图中重要区域和空间位置信息,低层特征处理时需要将输入的低层级特征通过msp模块;高层信息的特征矩阵通道数大、分辨率较小,适合模型关注更重要的通道,筛选掉不重要的噪声,高层信息处理时通过一个se模块;同样还使用了残差跳连保留信息,两个路径的特征经过注意力筛选后,分别通过一个可变形卷积进行自适应感受野的调整,以优化边界特征的提取,之后进行通道拼接,由于高层特征分辨率较低,需要先上采样到相同分辨率大小,拼接后的特征通过1x1卷积块增加非线性能力,之后与处理过的高层特征再拼接一次,加强语义指导,然后将拼接后的特征矩阵再使用一个可变形卷积进行特征提取,最后与经过msp模块筛选的底层特征进行加和后输出,mffm模块的计算如下::
[0026][0027][0028]fconcat1
=relu(bn(conv1×1(concat(f
output_low
,f
output_high
))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0029]fconcat2
=relu(bn(dconv3×3(concat(f
output_high
,f
concat1
))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0030][0031]
dconv表示为可变形卷积操作,ups为上采样操作,msp为msp模块,se为压缩和激励操作,f
input_low
和f
input_high
分别为输入mffm模块的低层、高层特征图,f
output_low
和f
output_high
分别表示为经过混合注意力机制筛选后的低层、高层特征;f
concat1
和f
concat2
为两次不同尺度特征融合后的结果;f
out
为最后的输出特征图。
[0032]
一种图像语义分割方法,包括以下步骤:
[0033]
(a)选取与待处理图片具有相同特征的图片数据集进行批量化数据预处理,根据分割目标设置对应的窗宽窗位,以增加目标区域的对比度呈现,再将图片数据转换成png格式的图片数据;
[0034]
(b)将步骤(a)中得到的图片数据集进行无交叉划分为训练集、验证集和测试集;
[0035]
(c)对训练集中的图片数据进行数据增强,包括随机旋转、随机水平翻转和随机垂直翻转,以增加数据多样性,防止模型训练过拟合;
[0036]
(d)为了应对不同任务存在尺度变化较大的分割目标(比如遥感影像下的房屋、行人),以及部分任务存在微小目标(比如生物医学病灶)的特点,目标区域变化较大且复杂,因此设计用于提高模型分割精度的损失函数,损失函数采用diceloss和bceloss的混合损失,其中α和β分别为diceloss和bceloss的权重超参数,两者相加和为1,实验中设置为[0.5,0.5],使模型训练更加平衡稳定,diceloss的损失表达式为:
[0037][0038]
bceloss的损失表达式为:
[0039][0040]
diceloss和bceloss的混合损失表达式为:
[0041]
l
seg
=α
·
l
dice

·
lbce
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0042]
n表示像素点总数,c表示类别总数,表示二进制的groundtruth中第c类,第i个像素对应类别值,表示对应类别的预测概率值;ε表示平滑指数且等于1e-5;
[0043]
(e)获取上述的所述图像语义分割模型;
[0044]
(f)基于损失函数对图像语义分割模型进行训练,利用神经网络在训练过程中梯度反向传播来更新模型权重,根据图像语义分割模型训练后在验证集上的分割效果来判断模型超参数设置是否更优,更新保存的模型权重,最后模型训练完毕,在测试集上进行图像语义分割效果的评估;在图像语义分割模型训练过程中,将深度监督训练模块输出的多个预测特征图像通过公式(15)处理后进行加权求平均的操作,得到总损失表达式为:
[0045][0046]
实验中设置n=3,此时模型以三个深监督分支作为输出时分割效果最好,考虑到输出的三个阶段特征图所对应的层级比较接近,所包含的特征信息没有太大差距,因此在
附加权重时直接求取平均值;图像语义分割模型训练完成后,即可对待处理的图片数据进行语义分割。
[0047]
相比现有技术,本发明具有以下优点:与传统分割算法相比,本发明不需要人工提供先验知识,依靠神经网络强大的学习能力使模型在不同分割任务上有着稳健的性能表现和更加优越的分割效果;与其他深度学习分割模型相比,本发明对cnn网络进行合理设计,让模型对不同感受野大小的分割目标实现自适应学习,打破了固有分割网络中感受野的局限;结合多种正则化手段加强了模型对于小目标特征、模糊边界特征等分割难例的特征提取能力,相较于其他优秀的分割模型有着更好的分割性能;针对不同任务也有着很好的表现;同时在时间、空间成本与推理速度上更优,满足轻量化要求。
附图说明
[0048]
图1为本发明图像语义分割模型的模型示意图;
[0049]
图2为本发明中msp模块示意图;
[0050]
图3为本发明中arrm模块示意图;
[0051]
图4为本发明中mffm模块示意图;
[0052]
图5为本发明中深度监督训练模块示意图;
[0053]
图6为本发明图像语义分割方法的流程图;
[0054]
图7为本发明提供的不同模型分割掩膜可视化对比图;
[0055]
图8为本发明提供的使用不同深度监督分支所提取到的特征可视化对比图。
具体实施方式
[0056]
如图1所示,本具体实施方式中的图像语义分割模型,包括特征提取模块、特征融合模块和深度监督训练模块;
[0057]
特征提取模块由六层stdc骨干卷积层组成,包括阶段1至阶段6,每一层都包括多个基本模块和不同的注意力模块以及尺寸不同的跳连,以及arrm模块进行特征注意力矫正筛选;对于低层特征,使用多尺度空间注意力机制msp模块,通过三个不同的池化层提取的空间信息;对于高层特征,使用通道注意力机制,实现对语义信息的针对性筛选,通过不同尺寸的跳连实现特征保留,从而优化结果;
[0058]
特征融合模块将阶段3特征和整合后的阶段5特征输入mffm模块进行融合,实现高层语义信息和低层空间信息的提取与结合,提高分割性能,在mffm模块中引入了可变形卷积,可变形卷积在普通卷积后微调像素点的方向,实现卷积核的自适应扩张;
[0059]
深度监督训练模块采用三个层级的特征进行上采样,即阶段5特征、经过重塑的阶段6特征以及通过mffm模块融合的阶段3特征和阶段5特征,将这三个特征作为分割头的输入,并采用加权平均的方式获得最终的输出结果;
[0060]
如图2所示,msp模块用于将输入特征分别在通道维度上做avgpooling,strip-pooling和maxpooling,通过三条池化路径获得分割目标在空间维度上丰富的特征信息;然后在通道上堆叠,再通过卷积调整通道数为1,使用sigmoid激活函数进行归一化得到空间注意力权重,最后将空间注意力权重与原特征矩阵点乘,msp模块的计算如下:
[0061]
msp=σ(conv3×3(concat(avgpool(f
input
),strippool(f
input
),maxpool(f
input
))))
ꢀꢀ
(1)
[0062][0063]
其中σ表示sigmoid激活函数;concat表示通道拼接操作;
[0064]
如图3所示,arrm模块包括一个doublepooling-attention模块和残差跳连,先将输入特征图通过一个3
×
3卷积降维,经过两个并联的maxpooling和avgpooling后,再经过一个共享mlp层将通道压缩和扩张,最后将两个输出结果进行逐元素相加,通过bn层和sigmoid激活函数后得到相应的注意力矫正权重矩阵,经过与原特征矩阵点乘后再与原特征矩阵跳连,得到输出结果,arrm模块的计算如下:
[0065]finput'
=relu(bn(conv3×3(f
input
)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0066]fmaxpool
=mlp(maxpool(f
input'
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0067]favgpool
=mlp(avgpool(f
input'
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0068][0069][0070]
其中f
input
表示输入的原始特征图,f
input'
表示经过卷积调整通道数后的新特征,maxpool和avgpool分别表示最大池化和平均池化操作,mlp表示共享的多层感知机,bn表示批量归一化,relu和σ表示不同的激活函数,和分别表示逐元素求和、点乘;dpa为双池化注意力模块;
[0071]
如图4所示,mffm模块包括含有msp模块与se模块的混合注意力机制和可变形卷积,输入端由低层级特征和高层语义特征组成;低层特征处理时需要将输入的低层级特征通过msp模块;高层信息处理时通过一个se模块;两个路径的特征经过注意力筛选后,分别通过一个可变形卷积进行自适应感受野的调整,以优化边界特征的提取,之后进行通道拼接,拼接后的特征通过1x1卷积块增加非线性能力,之后与处理过的高层特征再拼接一次,加强语义指导,然后将拼接后的特征矩阵再使用一个可变形卷积进行特征提取,最后与经过msp模块筛选的底层特征进行加和后输出,mffm模块的计算如下::
[0072][0073][0074]fconcat1
=relu(bn(conv1×1(concat(f
output_low
,f
output_high
))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0075]fconcat2
=relu(bn(dconv3×3(concat(f
output_high
,f
concat1
))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0076][0077]
dconv表示为可变形卷积操作,ups为上采样操作,msp为msp模块,se为压缩和激励操作,f
input_low
和f
input_high
分别为输入mffm模块的低层、高层特征图,f
output_low
和f
output_high
分别表示为经过混合注意力机制筛选后的低层、高层特征;f
concat1
和f
concat2
为两次不同尺度特征融合后的结果;f
out
为最后的输出特征图。
[0078]
本模型在训练过程中使用深度监督方法进行特征正则化,在网络的2个阶段的隐藏层后和最后的输出层都设置了监督,使神经网络的中间层也能得到很好的训练;同时由
于本模型不同阶段的跳连,缓解了梯度消失问题,降低了深监督的训练难度。
[0079]
根据附图5可视化特征图结果可以看到,不同阶段的特征差异较大,所选择的三个深监督分支层4、5、6产生的特征图通过训练正则化后变化相对均衡,模型的roi像素区域相近。整体以深监督分支的形式展示了神经网络分层特征的表达,融合了不同尺度的特征图,达到高、中、低层特征的充分利用,保证了更稳健的优化过程和更好的表达能力。
[0080]
如图6所示,一种图像语义分割方法,包括以下步骤:
[0081]
(a)选取与待处理图片具有相同特征的图片数据集进行批量化数据预处理,根据分割目标设置对应的窗宽窗位,再将图片数据转换成png格式的图片数据;
[0082]
(b)将步骤(a)中得到的图片数据集进行无交叉划分为训练集、验证集和测试集;
[0083]
(c)对训练集中的图片数据进行数据增强,包括随机旋转、随机水平翻转和随机垂直翻转;(d)设计用于提高模型分割精度的损失函数,损失函数采用diceloss和bceloss的混合损失,其中α和β分别为diceloss和bceloss的权重超参数,两者相加和为1,diceloss的损失表达式为:
[0084][0085]
bceloss的损失表达式为:
[0086][0087]
diceloss和bceloss的混合损失表达式为:
[0088]
l
seg
=α
·
l
dice

·
l
bce
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0089]
n表示像素点总数,c表示类别总数,表示二进制的groundtruth中第c类,第i个像素对应类别值,表示对应类别的预测概率值;ε表示平滑指数且等于1e-5;
[0090]
(e)获取上述的所述图像语义分割模型;
[0091]
(f)基于损失函数对图像语义分割模型进行训练,利用神经网络在训练过程中梯度反向传播来更新模型权重,根据图像语义分割模型训练后在验证集上的分割效果来判断模型超参数设置是否更优,更新保存的模型权重,最后模型训练完毕,在测试集上进行图像语义分割效果的评估;在图像语义分割模型训练过程中,将深度监督训练模块输出的多个预测特征图像通过公式(15)处理后进行加权求平均的操作,得到总损失表达式为:
[0092][0093]
图像语义分割模型训练完成后,即可对待处理的图片数据进行语义分割。
[0094]
其中,图像语义分割模型进行训练涉及的分割评价指标计算原理如下:dsc(dice similarity coefficient)和iou(intersection over union)反映预测图像和标签的重合程度,值越大说明分割效果越好;hd(hausdorff distance)为双向hd,含义为求集合x与集合y从两个方向计算得到的两个最大距离中最小的距离,值越小说明二者边界差距越小;se(sensitivity)反映模型区分正样本的能力,也是值越大越好。
[0095][0096][0097][0098][0099][0100]
式中集合x和y分别表示预测和标签;tp表示被模型预测为正类的正样本,tn表示被模型预测为负类的负样本;fp表示被模型预测为正类的负样本;fn表示被模型预测为负类的正样本,d(x,y)表示从x到y的距离。针对数据集进行训练的所有模型测试结果都以均值和标准差的分布构成,所有指标均超过了置信水平的95%。
[0101]
本实施例以颅内出血(ich)的ct病灶分割为例。经过数据预处理后得到了2090张自发型出血ct切片,728张创伤型出血ct切片,并按照8:1:1的比例划分训练、验证、测试集合,最后得到了两个数据集a,b。经过数据增强后进行模型训练,在验证和测试模型分割性能时使用以下指标对分割模型进行评估:dice系数(dsc),交并比(iou),hd距离(hd),灵敏度(se)。
[0102]
将本发明的图像语义分割模型(dfma-seg算法)与多种优秀的分割算法进行对比,在自发型ich数据集上分割结果如表1,在创伤型ich数据集上分割结果如表2,可视化对比效果如图7;此外还针对深监督分支做了对比实验,得出了dfma-seg算法最适合训练的分支层数(n=3),对比结果如表3所示,可视化深监督分支特征如图8所示;最后从计算的时间、空间成本角度进行对比,如表4所示,使用参数量(#.params.)、内存占用(memory)、计算量(flops)、推理速度(inference-time)四个指标进行评估。所有实验表明,dfma-seg算法在本实施案例中拥有最好的分割性能,并且有着最少的计算量和内存占用,推理速度较快,满足轻量化要求。
[0103][0104]
表1在数据集a上模型对比结果
[0105][0106]
表2在数据集b上模型对比结果
[0107][0108]
表3深监督分支(deepsup)对比结果
[0109][0110]
表4时间、空间开销对比
[0111]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。

技术特征:
1.一种图像语义分割模型,其特征在于:包括特征提取模块、特征融合模块和深度监督训练模块;特征提取模块由六层stdc骨干卷积层组成,包括阶段1至阶段6,每一层都包括多个基本模块和不同的注意力模块以及尺寸不同的跳连,以及arrm模块进行特征注意力矫正筛选;对于低层特征,使用多尺度空间注意力机制msp模块,通过三个不同的池化层提取的空间信息;对于高层特征,使用通道注意力机制,实现对语义信息的针对性筛选,通过不同尺寸的跳连实现特征保留,从而优化结果;特征融合模块将阶段3特征和整合后的阶段5特征输入mffm模块进行融合,实现高层语义信息和低层空间信息的提取与结合,提高分割性能,在mffm模块中引入了可变形卷积,可变形卷积在普通卷积后微调像素点的方向,实现卷积核的自适应扩张;深度监督训练模块采用三个层级的特征进行上采样,即阶段5特征、经过重塑的阶段6特征以及通过mffm模块融合的阶段3特征和阶段5特征,将这三个特征作为分割头的输入,并采用加权平均的方式获得最终的输出结果;msp模块用于将输入特征分别在通道维度上做avgpooling,strip-pooling和maxpooling,通过三条池化路径获得分割目标在空间维度上丰富的特征信息;然后在通道上堆叠,再通过卷积调整通道数为1,使用sigmoid激活函数进行归一化得到空间注意力权重,最后将空间注意力权重与原特征矩阵点乘,msp模块的计算如下:msp=σ(conv3×3(concat(avgpool(f
input
),strippool(f
input
),maxpool(f
input
))))
ꢀꢀ
(1)其中σ表示sigmoid激活函数;concat表示通道拼接操作;arrm模块包括一个doublepooling-attention模块和残差跳连,先将输入特征图通过一个3
×
3卷积降维,经过两个并联的maxpooling和avgpooling后,再经过一个共享mlp层将通道压缩和扩张,最后将两个输出结果进行逐元素相加,通过bn层和sigmoid激活函数后得到相应的注意力矫正权重矩阵,经过与原特征矩阵点乘后再与原特征矩阵跳连,得到输出结果,arrm模块的计算如下:f
input'
=relu(bn(conv3×3(f
input
)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)f
maxpool
=mlp(maxpool(f
input'
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)f
avgpool
=mlp(avgpool(f
input'
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)(5)其中f
input
表示输入的原始特征图,f
input'
表示经过卷积调整通道数后的新特征,maxpool和avgpool分别表示最大池化和平均池化操作,mlp表示共享的多层感知机,bn表示批量归一化,relu和σ表示不同的激活函数,和分别表示逐元素求和、点乘;dpa为双池化注意力模块;mffm模块包括含有msp模块与se模块的混合注意力机制和可变形卷积,输入端由低层级特征和高层语义特征组成;低层特征处理时需要将输入的低层级特征通过msp模块;高层
信息处理时通过一个se模块;两个路径的特征经过注意力筛选后,分别通过一个可变形卷积进行自适应感受野的调整,以优化边界特征的提取,之后进行通道拼接,拼接后的特征通过1x1卷积块增加非线性能力,之后与处理过的高层特征再拼接一次,加强语义指导,然后将拼接后的特征矩阵再使用一个可变形卷积进行特征提取,最后与经过msp模块筛选的底层特征进行加和后输出,mffm模块的计算如下::层特征进行加和后输出,mffm模块的计算如下::f
concat1
=relu(bn(conv1×1(concat(f
output_low
,f
output_high
))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)f
concat2
=relu(bn(dconv3×3(concat(f
output_high
,f
concat1
))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)dconv表示为可变形卷积操作,ups为上采样操作,msp为msp模块,se为压缩和激励操作,f
input_low
和f
input_high
分别为输入mffm模块的低层、高层特征图,f
output_low
和f
output_high
分别表示为经过混合注意力机制筛选后的低层、高层特征;f
concat1
和f
concat2
为两次不同尺度特征融合后的结果;f
out
为最后的输出特征图。2.一种图像语义分割方法,其特征在于:包括以下步骤:(a)选取与待处理图片具有相同特征的图片数据集进行批量化数据预处理,根据分割目标设置对应的窗宽窗位,再将图片数据转换成png格式的图片数据;(b)将步骤(a)中得到的图片数据集进行无交叉划分为训练集、验证集和测试集;(c)对训练集中的图片数据进行数据增强,包括随机旋转、随机水平翻转和随机垂直翻转;(d)设计用于提高模型分割精度的损失函数,损失函数采用diceloss和bceloss的混合损失,其中α和β分别为diceloss和bceloss的权重超参数,两者相加和为1,diceloss的损失表达式为:bceloss的损失表达式为:diceloss和bceloss的混合损失表达式为:l
seg
=α
·
l
dice

·
l
bce
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)n表示像素点总数,c表示类别总数,表示二进制的groundtruth中第c类,第i个像素对应类别值,表示对应类别的预测概率值;ε表示平滑指数且等于1e-5;(e)获取权利要求1中的所述图像语义分割模型;(f)基于损失函数对图像语义分割模型进行训练,利用神经网络在训练过程中梯度反向传播来更新模型权重,根据图像语义分割模型训练后在验证集上的分割效果来判断模型
超参数设置是否更优,更新保存的模型权重,最后模型训练完毕,在测试集上进行图像语义分割效果的评估;在图像语义分割模型训练过程中,将深度监督训练模块输出的多个预测特征图像通过公式(15)处理后进行加权求平均的操作,得到总损失表达式为:图像语义分割模型训练完成后,即可对待处理的图片数据进行语义分割。

技术总结
本发明公开了一种图像语义分割模型,由设计的混合的注意力聚焦方法与注意力矫正残差模块(ARRM)、混合特征整合模块(MFFM)构成,整体采用深度监督方式训练,合理加入可变形卷积,结合构建的多尺度空间注意力模块(MSP)与双池化注意力模块(DPA)进行联合优化,解决了小目标特征分割难的问题。为了体现模型在下游任务上的优异表现,采用迁移学习的方式完成了在不同数据集之间的训练,扩大了模型的适用范围。最后,在骨干网络中加入分组卷积大大减少了计算成本,合理的网络深度与内部模块设计在保证分割效果的前提下解决了分割模型训练成本高的问题。本高的问题。本高的问题。


技术研发人员:肖汉光 时心怡 宋旺旺 薛旭枫 曹刘洋 李玉麟
受保护的技术使用者:重庆理工大学
技术研发日:2023.04.26
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐