一种基于注意力和局部拼接的图像级弱监督语义分割方法

未命名 10-19 阅读:118 评论:0


1.本发明属于计算机视觉技术领域,具体涉及一种基于注意力和局部拼接的图像级弱监督语义分割方法。


背景技术:

2.语义分割是计算机视觉领域十分关键的技术领域,主要是根据输入图像的语义进行逐像素级别的图像识别。语义分割的应用场景非常广泛,例如:一、自动驾驶系统,利用车载摄像头或者激光雷达探查到图像后输入到神经网络中,计算机可以自动将图像分割归类,避让行人和车辆等障碍,达到环境感知的目的。二、智能医疗,主要是应用于在医疗影像分析方面,例如肿瘤图像分割、龋齿诊断等,能够有效降低医生的工作负担,帮助医生辅助进行病情诊断。3、地理信息系统,通过训练神经网络对卫星遥感影像进行识别,自动识别道路、河流、庄稼、建筑物等,并对影像中每个像素进行分类标注。
3.全卷积网络(fully convolutional networks,fcn)是2015年提出的用于图像语义分割的框架。fcn主要是将传统cnn的全连接层换成卷积块,网络的输出将是热力图而非识别的类别,并且没有了全连接层的输入层神经元个数的限制,所以卷积块的输入可以接受不同尺寸的图像;同时为解决卷积和池化导致图像尺寸变小,使用上采样方式对图像尺寸进行恢复。
4.同年发表的unet网络是对fcn的改进,它是一种典型的编码-解码结构,包括编码器上采样、解码器下采样和跳层链接三个部分。unet网络种持续的下采样导致图像分辨率大幅下降,损失了大量细节信息,即使通过上采样也难以恢复。基于此,deeplab系列首次引入空洞卷积块来代替下采样层,在不改变图像维度、不增加参数的同时还扩大了感受野,获取了更多上下文信息。同时引入aspp模块实现了特征图的多尺度融合,大大提升了语义分割的效果。
5.在以上研究的基础上,最新研究提出的transformer算法和语义分割的结合,利用注意力机制更好的捕捉了全局上下文信息,提高算法精度。
6.近年来尽管语义分割取得了很大进步,然而,主流的语义分割算法任然需要大量的已标注数据,人为地逐像素标注这些数据费时费力且成本十分昂贵。为了减轻这一负担,过去几年研究人员越来越关注构建标签高效的深度学习算法,弱监督语义分割算法就是其中之一。弱监督语义分割不再使用传统的完全由人工标注好的数据作为标签进行训练,而是用一种更粗糙但更简洁的标注数据进行训练。根据弱监督信号的形式,常见的弱监督语义分割可分为以下四类:
7.图像级标注:仅标注图像中相关物体所属的类别,是最简单的标注;
8.物体点标注:标注各个物体上某一点,以及相应类别;
9.物体框标注:标注各个物体所在的矩形框,以及相应类别;
10.物体涂鸦标注:在各个物体上划一条线,以及相应类别。
11.其中相关研究最多的方法仍然是图像级别标注的弱监督语义分割。但是图像级弱
监督语义分割的难点在于图像级监督和像素级监督的差距太大了。为了弥补这种监督信息上的差距,通常要遵循以下两个步骤:首先,利用图像级标注的图像类别标签,通过单标签或多标签分类的方式,训练出一个分类模型。该分类模型通过计算图像中相应类别的类别特征响应图(以下简称类激活图cam)来生成种子区域,通过将语义信息从种子区域传播到整个图像来生成伪标签。然后,利用伪标签作为“真实标签”训练传统的分割网络,从而实现图像的像素级、密集性预测。
12.图像级弱监督语义分割存在以下两部分缺陷:
13.缺陷一、为了实现图像级弱监督语义分割的两步走流程,通常需要单独设计多个分支神经网络:如伪标签生成网络、类激活图cam优化网络、语义分割网络等等。虽然两步法可以有效提升分割的性能,但同时也造成了算法程序变得庞大而复杂,计算量显著增大等问题。
14.缺陷二、类激活图cam本质是利用交叉标签约束(cross-label constraint)的先验,来根据分类模型提供的信息定位图像中的种子区域。然而,类激活图cam存在两个局限性:(1)不完整性:cam类激活图生成的种子区域通常比较粗糙,忽略了很多物体的边缘细节特征,通常无法覆盖目标类的完整语义区域;(2)冗余:一个类激活图cam可能与其他类的区域重叠,伴有错误分类的问题。这两点导致生成的伪标签不够准确,进而影响后续的分割效果。


技术实现要素:

15.针对现有技术的上述不足,本发明提供一种基于注意力和局部拼接的图像级弱监督语义分割方法,以解决上述技术问题。
16.本发明提供一种基于注意力和局部拼接的图像级弱监督语义分割方法,包括:
17.获取训练样本集,并对训练样本集中的标签图像进行预处理;
18.搭建语义分割网络模型,包括特征提取骨干网络、图像级弱监督模块和一个分割头;所述图像级弱监督模块包括循环多级交叉注意力模块、伪标签生成模块;通过所述特征提取骨干网络提取图像深层特征和语义信息得到特征图;通过循环多级交叉注意力模块引入不同层次特征图像素间长距离依赖,通过伪标签生成模块生成的伪标签作为真实标签,伪标签生成模块的其中一个分支用于将特征图无重叠切割成四小块,分别生成四小块类激活图并拼接在一起,所述伪标签生成模块的另一个分支将原始输入图像无重叠切割成四块,以位置权重代替全局权重生成四小块类激活图并拼接在一起;将两个分支拼接后的类激活图拼接得到相加,得到最终类激活图cam;将类cam激活图和伪标签输入分割头得到分割效果图;
19.训练语义分割网络模型选择损失函数将训练出的分割效果图和标签图像进行损失的计算,反向传播到语义分割网络模型中更新网络权重,逐步达到模型最优模式,保存语义分割模型。
20.进一步的,所述特征提取骨干网络为残差网络resnet101,以图像x作为输入,经过特征提取骨干网络后得到特征图f(x)。
21.进一步的,所述循环多级交叉注意力模块用于:
22.将所述特征提取骨干网络输出的特征图f(x)作为所述循环多级交叉注意力模块
的输入特征;
23.将特征图f(x)先经过一个三维卷积块,并通过一个bn层生成富含局部信息的浅层特征图f
11
(x);
24.将浅层特征图f
11
(x)分成两部分,每部分分别经过一个一维卷积块,得到了特征图k和q;
25.将浅层特征图f
11
(x)再经过一个一维卷积块,并通过一个bn层生成富含语义信息的深层特征图f
12
(x);
26.将深层特征f
12
(x)经过一个一维卷积块,得到了特征图v;
27.其中,特征图k,q,v均为四维矩阵b
×c×h×
w,b为表示单次传递给程序用以训练的数据个数,c为特征图的通道数;h为特征图的长,w为特征图的宽;
28.以特征图k和q作为输入进行一次affinity操作,用特征图k的每一个位置所有通道的像素值分别与k对应位置及所在行列上q的所有通道的像素值进行加权求和,并进行softmax归一化操作,得到浅层特征图f
11
(x)各个像素之间关系的权值矩阵;
29.将所述权值矩阵与特征图v进行聚合操作,即:用权值矩阵的每一个位置所有通道的像素值,分别与特征图v的每一层通道对应位置和所在行和列的像素值进行加权求和,得到聚合矩阵
30.将聚合矩阵和深层特征图f
12
(x)对应相加得到特征图f
21
(x);
31.特征图f
21
(x)经过一个一维卷积块再经过一个bn层生成深层特征f
22
(x);
32.以特征图f
21
(x)、f
21
(x)作为输入特征再次输入所述循环多级交叉注意力模块,生成最终的特征图f
31
(x)。
33.进一步的,所述伪标签生成模块采用了二分支结构;
34.首先将原始输入图像x平均分成不重叠的四块小图像x’;同时将x和x’经过特征提取骨干网络后,又在所述循环多级交叉注意力模块中分别得到特征图f(x),f(x’)
11
,f(x’)
12
,f(x’)
21
,f(x’)
22

35.其中一个分支用于:将特征图f(x)的每一层均分成不重叠的四块特征区域,并分别在四块特征区域内进行全局平均池化并展开,经过全连接层生成对应类别的权重矩阵w,将四块的特征区域与对应的权重矩阵w相乘后求和,得到拼接的类激活图cam0;
36.另一个分支用于:将四个小特征图f(x’)
11
,f(x’)
12
,f(x’)
21
,f(x’)
22
进行完整区域的全局平均池化,随后经过全连接层生成对应类别的权重矩阵w,分别与每一层对应的小特征图进行相乘再相加,分别得到四个类激活图
37.cam
11
,cam
12
,cam
21
,cam
22
,并将其无缝隙拼接在一起,类激活图cam1;
38.最后再将两个分支得到的类激活图cam0和类激活图cam1进行相加,得到最终类激活图cam,通过类激活图cam生成对应的伪标签。
39.进一步的,将生成的伪标签作为监督信息送入到分割头中进行模型的训练,训练过程通过梯度下降和反向传播对网络的权重进行更新,选择损失函数和最优评估指标,将网络训练出的图像和标签图像进行损失的计算,反向传播到网络中更新网络权重,逐步达到模型最优模式。
40.进一步的,所述训练语义分割网络模型选择损失函数将训练出的分割效果图和标签图像进行损失的计算中,分割效果图和标签图像的损失选择交叉熵损失函数,所述交叉
熵损失函数是基于伪标签生成模块提供的伪标签,公式为:
[0041][0042]
其中,l是分割效果图和标签图像的损失,n是样本个数,c是真实样本类别,c是样本类别数,y
ic
是样本标签数值,如果像素k的标签是c,则等于1,否则为0,p
ic
是来自经过训练的分割网络的且经过softmax归一化的属于c类的输出概率。
[0043]
进一步的,伪标签生成模块中二分支的损失函数l1和l2为cross entropy loss损失函数,公式为:
[0044][0045]
其中c是样本类别,c是样本类别数,yc是样本标签数值,属于c类yc等于1,否则为0,是经过伪标签生成模块的预测出属于c类的输出概率。
[0046]
进一步的,伪标签生成模块还包括在类激活图cam0和类激活图cam1之间引入了1范数,生成激活图cam的损失函数l3,用于最小化执行拼接前后两个类激活图之间的距离,提高网络预测的一致性,公式为:
[0047]
l3=||cam
0-cam1||1。
[0049]
进一步的,还包括:保存权重训练后的语义分割网络模型,经过所述循环多级交叉注意力模块得到的特征图f
31
(x)作为分割头的输入,先分别经过一个三维卷积块和relu层,再经过一个三维卷积块,最终得到分割图。
[0050]
本发明的有益效果在于:
[0051]
(1)本发明设计了一个完整的端到端的图像级弱监督语义分割网络。通过伪标签生成模块和循环多级交叉注意力模块,两个模块共同协作,仅需要一步就可以解决弱监督语义分割从生成伪标签到训练分割网络两大缺陷,极大简化了弱监督语义分割的网络结构,避免了算法程序的复杂化和过于庞大,对比传统的两步法图像级弱监督语义分割,明显提升了语义分割网络的计算量。
[0052]
(2)本发明在伪标签生成模块采用了一种二分支结构。其中一个分支将输入图像无重叠切割成四小块,经过分类网络分别生成四小块类激活图cam并拼接在一起。拼接后的大类激活图cam关注的物体区域比原始的类激活图cam更大;另一个分支以原始大小的输入图像作为输入。不再使用完整特征图进行全平均池化生成全局权重,而是将特征图无重叠切割成四块,对每一块进行全局平均池化操作,每一层特征图由此得到了四个位置权重,将位置权重代替全局权重使得类激活图cam更加关注物体的局部特征尤其是对于浅层位置信息的提取更加细致,从而提高了类激活图cam的质量。
[0053]
(3)本发明引入了循环多级交叉注意力模块。对于图像中每个像素,一个交叉注意力模块获取其交叉路径上所有像素的上下文信息。通过进行进一步的循环操作,每个像素最终可以捕获完整的远距离图像相关性。同时注意力模块融合了浅层特征和深层特征,探索不同级别特征图之间的远距离的像素相关性。在解决了传统non-local注意力模块的运算量庞大、无法照顾到不同层级特征图间远距离关系等问题,极大提升了语义分割效果。
附图说明
[0054]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0055]
图1是本发明一个实施例的搭建的语义分割网络模型的主干网络结构;
[0056]
图2是本发明一个实施例的循环多级交叉注意力模块的结构示意图;
[0057]
图3是本发明一个实施例的伪标签生成模块的结构示意图;
[0058]
图4是本发明一个实施例的分割头的结构示意图。
具体实施方式
[0059]
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0060]
针对现有技术方案的缺陷一:
[0061]
本发明设计了一个完整的端到端弱监督语义分割网络。具体而言,本发明共设计了两个模块:伪标签生成模块和循环多级交叉注意力模块。两个模块共同协作,仅需要一步就可以解决弱监督语义分割从生成伪标签到训练分割网络两大问题,极大简化了弱监督语义分割的网络结构。
[0062]
针对现有技术方案的缺陷二:
[0063]
为了进一步生成富含更多细节的类激活图cam,伪标签生成模块采用了一种二分支结构。研究发现,将图像切割成不重叠的块产生的类激活图cam拼接后,形成的完整类激活图cam关注的物体区域比原始的类激活图cam更大。故其中一个分支沿用上述思想,将输入图像无重叠切割成四块,经过分类网络分别生成四块小类激活图cam并拼接在一起。拼接后的大类激活图cam关注的物体区域更大更完整。
[0064]
另一个分支则以原始大小的输入图像作为输入。由于全局权重不能完全代表特征图中不同位置在目标类别的重要性。故不再使用完整特征图进行全平均池化(gap)生成全局权重,而是将特征图无重叠切割成四块,对每一块进行全局平均池化操作,每一层特征图由此得到了四个位置权重。将位置权重代替全局权重使得类激活图cam更加关注物体的局部特征,提高了类激活图cam的质量。
[0065]
此外,为提升语义分割效果,本发明引入了循环多级交叉注意力模块。对于每个像素,一个交叉注意力模块获取其交叉路径上所有像素的上下文信息。通过进行进一步的循环操作,每个像素最终可以捕获完整的远距离图像相关性。同时注意力模块融合了浅层特征和深层特征,探索不同级别特征之间的远距离图像相关性。在解决注意力模块的运算量庞大、不同层级特征间远距离关系等问题的同时,极大提升了语义分割效果。
[0066]
下面针对上述内容,对本发明实施例提供的基于注意力和局部拼接的图像级弱监督语义分割方法,进行详细说明。
[0067]
该方法包括:获取训练样本集和测试样本集,并对训练样本标签图像进行预处理;
[0068]
搭建语义分割网络模型,包括特征提取骨干网络、图像级弱监督模块和一个分割头;所述图像级弱监督模块包括循环多级交叉注意力模块、伪标签生成模块;通过所述特征提取骨干网络提取图像深层特征和语义信息;通过循环多级交叉注意力模块引入不同层次特征图像素间长距离依赖关系,通过伪标签生成模块生成的伪标签作为真实标签,将类cam激活图和伪标签输入分割头得到分割效果图;
[0069]
训练语义分割网络模型选择损失函数将训练出的图像和标签图像进行损失的计算,反向传播到语义分割网络模型中更新网络权重,逐步达到模型最优模式,保存语义分割模型结构。
[0070]
在本实施例中,步骤二搭建的主干网络结构如图1所示,主要分为三个部分:第一部分是用来提取图像深层特征和语义信息的特征提取骨干网络;第二部分是引入不同层次特征图像素间长距离依赖关系并生成cam激活图、得到伪标签的图像级弱监督模块;第二部分又分为循环多级交叉注意力模块和伪标签生成模块两个分支;第三部分是分割头,用于将图像级弱监督模块输出的特征图和伪标签分别作为输入和监督信息,最终得到分割效果图。
[0071]
可选地,作为本发明的一种实施例,所使用的数据集分别有pascol voc 2012和coco,分别将pascol voc 2012和coco数据集划分为训练样本集和测试样本集;所有数据经过预处理后,用经过裁剪的图像h
×
w大小为448
×
448作为整个语义分割网络的输入,训练样本集和测试样本集中标注类别的图像作为标签图像。
[0072]
可选地,作为本发明的一种实施例,所述特征提取骨干网络为残差网络resnet101,以图像x(h
×
w为448
×
448)作为输入,经过特征提取骨干网络后得到特征图f(x)。
[0073]
具体地,残差网络resnet101在提取到图像更深层特征的同时可以解决网络层数过深时,神经网络效果退化、梯度弥散或梯度爆炸的情况,有利于提高特征提取的准确度和效率。
[0074]
可选地,作为本发明的一种实施例,可选地,作为本发明的一种实施例,在伪标签生成模块中,第二部分又分为循环多级交叉注意力模块和伪标签生成模块两个分支。所述循环多级交叉注意力模块如图2所示,用来引入不同层次特征图像素间长距离依赖关系的。
[0075]
将所述特征提取骨干网络输出的特征图f(x)作为所述循环多级交叉注意力模块的输入特征;
[0076]
将特征图f(x)先经过一个三维卷积块,并通过一个bn层生成富含局部信息的浅层特征图f
11
(x);
[0077]
将浅层特征图f
11
(x)分成两部分,每部分分别经过一个一维卷积块,得到了特征图k和q;
[0078]
将浅层特征图f
11
(x)再经过一个一维卷积块,并通过一个bn层生成富含语义信息的深层特征图f
12
(x);
[0079]
将深层特征f
12
(x)经过一个一维卷积块,得到了特征图v;
[0080]
其中,在本实施例中,使用的三维卷积块的卷积核k大小为3
×
3,步长s为1,填充数p为1;一维卷积块的卷积核k大小为1
×
1,步长s为1,填充数p为0。
[0081]
其中,特征图k,q,v均为四维矩阵b
×c×h×
w,b为表示单次传递给程序用以训练
的数据个数,c为特征图的通道数;h为特征图的长,w为特征图的宽;在本实施例中,b设置为4,特征图k和q通道数c为128,特征图v的通道数c为1024;三个特征图长和宽h
×
w均为56
×
56。
[0082]
以特征图k和q作为输入做一次affinity操作,用特征图k的每一个位置所有通道的像素值分别与k对应位置及所在行列上q的所有通道的像素值进行加权求和,并进行softmax归一化操作,得到浅层特征图f
11
(x)各个像素之间关系的权值矩阵;在本实施例中,得到的权值矩阵的大小为56
×
56
×
112。
[0083]
将所述权值矩阵与特征图v进行聚合操作,即:用权值矩阵的每一个位置所有通道的像素值,分别与特征图v的每一层通道对应位置和所在行和列的像素值进行加权求和;在本实施例中,聚合后生成通道数c为1024,长和宽h
×
w为56
×
56的聚合矩阵;
[0084]
将聚合矩阵和深层特征图f
12
(x)对应相加得到特征图f
21
(x);
[0085]f21
(x)经过一个一维卷积块再经过一个bn层生成深层特征f
22
(x);在本实施例中f
21
(x)经过一个卷积核k大小为1
×
1,步长s为1,填充数p为0的一维卷积块;
[0086]
以f
21
(x)、f
21
(x)作为输入特征再次输入所述循环多级交叉注意力模块,生成最终的特征图f
31
(x)。
[0087]
如图3所示,本发明在伪标签生成模块采用了一种二分支结构。其中一个分支将输入特征图无重叠切割成四小块,经过分类网络分别生成四小块类激活图cam并拼接在一起,经过拼接后的大类激活图cam关注的物体区域比原始的类激活图cam更大。另一个分支以原始图像作为输入,无需使用完整特征图进行全平均池化(gap)生成全局权重,而是将特征图无重叠切割成四块,对每一块特征区域进行全局平均池化操作,每一层特征图由此得到了四个位置权重,将位置权重代替全局权重生成各个区域的类激活图cam,使得类激活图cam更加关注物体的局部特征尤其是对于浅层位置信息的提取更加细致,从而提高了类激活图cam的质量。
[0088]
具体地,其中一个分支用于:将图像x输入所述特征提取骨干网络后得到特征图f(x);将特征图f(x)的每一层均分成不重叠的四块特征区域,并分别在四块特征区域内进行全局平均池化(gap)并展开,经过全连接层生成对应类别的权重矩阵w,将四块的特征区域与对应的权重矩阵w相乘后求和,得到类激活图cam0。
[0089]
具体地,另一个分支:首先将原始输入图像x平均分成不重叠的四块小图像x’;在本实施例中,经过裁剪的四张图像h
×
w大小为112
×
112;然后四块小图像x’经过特征提取骨干网络后,又在所述循环多级交叉注意力模块中分别得到特征图f(x),f(x’)
11
,f(x’)
12
,f(x’)
21
,f(x’)
22
;将四个小特征图f(x’)
11
,f(x’)
12
,f(x’)
21
,f(x’)
22
进行完整区域的全局平均池化,随后经过全连接层生成对应类别的权重矩阵w,分别与每一层对应的小特征图进行相乘再相加,分别得到四个类激活图cam
11
,cam
12
,cam
21
,cam
22
,在本实施例中,四个类激活图
[0090]
cam
11
,cam
12
,cam
21
,cam
22
长和宽h
×
w均为112
×
112;并将其无缝隙拼接在一起,类激活图cam1;在本实施例中,类激活图cam1长和宽h
×
w为448
×
448。
[0091]
两个分支合并:最后再将类激活图cam0和类激活图cam1进行相加,得到最终类激活图cam,在本实施例中,类激活图cam长和宽h
×
w为448
×
448。
[0092]
最终通过类激活图cam生成对应的伪标签,生成伪标签的常见方法之一是阈值化,阈值化的一般步骤主要由以下几步构成:
[0093]
设定阈值:选择一个适当的阈值来筛选类激活图cam高激活值的区域。阈值可以手动设置,也可以根据统计分析或交叉验证等方法进行选择。
[0094]
区域划分:将类激活图cam根据设定的阈值进行区域划分,将高于阈值的像素保留,低于阈值的像素标记为0。随后进行归一化操作,这样就得到了一个二值图像,其中高激活值的区域被突出显示。区域划分的具体公式如下:
[0095][0096]
其中,m
i,j
是类激活图cam,i,j表示类激活图cam的像素索引位置,
ɑ
为设定的阈值。
[0097]
形态学操作:如膨胀和腐蚀,实现进一步扩展或过滤候选区域;其中膨胀可以扩展高激活值的区域,腐蚀可以去除孤立的小区域。
[0098]
最终候选区域:根据阈值化和形态学操作的结果,得到最终的候选区域,即为与伪标签相关的区域。
[0099]
可选的,作为本发明的一种实施例,将生成的伪标签作为监督信息送入到分割头中进行模型的训练,训练过程通过梯度下降和反向传播对网络的权重进行更新,选择损失函数和最优评估指标,将网络训练出的图像和标签图像进行损失的计算,反向传播到网络中更新网络权重,逐步达到模型最优模式。本发明设定训练轮数为200轮。
[0100]
可选的,作为本发明的一种实施例,通过网络训练模型后输出分割图与训练样本集中标签图像进行损失函数的计算,损失函数选择交叉熵损失函数,所述交叉熵损失函数是基于伪标签生成模块提供的伪标签,公式为:
[0101][0102]
其中,l是损失,n是样本个数,c是真实样本类别ground truth,c是样本类别数,y
ic
是样本标签数值,如果像素k的标签是c,则等于1,否则为0,p
ic
是来自经过训练的分割网络的且经过softmax归一化的属于c类的输出概率。
[0103]
可选的,作为本发明的一种实施例伪标签生成模块中两个分支的损失函数l1和l2为cross entropy loss损失函数,公式为:
[0104][0105]
其中c是样本类别,c是样本类别数,yc是样本标签数值,属于c类yc等于1,否则为0,是经过伪标签生成模块的预测出属于c类的输出概率。
[0106]
可选的,作为本发明的一种实施例,伪标签生成模块还包括在类激活图cam0和类激活图cam1之间引入了1范数,生成激活图cam的损失函数l3,用于最小化执行拼接前后两个类激活图之间的距离,提高网络预测的一致性,公式为:
[0107]
l3=||cam
0-cam1||1。
[0109]
可选的,作为本发明的一种实施例,如图4所示,经过所述循环多级交叉注意力模块得到的特征图f
31
(x)作为分割头的输入,先分别经过一个卷积核k大小为3
×
3,步长s为1,填充数p为12,空洞系数d为12的卷积块和relu层,再经过一个卷积核k大小为3
×
3,步长s为1,填充数p为12,空洞系数d为12的卷积块,最终得到分割图。
[0110]
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内或任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

技术特征:
1.一种基于注意力和局部拼接的图像级弱监督语义分割方法,其特征在于,包括:获取训练样本集,并对训练样本集中的标签图像进行预处理;搭建语义分割网络模型,包括特征提取骨干网络、图像级弱监督模块和一个分割头;所述图像级弱监督模块包括循环多级交叉注意力模块、伪标签生成模块;通过所述特征提取骨干网络提取图像深层特征和语义信息得到特征图;通过循环多级交叉注意力模块引入不同层次特征图像素间长距离依赖,通过伪标签生成模块生成的伪标签作为真实标签,伪标签生成模块的其中一个分支用于将特征图无重叠切割成四小块,分别生成四小块类激活图并拼接在一起,所述伪标签生成模块的另一个分支将原始输入图像无重叠切割成四块,以位置权重代替全局权重生成四小块类激活图并拼接在一起;将两个分支拼接后的类激活图拼接得到相加,得到最终类激活图cam;将类cam激活图和伪标签输入分割头得到分割效果图;训练语义分割网络模型选择损失函数将训练出的分割效果图和标签图像进行损失的计算,反向传播到语义分割网络模型中更新网络权重,逐步达到模型最优模式,保存语义分割模型。2.根据权利要求1所述的方法,其特征在于,所述特征提取骨干网络为残差网络resnet101,以图像x作为输入,经过特征提取骨干网络后得到特征图f(x)。3.根据权利要求1所述的方法,其特征在于,所述循环多级交叉注意力模块用于:将所述特征提取骨干网络输出的特征图f(x)作为所述循环多级交叉注意力模块的输入特征;将特征图f(x)先经过一个三维卷积块,并通过一个bn层生成富含局部信息的浅层特征图f
11
(x);将浅层特征图f
11
(x)分成两部分,每部分分别经过一个一维卷积块,得到了特征图k和q;将浅层特征图f
11
(x)再经过一个一维卷积块,并通过一个bn层生成富含语义信息的深层特征图f
12
(x);将深层特征f
12
(x)经过一个一维卷积块,得到了特征图v;其中,特征图k,q,v均为四维矩阵b
×
c
×
h
×
w,b为表示单次传递给程序用以训练的数据个数,c为特征图的通道数;h为特征图的长,w为特征图的宽;以特征图k和q作为输入进行一次affinity操作,用特征图k的每一个位置所有通道的像素值分别与k对应位置及所在行列上q的所有通道的像素值进行加权求和,并进行softmax归一化操作,得到浅层特征图f
11
(x)各个像素之间关系的权值矩阵;将所述权值矩阵与特征图v进行聚合操作,即:用权值矩阵的每一个位置所有通道的像素值,分别与特征图v的每一层通道对应位置和所在行和列的像素值进行加权求和,得到聚合矩阵;将聚合矩阵和深层特征图f
12
(x)对应相加得到特征图f
21
(x);特征图f
21
(x)经过一个一维卷积块再经过一个bn层生成深层特征f
22
(x);以特征图f
21
(x)、f
21
(x)作为输入特征再次输入所述循环多级交叉注意力模块,生成最终的特征图f
31
(x)。4.根据权利要求2所述的方法,其特征在于,所述伪标签生成模块在伪标签生成模块采
用了二分支结构;其中一个分支用于:将原始输入图像x输入特征提取骨干网络后得到特征图f(x),将特征图f(x)的每一层均分成不重叠的四块特征区域,并分别在四块特征区域内进行全局平均池化并展开,经过全连接层生成对应类别的权重矩阵w,将四块的特征区域与对应的权重矩阵w相乘后求和,得到拼接的类激活图cam0;另一个分支用于:将原始输入图像x平均分成不重叠的四块小图像x’,将x’经过特征提取骨干网络后,又在所述循环多级交叉注意力模块中分别得到特征图f(x’)
11
,f(x’)
12
,f(x’)
21
,f(x’)
22
;将四个小特征图f(x’)
11
,f(x’)
12
,f(x’)
21
,f(x’)
22
进行完整区域的全局平均池化,经过全连接层生成对应类别的权重矩阵w,分别与每一层对应的小特征图进行相乘再相加,分别得到四个类激活图cam
11
,cam
12
,cam
21
,cam
22
,并将其无缝隙拼接在一起,类激活图cam1;最后再将两个分支得到的类激活图cam0和类激活图cam1进行相加,得到最终类激活图cam,通过类激活图cam生成对应的伪标签。5.根据权利要求1所述的方法,其特征在于,还包括:将生成的伪标签作为监督信息送入到分割头中进行模型的训练,训练过程通过梯度下降和反向传播对网络的权重进行更新,选择损失函数和最优评估指标,将网络训练出的图像和标签图像进行损失的计算,反向传播到网络中更新网络权重,逐步达到模型最优模式。6.根据权利要求1所述的方法,其特征在于,所述训练语义分割网络模型选择损失函数将训练出的分割效果图和标签图像进行损失的计算中,分割效果图和标签图像的损失选择交叉熵损失函数,所述交叉熵损失函数是基于伪标签生成模块提供的伪标签,公式为:其中,l是分割效果图和标签图像的损失,n是样本个数,c是样本真实的类别,c是样本类别数,y
ic
是样本标签数值,如果像素k的标签是c,则等于1,否则为0,p
ic
是来自经过训练的分割网络的且经过softmax归一化的属于c类的输出概率。7.根据权利要求1所述的方法,其特征在于,所述伪标签生成模块中二分支的损失函数l1和l2为cross entropy loss损失函数,公式为:其中c是样本类别,c是样本类别数,y
c
是样本标签数值,属于c类y
c
等于1,否则为0,是经过伪标签生成模块的预测出属于c类的输出概率。8.根据权利要求1所述的方法,其特征在于,所述伪标签生成模块还包括在类激活图cam0和类激活图cam1之间引入了1范数,生成激活图cam的损失函数l3,用于最小化执行拼接前后两个类激活图之间的距离,提高网络预测的一致性,公式为:l3=||cam
0-cam1||1。9.根据权利要求1所述的方法,其特征在于,还包括:保存权重训练后的语义分割网络模型,经过所述循环多级交叉注意力模块得到的特征图f
31
(x)作为分割头的输入,先分别经过一个三维卷积块和relu层,再经过一个三维卷积块,最终得到分割图。

技术总结
本发明提供一种基于注意力和局部拼接的图像级弱监督语义分割方法,包括:搭建语义分割网络模型,包括特征提取骨干网络、图像级弱监督模块和一个分割头;所述图像级弱监督模块包括循环多级交叉注意力模块、伪标签生成模块;通过所述特征提取骨干网络提取图像深层特征和语义信息得到特征图;通过循环多级交叉注意力模块引入不同层次特征图像素间长距离依赖,通过伪标签生成模块生成的伪标签作为真实标签;本发明设计了一个完整的端到端的图像级弱监督语义分割网络,仅需要一步就可以解决弱监督语义分割从生成伪标签到训练分割网络两大缺陷,极大简化了弱监督语义分割的网络结构,避免了算法程序的复杂化和过于庞大。避免了算法程序的复杂化和过于庞大。避免了算法程序的复杂化和过于庞大。


技术研发人员:黄丹丹 权龙杰 刘智 高凯 刘佳鑫 王星朝
受保护的技术使用者:长春理工大学
技术研发日:2023.06.02
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐