基于互补融合伪标签的弱监督显著性目标检测方法

未命名 09-07 阅读：170 评论：0

1.本发明属于计算机视觉领域，涉及一种基于互补融合伪标签的弱监督显著性目标检测方法。

背景技术：

2.显著性目标检测是计算机视觉领域的一个重要研究方向，能够从图像中发现最显著的区域或物体。早期的显著性目标检测依赖于颜色和背景等低层次特征。自从深度学习发展以来，卷积神经网络已经主导了显著性目标检测领域。传统的基于cnn的全监督网络通常由一个提取不同层次特征的编码器和一个聚合不同阶段特征的解码器组成。近些年，一些使用transformer的网络模型在全监督条件下取得了相对较好的表现。
3.卷积操作在提取图像局部特征方面拥有良好表现，但在理解图像的更高层语义信息上有所欠缺，因为理解高层次语义信息需要在图像的局部特征之间建立全局依赖关系。常见的方法是堆叠卷积层以扩大感受野，但这可能会损失一些特征信息，也会给网络引入更多的参数，消耗更多的计算资源。而使用transformer的网络模型虽然更加专注于全局信息，但不能专注于显著性物体。同时全监督方法需要精准的逐像素标记显著性物体，消耗大量的人力物力。

技术实现要素：

4.为了解决为了解决逐像素标签获取难度高以及显著性图预测的问题，根据本技术一些实施例的基于互补融合伪标签的弱监督显著性目标检测方法，将图像输入融合学习网络进行显著性目标检测，所述学习网络输出所述图像的显著特征。
5.根据本技术一些实施例的所述融合学习网络包括transformer编码器、卷积编码器、通道注意ca以及解码器。
6.根据本技术一些实施例的所述融合学习网络在训练阶段中具有如下步骤：
7.s101.获取显著性图像xs的伪标签y
′s；
8.s102.将显著性图像xs输入transformer编码器得到特征金字塔f
ca
，具体包括transformer编码器输出显著性图像xs的i个特征金字塔，i个特征金字塔分别输入i层通道注意力ca，得到特征金字塔f
ca
，特征金字塔f
ca
由式(1)表示：
[0009][0010]
其中，特征金字塔i表示通道注意力ca的层数，表示第i层通道注意力ca输出的金字塔特征，是通道注意力，e
t
(
·
)表示transformer encoder，θ
ca
表示通道注意力学习的参数，θ
t
表示transformer编码器的参数；
[0011]
s103.将显著性图像xs输入卷积编码器得到特征金字塔fc，具体包括卷积编码器输出特征金字塔fc，特征金字塔fc由式(2)表示：
[0012]
fc＝ec(x|θc)(2)
[0013]
其中，特征金字塔i表示卷积编码器的层数，第一层卷积编码器的输入端输入的是显著性图像xs，中间层的卷积编码器具有相同的第一输出端以及第二输出端，最后一层卷积编码器只具有第二输出端，上一层卷积编码器的第一输出端连接下一层卷积编码器的输入端，表示第i层卷积编码器的第二输出端输出的金字塔特征，ec(
·
)表示cnnencoder，θc代表由卷积编码器学习的参数；
[0014]
s104.将特征金字塔f
ca
和特征金字塔fc融合得到特征金字塔f，具体包括特征金字塔f由式(3)表示：
[0015][0016]
其中，f＝{fi|fi∈f}，i表示融合的层数，fi表示第i层融合输出的金字塔特征，cat(
·
)表示拼接，αi代表权衡参数，权衡参数由特征金字塔的第i层的全局平均池化层、卷积层和全连接层学习；
[0017]
s105.将特征金字塔f输入解码器得到显著性图像xs的结果图具体包括解码器具有第一输入端、第二输入端和第三输入端以及第一输出端，上一层解码器的第一输出端连接下一层解码器的第二输入端，i层融合的特征金字塔fi分别输入i个解码器的对应解码器的第一输入端而将特征金字塔f输入解码器，将所获取的所述伪标签作为监督信号输入所述解码器的第三输入端以监督解码器，第四层解码器的第一输出端是显著性图像xs的结果图
[0018]
s201.将非显著性图像xn输入transformer编码器得到特征金字塔f
ca
，具体包括transformer编码器输出非显著性图像xn的i个特征金字塔，i个特征金字塔分别输入i层通道注意ca，得到特征金字塔f
ca
，特征金字塔f
ca
由式(1)表示：
[0019][0020]
其中，特征金字塔i表示通道注意力ca的层数，表示第i层通道注意力ca输出的金字塔特征，是通道注意力，e
t
(
·
)表示transformerencoder，θ
ca
表示通道注意力学习的参数，θ
t
表示transformer编码器的参数；
[0021]
s202.将非显著性图像xn输入卷积编码器得到特征金字塔fc，具体包括卷积编码器输出特征金字塔fc，特征金字塔fc由式(2)表示：
[0022]
fc＝ec(x|θc)(2)
[0023]
其中，特征金字塔i表示卷积编码器的层数，第一层卷积编码器的输入端输入的是非显著性图像xn，中间层的卷积编码器具有相同的第一输出端以及第二输出端，最后一层卷积编码器只具有第二输出端，上一层卷积编码器的第一输出端连接下一层卷积编码器的输入端，表示第i层卷积编码器的第二输出端输出的金字塔特征，ec(
·
)表示cnnencoder，θc代表由卷积编码器学习的参数；
[0024]
s203.将特征金字塔f
ca
和特征金字塔fc融合得到特征金字塔f，具体包括特征金字塔f由式(3)表示：
[0025][0026]
其中，f＝{fi|fi∈f}，i表示融合的层数，fi表示第i层融合输出的金字塔特征，cat(
·
)表示拼接，αi代表权衡参数，权衡参数由特征金字塔的第i层的全局平均池化层、卷积层和全连接层学习；
[0027]
s204.将特征金字塔f输入解码器得到非显著性图像xn的结果图具体包括解码器具有第一输入端、第二输入端和第三输入端以及第一输出端，上一层解码器的第一输出端连接下一层解码器的第二输入端，i层融合的特征金字塔fi分别输入i个解码器的对应解码器的第一输入端而将特征金字塔f输入解码器，将纯黑图像的标签作为监督信号输入所述解码器的第三输入端以监督解码器，第四层解码器的第一输出端是非显著性图像xn的结果图
[0028]
s301.通过显著性判别器区分输入的训练数据集中的图像是否包含显著性物体，具体包括：
[0029]
第四层融合输出与显著性判别器的输入相连，将第四层融合输出的金字塔特征f4输入显著性判别器，显著性图像xs所得特征金字塔f为s，非显著性图像xn所得特征金字塔f为n，显著性判别器由式(5)表示：
[0030][0031]
其中，表示判别器，m表示判别器的输出，θs表示判别器学习的参数，j和k设置为4，sj表示s的第j特征，nk表示n的第k特征，由判别器的输出判断图像是否包含显著性物体。
[0032]
根据本技术一些实施例的所述融合学习网络在训练阶段中具有通过对比学习方法用于图像去噪如下步骤：包括
[0033]
成对的rgb显著性图像xs和对应的预测显著性图为正样本，非显著性图像x
n1
和x
n2
均为负样本，正负样本被送入一个vgg19编码器，图片通过vgg19编码器的得到对应特征，在这个过程中遵循显著性物体将更接近原始图像中的物体，同时远离非显著性图像中的物体的原则，使用vgg19编码器的每层特征进行运算，如下式所示：
[0034][0035]
其中，φ表示smooth
l1
函数，表示显著性预测图，xs表示显著性图像，和均为非显著性图像，μ设置为10-7
。
[0036]
根据本技术一些实施例的所述伪标签y
′s生成的方法：通过类无关激活图生成初始伪标签，将初始伪标签作为监督训练残差网络，通过残差网络获取输入的显著性图像xs的伪标签y
′s，其中，对于输入图像，从残差网络中获得多个中间特征图a＝{a
m |am∈a}，m∈
{1，
…
，8}，am是由残差网络得到的第m个特征图，融合中间特征图a，得到融合特征图ga，通过grabcut方法获得显著目标图gb，将融合特征图ga与显著目标图gb相加融合生成伪标签ys。
[0037]
根据本技术一些实施例的融合学习网络的损失函数包括二进制交叉熵损失l
bce
、结构相似性损失l
ssim
、交并比率损失l
iou
，显著性判别器损失ls和对比性损失lc，具体如下：
[0038]
l＝l
bce
+l
ssim
+l
iou
+ls+lc[0039]
l
bce
代表二进制交叉熵损失，定义为：
[0040][0041]
其中y
′s表示显著性图像xs的伪标签，y
′n表示非显著性图像xn的标签，表示显著性图像xs的结果图，表示非显著性图像xn的结果图；
[0042]
ssim是一种结构相似性的度量，定义为：
[0043][0044][0045][0046]
其中和μ(y
′s，y
′n)分别表示显著性预测图和伪标签，和σ(y
′s，y
′n)分别表示显著性预测图和伪标签的标准差，c1和c2分别为0.012和0.032；
[0047]
iou损失，定义为：
[0048][0049]
显著性判别损失，主要用于判别显著性图像和非显著性图像，定义为：
[0050]
ls＝-[ylog(m)+(1-y)log(1-m)]
[0051]
其中y表示显著性标签，y∈{0，1}，m表示显著性判别器的预测结果。
[0052]
根据本技术一些实施例的所述检测方法包括：
[0053]
将输入图像输入transformer编码器得到特征金字塔f
ca
，具体包括transformer编码器输出输入图像的i个特征金字塔，i个特征金字塔分别输入i层通道注意ca，得到特征金字塔f
ca
，特征金字塔f
ca
由式(1)表示：
[0054][0055]
其中，特征金字塔i表示通道注意ca的层数，表示第i层通道注意ca输出端的特征金字塔，是通道注意力，e
t
(
·
)表示transformerencoder，θ
ca
表示通道注意力学习的参数，θ
t
表示transformer编码器的参数；
[0056]
将输入图像输入卷积编码器得到特征金字塔fc，具体包括卷积编码器输出特征金字塔fc，特征金字塔fc由式(2)表示：
[0057]
fc＝ec(x|θc)(2)
[0058]
其中，特征金字塔i表示卷积编码器的层数，第一层卷积编码器的输入端输入的是输入图像，中间层的卷积编码器具有相同的第一输出端以及第二输出端，最后一层卷积编码器只具有第二输出端，上一层卷积编码器的第一输出端连接下一层卷积编码器的输入端，表示第i层卷积编码器的第二输出端输出的特征金字塔，ec(
·
)表示cnn encoder，θc代表由卷积编码器学习的参数；
[0059]
将特征金字塔f
ca
和特征金字塔fc融合得到特征金字塔f，具体包括特征金字塔f由式(3)表示：
[0060][0061]
其中，f＝{fi|fi∈f}，i∈{1，2，3，4}，i表示融合的层数，fi表示第i层融合输出的特征金字塔，cat(
·
)表示拼接，αi代表权衡参数，权衡参数由特征金字塔的第i层的全局平均池化层、卷积层和全连接层学习；
[0062]
将特征金字塔f输入解码器得到输入图像的结果图具体包括解码器具有第一输入端、第二输入端和第三输入端以及第一输出端，上一层解码器的第一输出端连接下一层解码器的第二输入端，i层融合的特征金字塔fi分别输入i个解码器的对应解码器的第一输入端而将特征金字塔f输入解码器，第四层解码器的第一输出端是输入图像的结果图。有益效果：现有的弱监督显著性物体检测方法大多依赖于位置感知的弱注释标签或图像级别的类别标签和衍生的类激活图。与类激活图相比，位置感知的弱注释标签还需要花费人力注释，而类激活图方法虽然在定位显著性物体方面更加准确，但产生的伪标签和显著性预测图却更加模糊不清。本发明提出了一种基于互补融合伪标签的弱监督显著性目标检测方法，包括弱监督学习网络和伪标签生成的方法。第一方面，在伪标签生成中引入了一个无监督的类无关激活图方法，然后结合包围框来改进伪标签。第二方面，还提出了transformer和cnn的融合网络结构，以减少融合过程中的特征冗余。第三方面，增加一个显著性判别器，在网络中加入一个非显著性图像(背景图像)，并将显著性图像的标签分别设置为0和1，从而使网络能够更好地理解显著性物体和背景之间的区别。第四方面，引入对比学习分支，通过结合原始图像中的显著性特征来增强显著性预测图，同时对比非显著性的负样本，使其与背景的距离最大化。
[0063]
本发明在四个常见数据集上的实验结果证明，本发明的方法表现优于所有现有的弱监督方法，与目前先进的方法相比，f
β
提高了0.6％，同时也与全监督方法相当。进一步对sm、em和进行了定量比较，结果是本发明在所有四个数据集上都优于其他弱监督方法。对于duts-te，本发明的方法与psod相比，sm提升1.3％，em提升2.3％，提升1.3％。对于dut-omron，本发明的方法与psod相比，sm提升1.9％，em提升3.4％，提升2.4％。除psod方法以外，本发明方法的pr曲线优于本发明在对比例中的弱监督方法，能够与psod方法相当，并且相较于对比例中的弱监督方法更接近预期的轴线，本发明的结果在质量上比其他方法具有较大提高。
附图说明
[0064]
图1是伪标签生成示意图。
[0065]
图2是整体网络模型。
[0066]
图3是显著性判别器的网络图。
[0067]
图4是本发明将预测图与其他弱监督方法的预测图进行的比较图。
[0068]
图5是pr曲线。
[0069]
图6是本发明的方法和其他两种方法产生的伪标签的比较图。
具体实施方式
[0070]
实施例：本发明的基于互补融合伪标签的弱监督显著性目标检测方法，主要包括生成伪标签y
′s，构建融合学习网络，通过伪标签y
′s训练融合学习网络，通过融合学习网络进行目标检测。
[0071]
其中，在训练阶段本发明还通过显著性判别器区分输入的训练数据集中的图像是否包含显著性物体，以及通过对比学习方法用于图像去噪。在训练阶段中本发明也是基于发明中特定的融合学习网络和本发明的显著性判别、对比学习的结合确定了损失函数。
[0072]
所述伪标签，具体的说，本发明引入一种类无关激活图(class-agnostic activation map，c2am)和显著性包围框的弱监督，考虑到两者的互补性，融合两者标签，得到高质量的伪标签。目前大多数弱监督显著性方法需要生成伪标签，将得到的伪标签作为下一步训练的监督，因此伪标签的生成质量至关重要。在伪标签生成方面，grabcut作为一种基于传统方法的图像分割算法，使用包围框分割目标的位置，wsb作为深度学习领域第一个采用包围框的方法，将包围框引入到神经网络的训练过程中，虽然这两种方法都能获得高质量的伪标签。然而，在显著性物体和背景相对相似的情况下，grabcut和wsb获得的标签质量会有很大程度的下降。为了解决上述问题，生成高质量的伪标签，本发明引入了一种无监督方法生成的类无关激活图，此外还有来自显著性包围框的弱监督。具体来说，本发明通过使用c2am来获得基于无监督对比学习的非类激活图，然后，将这些激活图与包围框方法得出的图相结合，以提高伪标签的质量。图1显示了本工作的伪标签生成方法。具体的，本发明由c2am生成初始伪标签。然后，本发明用这个初始伪标签当作监督信号，将初始伪标签作为监督来训练一个残差网络，从残差网络中获得多个中间特征图a＝{am|am∈a}，m∈{1，
…
，8}中，其中am是由残差网络得到的第m个特征图。之后融合这些中间特征图，得到融合特征图ga，同时，应用grabcut方法来获得显著目标图gb，将融合特征图ga与ga相加融合生成伪标签y
′s，伪标签y
′s用于在融合网络中用于监督解码器的输出图像，在融合网络部分将详细介绍。
[0073]
所述融合学习网络，具体的说，本发明的骨干网络融合了transformer和卷积神经网络(cnn)，与只使用cnn来提取特征相比，它能更好地表现图像的全局和局部特征。图2示出了本发明提出的整体网络模型。融合学习网络是将一张图片输入transformer编码器(transformer encoder)和卷积编码器cnn encoder。然后，transformer特征金字塔经过通道注意ca得f
ca
如下式所示：
[0074]
[0075]
其中，i表示通道注意力ca的层数，表示第i层通道注意力ca输出端的特征金字塔，是通道注意力，et(
·
)表示transformerencoder。θ
ca
表示通道注意力学习的参数，θ
t
表示transformer编码器的参数。
[0076]
同时，通过卷积得到的特征金字塔为fc，如下所示：
[0077]
fc＝ec(x|θc)(2)
[0078]
其中，i表示卷积编码器的层数，第一层卷积编码器的输入端输入的是输入图像，中间层的卷积编码器具有相同的第一输出端以及第二输出端，最后一层卷积编码器只具有第二输出端，上一层卷积编码器的第一输出端连接下一层卷积编码器的输入端，表示第i层卷积编码器的第二输出端输出的金字塔特征，ec(
·
)表示cnnencoder，θc代表由卷积编码器学习的参数。
[0079]
将f
ca
和fc被融合，得到最终的特征金字塔f＝{fi|fi∈f}，i∈{1，2，3，4}。本发明引入了一个可学习的权衡参数，可以表示为：
[0080][0081]
其中，fi表示第i层融合输出的金字塔特征，cat(
·
)表示拼接，αi代表权衡参数，该参数由的第i层的全局平均池化层、卷积层和全连接层学习。
[0082]
最后，将特征金字塔f输入解码器得到输入图像的结果图，具体包括解码器具有第一输入端、第二输入端和第三输入端以及第一输出端，上一层解码器的第一输出端连接下一层解码器的第二输入端，i层融合的特征金字塔fi分别输入i个解码器的对应解码器的第一输入端而将特征金字塔f输入解码器，将所获取的所述标签作为监督信号分别输入i层解码器的第三输入端，第四层解码器的第一输出端是输入图像的结果图。
[0083]
需要说明的是，在训练阶段，本发明先后将训练集中成对的显著性图像xs、非显著性图像xn分别输入融合学习网络，并且对于显著性图像xs通过在上一阶段所得伪标签作为监督信号进行训练，对于非显著性图像xn通过纯黑图像的标签作为监督信号进行训练。
[0084]
所述显著性判别器，具体的说，本发明旨在通过引入显著性判别器来学习突出图像和背景图像之间的差异，从而隐含地改进transformer编码器和卷积编码器。输入的图像通过编码器，从公式3中获得特征金字塔f。将从输入的显著性图像和非显著性图像中得到的特征金字塔f分为显著性特征金字塔s和非显著性特征金字塔n。如图3所示，第四层融合输出与显著性判别器的输入相连，将第四层融合输出的金字塔特征f4输入显著性判别器，显著性判别器的输入是金字塔中最深的特征，其大小为sj和nk表示s的第j特征与n的第k特征，w和h分别为输入图像的宽度和高度。分类器被用来区分输入的图像是否包含显著性物体。显著性判别器如下式所示：
[0085][0086]
其中表示判别器，m表示判别器的输出，θs表示判别器学习的参数，j和k都设置为4。通过显著性判别器做loss帮助网络训练，分析是否有显著物体。基于本发明的所述方案，本发明的损失函数根据显著性判别器进行适应性确定，损失函数在下文损失函数部分
具体说明。
[0087]
可见，本发明的sj表示的是显著性图像xs处理过程中第四层融合输出的金字塔特征f4(最后一层融合输出的金字塔特征)，本发明的nk表示的是非显著性图像xn处理过程中第四层融合输出的金字塔特征f4(最后一层融合输出的金字塔特征)。
[0088]
对于所述对比学习分支，具体的说，在显著性目标检测中，虽然得到的显著性预测图通常是二值图，但其包含了突出物体的位置和边缘等表示特征。本发明可以利用这一点，在本研究的技术路线中引入对比学习来改善预测图。如图1所示，成对的rgb图像xs和对应的预测显著性图为正样本，非显著性图像x
n1
和x
n2
均为负样本。通过引入图像去噪的对比学习方法，正负样本被送入一个vgg19编码器，图片通过vgg19编码器的得到对应特征。在这个过程中，本发明遵循这显著性物体将更接近原始图像中的物体，同时远离非显著性图像中的物体的原则。本发明使用vgg19编码器的每层特征进行运算，如下式所示：
[0089][0090]
其中φ表示smooth
l1
函数，表示显著性预测图，xs表示显著性图像，和均为非显著性图像，μ设置为10-7
，避免分母为0。
[0091]
对于所述损失函数，具体的说，本发明采用的损失函数主要由五个主要部分组成，即二进制交叉熵损失l
bce
、结构相似性损失l
ssim
、交并比率(intersection and union ratio，iou)损失l
iou
、显著性判别器损失ls和对比性损失lc，具体如下：
[0092]
l＝l
bce
+l
ssim
+l
iou
+ls+lc[0093]
l
bce
代表二进制交叉熵损失，定义为：
[0094][0095]
其中y
′
∈{y
′s，y
′n}，
[0096]
ssim是一种结构相似性的度量，定义为：
[0097][0098][0099][0100]
其中和μ(y
′s，y
′n)分别表示显著性预测图和伪标签，和σ(y
′s，y
′n)分别表示显著性预测图和伪标签的标准差，c1和c2分别为0.012和0.032，避免分母为0。
[0101]
iou损失，定义为：
[0102]
[0103]
显著性判别损失，主要用于判别显著性图像和非显著性图像，定义为：
[0104]
ls＝-[ylog(m)+(1-y)log(1-m)]
[0105]
其中y表示显著性标签，y∈{0，1}，m表示显著性判别器的预测结果。
[0106]
第一，本发明在伪标签生成中引入了一个无监督的类无关激活图方法，然后结合包围框来改进伪标签。第二，本发明提出了一个tranformer和卷积神经网络(cnn)的融合网络结构，以减少融合过程中的特征冗余。为了使网络能够更好地学习显著性物体和背景之间的区别，本发明提出了一个显著性判别器，以确定非显著性图像和显著性图像这一对是否与1和0的标签一致。此外，受对比学习思想的启发，本发明引入了一个对比性分支，将输入图像分配为正样本，非显著性图分配为负样本。非显著性图是指一般包括背景图像、纹理和其他不清楚的物体的图像，而显著性图像包含清晰识别的显著性物体。
[0107]
实验例：本发明在训练中使用的数据集是duts-tr、soc和xpie，本发明使用duts，其中包括10553张显著性的图像，作为显著性数据集，soc以及xpie作为非显著性数据集，包含2k和8k张非显著性的图像。显著性数据集和非显著性数据集分别用1和0标记。所有实验都在rtx2080ti上进行。对于伪标签生成网络，本发明使用mocov2的预训练参数对duts数据集进行训练，训练轮数为10轮，学习率为0.001，batchsize为128。backbone的优化器是adam，卷积部分的学习率为1e-5，tranformer部分为1e-6，学习率每20个epochs动态调整一次，batchsize为2。编码器部分(resnet+pvt)使用在imagenet的预训练权重，训练轮数为100轮。本发明在五个常用的评估指标f
β
、平均绝对误差mae、em、sm和评估了四个广泛使用的突出对象检测数据集：ecssd、duts-te、hku-is和dut-omron。
[0108]
本发明将本发明的方法与9种最先进的全监督方法进行比较。picanet、ucf、amulet、pagr、dgrl、page、basnet、tbin和csf。此外，本发明还与8种弱监督方法进行比较。asmo、wss、mws、wsb、sca、mfnet、scws和psod。
[0109]
实验的结果：f
β
和mae值的定量比较结果见表1，可以看出，本发明的方法在复杂数据集(dut-omron)中的表现优于所有现有的弱监督方法，与最先进的方法相比，f
β
提高了0.6％，同时也与全监督方法相当。本发明进一步对sm、em和进行了定量比较，如表2所示，结果在所有四个数据集上都优于其他弱监督方法。对于duts-te，本发明的方法与psod相比，sm提升1.3％，em提升2.3％，提升1.3％。对于dut-omron，本发明的方法与psod相比，sm提升1.9％，em提升3.4％，提升2.4％。图5显示了本发明的方法和其他五种方法的pr曲线。可以看出，除psod方法以外，本发明方法的pr曲线优于本发明在对比例中的弱监督方法，能够与psod方法相当，并且相较于对比例中的弱监督方法更接近预期的轴线，本发明的结果在质量上比其他方法具有较大提高。
[0110][0111]
表1
[0112][0113]
表2
[0114]
如图4所示，本发明将预测图与其他弱监督方法的预测图进行了比较，第一列是输入的图像，最后一列是ground truth。就显著性预测图的质量而言，本发明的方法明显优于除psod方法以外弱监督方法，并与psod方法相当，例如在最后一行，本发明的方法在突出物体难以区分的场景中表现更好。图6比较了本发明的方法和其他两种方法产生的伪标签。可以看出，当颜色边界不明显时，本发明的方法生成的伪标签质量更好，效果更好。
[0115]
显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

技术特征：
1.一种基于互补融合伪标签的弱监督显著性目标检测方法，其特征在于，将图像输入融合学习网络进行显著性目标检测，所述学习网络输出所述图像的显著特征。2.根据权利要求1所述的基于互补融合伪标签的弱监督显著性目标检测方法，其特征在于，所述融合学习网络包括transformer编码器、卷积编码器、通道注意ca以及解码器。3.根据权利要求2所述的基于互补融合伪标签的弱监督显著性目标检测方法，其特征在于，所述融合学习网络在训练阶段中具有如下步骤：s101.获取显著性图像x
s
的伪标签y
′
s
；s102.将显著性图像x
s
输入transformer编码器得到特征金字塔f
ca
，具体包括transformer编码器输出显著性图像x
s
的i个特征金字塔，i个特征金字塔分别输入i层通道注意力ca，得到特征金字塔f
ca
，特征金字塔f
ca
由式(1)表示：其中，特征金字塔i表示通道注意力ca的层数，表示第i层通道注意力ca输出的金字塔特征，是通道注意力，e
t
(
·
)表示transformerencoder，θ
ca
表示通道注意力学习的参数，θ
t
表示transformer编码器的参数；s103.将显著性图像x
s
输入卷积编码器得到特征金字塔f
c
，具体包括卷积编码器输出特征金字塔f
c
，特征金字塔f
c
由式(2)表示：f
c
＝e
c
(x|θ
c
)(2)其中，特征金字塔i表示卷积编码器的层数，第一层卷积编码器的输入端输入的是显著性图像x
s
，中间层的卷积编码器具有相同的第一输出端以及第二输出端，最后一层卷积编码器只具有第二输出端，上一层卷积编码器的第一输出端连接下一层卷积编码器的输入端，表示第i层卷积编码器的第二输出端输出的金字塔特征，e
c
(
·
)表示cnnencoder，θ
c
代表由卷积编码器学习的参数；s104.将特征金字塔f
ca
和特征金字塔f
c
融合得到特征金字塔f，具体包括特征金字塔f由式(3)表示：其中，f＝{f
i
|f
i
∈f}，i表示融合的层数，f
i
表示第i层融合输出的金字塔特征，cat(
·
)表示拼接，α
i
代表权衡参数，权衡参数由特征金字塔的第i层的全局平均池化层、卷积层和全连接层学习；s105.将特征金字塔f输入解码器得到显著性图像x
s
的结果图具体包括解码器具有第一输入端、第二输入端和第三输入端以及第一输出端，上一层解码器的第一输出端连接下一层解码器的第二输入端，i层融合的特征金字塔f
i
分别输入i个解码器的对应解码器的第一输入端而将特征金字塔f输入解码器，将所获取的所述伪标签作为监督信号输入所述解码器的第三输入端以监督解码器，第四层解码器的第一输出端是显著性图像x
s
的结果图s201.将非显著性图像x
n
输入transformer编码器得到特征金字塔f
ca
，具体包括transformer编码器输出非显著性图像x
n
的i个特征金字塔，i个特征金字塔分别输入i层通道注意ca，得到特征金字塔f
ca
，特征金字塔f
ca
由式(1)表示：
其中，特征金字塔i表示通道注意力ca的层数，表示第i层通道注意力ca输出的金字塔特征，是通道注意力，e
t
(
·
)表示transformerencoder，θ
ca
表示通道注意力学习的参数，θ
t
表示transformer编码器的参数；s202.将非显著性图像x
n
输入卷积编码器得到特征金字塔f
c
，具体包括卷积编码器输出特征金字塔f
c
，特征金字塔f
c
由式(2)表示：f
c
＝e
c
(x|θ
c
)(2)其中，特征金字塔i表示卷积编码器的层数，第一层卷积编码器的输入端输入的是非显著性图像x
n
，中间层的卷积编码器具有相同的第一输出端以及第二输出端，最后一层卷积编码器只具有第二输出端，上一层卷积编码器的第一输出端连接下一层卷积编码器的输入端，表示第i层卷积编码器的第二输出端输出的金字塔特征，e
c
(
·
)表示cnnencoder，θ
c
代表由卷积编码器学习的参数；s203.将特征金字塔f
ca
和特征金字塔f
c
融合得到特征金字塔f，具体包括特征金字塔f由式(3)表示：其中，f＝{f
i
|f
i
∈f}，i表示融合的层数，f
i
表示第i层融合输出的金字塔特征，cat(
·
)表示拼接，α
i
代表权衡参数，权衡参数由特征金字塔的第i层的全局平均池化层、卷积层和全连接层学习；s204.将特征金字塔f输入解码器得到非显著性图像x
n
的结果图具体包括解码器具有第一输入端、第二输入端和第三输入端以及第一输出端，上一层解码器的第一输出端连接下一层解码器的第二输入端，i层融合的特征金字塔f
i
分别输入i个解码器的对应解码器的第一输入端而将特征金字塔f输入解码器，将纯黑图像的标签作为监督信号输入所述解码器的第三输入端以监督解码器，第四层解码器的第一输出端是非显著性图像x
n
的结果图s301.通过显著性判别器区分输入的训练数据集中的图像是否包含显著性物体，具体包括：第四层融合输出与显著性判别器的输入相连，将第四层融合输出的金字塔特征f4输入显著性判别器，显著性图像x
s
所得特征金字塔f为s，非显著性图像x
n
所得特征金字塔f为n，显著性判别器由式(5)表示：其中，表示判别器，m表示判别器的输出，θ
s
表示判别器学习的参数，j和k设置为4，s
j
表示s的第j特征，n
k
表示n的第k特征，由判别器的输出判断图像是否包含显著性物体。4.根据权利要求3所述的基于互补融合伪标签的弱监督显著性目标检测方法，其特征在于，所述融合学习网络在训练阶段中具有通过对比学习方法用于图像去噪如下步骤：包括成对的rgb显著性图像x
s
和对应的预测显著性图为正样本，非显著性图像x
n1
和x
n2
均为负样本，正负样本被送入一个vgg19编码器，图片通过vgg19编码器的得到对应特征，在这个过程中遵循显著性物体将更接近原始图像中的物体，同时远离非显著性图像中的物体的原则，使用vgg19编码器的每层特征进行运算，如下式所
示：其中，φ表示smooth
l1
函数，表示显著性预测图，x
s
表示显著性图像，和均为非显著性图像，μ设置为10-7
。5.根据权利要求3或4所述的基于互补融合伪标签的弱监督显著性目标检测方法，其特征在于，所述伪标签y
′
s
生成的方法：通过类无关激活图生成初始伪标签，将初始伪标签作为监督训练残差网络，通过残差网络获取输入的显著性图像x
s
的伪标签y
′
s
，其中，对于输入图像，从残差网络中获得多个中间特征图a＝{a
m
|a
m
∈a}，m∈{1，
…
，8}，a
m
是由残差网络得到的第m个特征图，融合中间特征图a，得到融合特征图g
a
，通过grabcut方法获得显著目标图g
b
，将融合特征图g
a
与显著目标图g
b
相加融合生成伪标签y
s
。6.根据权利要求4所述的基于互补融合伪标签的弱监督显著性目标检测方法，其特征在于，融合学习网络的损失函数包括二进制交叉熵损失l
bce
、结构相似性损失l
ssim
、交并比率损失l
iou
，显著性判别器损失l
s
和对比性损失l
c
，具体如下：l＝l
bce
+l
ssim
+l
iou
+l
s
+l
c
l
bce
代表二进制交叉熵损失，定义为：其中y
′
∈{y
′
s
，y
′
n
}，y
′
s
表示显著性图像x
s
的伪标签，y
′
n
表示非显著性图像x
n
的标签，表示显著性图像x
s
的结果图，表示非显著性图像x
n
的结果图；ssim是一种结构相似性的度量，定义为：定义为：定义为：其中和μ(y
′
s
，y
′
n
)分别表示显著性预测图和伪标签，和σ(y
′
s
，y
′
n
)分别表示显著性预测图和伪标签的标准差，c1和c2分别为0.012和0.032；iou损失，定义为：显著性判别损失，主要用于判别显著性图像和非显著性图像，定义为：l
s
＝-[ylog(m)+(1-y)log(1-m)]其中y表示显著性标签，y∈{0，1}，m表示显著性判别器的预测结果。7.根据权利要求6所述的基于互补融合伪标签的弱监督显著性目标检测方法，其特征在于，所述检测方法包括：将输入图像输入transformer编码器得到特征金字塔f
ca
，具体包括transformer编码器输出输入图像的i个特征金字塔，i个特征金字塔分别输入i层通道注意ca，得到特征金字塔
f
ca
，特征金字塔f
ca
由式(1)表示：其中，特征金字塔i表示通道注意ca的层数，表示第i层通道注意ca输出端的特征金字塔，是通道注意力，e
t
(
·
)表示transformerencoder，θ
ca
表示通道注意力学习的参数，θ
t
表示transformer编码器的参数；将输入图像输入卷积编码器得到特征金字塔f
c
，具体包括卷积编码器输出特征金字塔f
c
，特征金字塔f
c
由式(2)表示：f
c
＝e
c
(x|θ
c
)(2)其中，特征金字塔i表示卷积编码器的层数，第一层卷积编码器的输入端输入的是输入图像，中间层的卷积编码器具有相同的第一输出端以及第二输出端，最后一层卷积编码器只具有第二输出端，上一层卷积编码器的第一输出端连接下一层卷积编码器的输入端，表示第i层卷积编码器的第二输出端输出的特征金字塔，e
c
(
·
)表示cnnencoder，θ
c
代表由卷积编码器学习的参数；将特征金字塔f
ca
和特征金字塔f
c
融合得到特征金字塔f，具体包括特征金字塔f由式(3)表示：其中，f＝{f
i
|f
i
∈f}，i∈{1，2，3，4}，i表示融合的层数，f
i
表示第i层融合输出的特征金字塔，cat(
·
)表示拼接，α
i
代表权衡参数，权衡参数由特征金字塔的第i层的全局平均池化层、卷积层和全连接层学习；将特征金字塔f输入解码器得到输入图像的结果图具体包括解码器具有第一输入端、第二输入端和第三输入端以及第一输出端，上一层解码器的第一输出端连接下一层解码器的第二输入端，i层融合的特征金字塔f
i
分别输入i个解码器的对应解码器的第一输入端而将特征金字塔f输入解码器，第四层解码器的第一输出端是输入图像的结果图。

技术总结
基于互补融合伪标签的弱监督显著性目标检测方法，属于计算机视觉领域，为了解决逐像素标签获取难度高以及显著性图预测的问题，要点是将图像输入融合学习网络进行目标检测，所述学习网络输出所述图像的显著特征，所述融合学习网络包括Transformer编码器、卷积编码器、通道注意力CA以及解码器，效果是能够增强显著性预测图。性预测图。性预测图。

技术研发人员：王鹏杰郑彦峰赵红旭齐轩
受保护的技术使用者：大连民族大学
技术研发日：2023.06.06
技术公布日：2023/9/5

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

基于互补融合伪标签的弱监督显著性目标检测方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于互补融合伪标签的弱监督显著性目标检测方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表