一种弱监督目标检测方法及系统

未命名 07-22 阅读:71 评论:0


1.本发明涉及计算机视觉领域,具体地,涉及一种基于显著性先验信息和面积指导的弱监督目标检测方法、系统、终端及存储介质。


背景技术:

2.随着信息化时代的到来,计算机视觉的相关技术已经在各个领域发挥出重要的作用。由于卷积神经网络(convolutional neural networks,cnn)的发展和大规模且标注详细的数据集的利用,全监督的目标检测技术已经可以达到较好的性能。然而,像素级的标注带来的高昂成本阻碍了目标检测技术成为一种在实践中流行的解决方案。因此,仅使用图像级标签的弱监督目标检测技术成为一种有效的手段并被广泛研究,它增加大量的训练数据也只需要少量的成本。但是也正因为减少了像素级别的位置信息,这种输入和输出信息的不匹配使得弱监督目标检测的性能和全监督检测之间仍然存在很大的性能差距。
3.多实例学习(multiple instance learning,mil)是一个有效且主流的解决方案。它将图像视为一个包,将每一个区域视为实例,通过不断在多张图像(包)中拟合相似的区域(实例),来达到学习的目的。但网络在训练过程中不断选择得分最高的建议作为正样本,因此很容易造成局部检测,也就是只检测最具判别性的部分。
4.深度神经网络相比传统算法能更好地提取图像特征。在此基础上,为了寻找更完整的包围框,上下文信息、自学习、包围框回归、多任务学习和增强学习等方法被使用。使用这些方法可以在仅使用图像级监督的情况在,学习到目标完整的类别和定位。bilen等人在h bilen,a vedaldi.weakly supervised deep detection networks[c]//proceedings of the ieee conference on computer vision and pattern recognition.2016:2846-2854.中,将cnn的特征提取和mil检测器结合,并在分类和检测的双流分支网络上为特征打分,这成为之后mil方案的主流框架。tang等人在p tang,x wang,x bai,et al.multiple instance detection network with online instance classifier refinement[c]//proceedings of the ieee conference on computer vision and pattern recognition.2017:2843-2851.中提出在线实例分类细化,通过让细化模块的每一个流都监督其后一个流的方式,在迭代中逐步得到更完整的包围框。yang等人在k yang,d li,y dou.towards precise end-to-end weakly supervised object detection network[c]//proceedings of the ieee/cvf international conference on computer vision.2019:8372-8381.中加入全监督网络的边界框回归模块,并将这一模块和mil检测器融合成一个端到端的网络,这两个网络共享同一个主干网络,从而获得更好的定位。同时引入一个注意力引导模块,更有效地提取目标特征。已经提出的弱监督目标检测算法虽然相较于传统的检测方法已经有了很大的提升,但是网络对于非刚性目标的检测能力较弱,主要体现在倾向于局部检测。
[0005]
经过检索发现:
[0006]
公开号为cn113378829a、公开日为2021年09月10日的中国发明专利申请《一种基
于正负样本均衡的弱监督目标检测方法》,采集需要进行目标检测的场景图片并制作标签。将训练集输入筛选目标候选框模块,筛选目标候选框模块通过选择性搜索方法获取场景图像的所有目标候选框,根据场景图像对应的弱监督语义分割结果m计算所有目标候选框的环境系数,将所有目标候选框的环境系数进行排序并选择环境系数靠前的若干个目标候选框,将选择的目标候选框作为场景图像对应的初始目标候选框。建立弱监督目标检测网络,将得到的训练集和初始目标候选框同时输入弱监督目标检测网络中进行训练,训练过程中利用最优目标框更新方法获得训练后的弱监督目标检测网络。该方法需要额外训练一个弱监督语义分割网络来计算环境系数,并且并没有针对非刚性物体进行优化,局部检测的情况仍较严重。
[0007]
公开号为cn114972711a、公开日为2022年08月30日的中国发明专利申请《一种基于语义信息候选框的改进弱监督目标检测方法》,通过对训练集进行包括随机水平翻转在内的预处理。设计组合主干网络,用于融合来自掩膜和非掩膜的网络分支的特征,非掩膜的网络分支任务是粗略地找到局部有显著区别的目标部分并对该目标进行定位,而掩膜分支的任务是屏蔽显著特征,并且保留不明显特征在网络中的响应。设计基于多示例选择算法的多分支检测头网络,生成有较高置信度的伪真实目标框进行训练。对多分支检测头网络模型生成的目标语义信息进行循环掩膜来从而生成更合理的目标候选框。该方法在网络中需要对掩膜进行循环生成,在特征提取部分计算量偏大,导致检测速度偏低。同时网络着重于解决图像中的多目标问题,但掩膜在迭代中也可能收敛到局部,导致最后只定位到目标的部分区域。
[0008]
目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。


技术实现要素:

[0009]
针对现有技术中的缺陷,本发明的目的是提供一种弱监督目标检测方法及系统。
[0010]
根据本发明的一个方面,提供一种弱监督目标检测方法,包括:
[0011]
对输入图像进行特征提取;
[0012]
对所述特征进行自细化,获得增强特征;
[0013]
对所述输入图像提取建议;
[0014]
所述增强特征通过一个roipooling层提取所述建议的区域特征;
[0015]
对所述区域特征使用全连接层,得到特征矩阵x
cls
,
[0016]
分别在类别和建议2个不同的维度上进行softmax得到σ(x
cls
),σ(x
det
),通过元素积得到所有建议得分;
[0017]
获得图片在类别c上的图像得分,其通过所有建议在该类的得分和得到:
[0018]
其中,所述建议得分、图像得分与显著性先验模块、多目标搜索方法、refinement分支、边界框回归分支以及面积指导的加权策略关联。
[0019]
优选地,在训练时,所述建议得分和图像得分通过mil检测头获得;
[0020]
作为所述mil检测头的输出,通过所述refinement分支进行细化;k分支的每一分支由独立的fclayer和softmax层组成,并采用所述显著性先验模块与多目标搜索方法相结
合的方式寻找丰富且尽可能完整的目标建议作为伪包围框;
[0021]
在最后一个refinement分支后添加所述边界框回归分支;
[0022]
关于所述refinement分支和边界框回归分支中的建议分数,通过使用所述面积指导的样本加权策略,鼓励网络在更大的范围内搜索目标。
[0023]
优选地,所述对特征进行自细化,获得增强特征,包括:
[0024]
对输入特征,采用1
×
1的卷积块,得到用于乘法和加法的掩码w和偏置b;
[0025]
掩码和偏置处理后的输入特征经过一个softmax函数后得到增强层a=σ(w
⊙fin
+b)
[0026]
其中a为权重,f
in
是输入特征图,σ是softmax函数;
[0027]
特征经过增强后,得到输出特征f
out

[0028]fout
=(1+a)f
in

[0029]
优选地,在所述显著性先验模块的过程,包括:
[0030]
提取输入图像i的多个传统特征,得到显著性预测图is;
[0031]
对预测图is进行腐蚀与膨胀操作进行修正,得到修正后的显著图
[0032][0033]
其中fe和fd分别为腐蚀和膨胀函数;
[0034]
对所述显著图进行阈值分割,得到所有连通区域的显著性包围框其中为连通区域数目;
[0035]
选择面积最大的连通区域包围框作为当前训练图像的一个可信任伪包围框bs并和最高得分样本相同的分数,表示为:
[0036][0037]
通过第一过滤器进行筛选,仅保留单类别图像的显著性包围框;
[0038]
通过第二过滤器进行筛选,去除占比图像超过一半且预测值分布离散的显著性伪包围框。
[0039]
优选地,使用所述多目标搜索方法获得的搜索结果对所述显著性模块得到的包围框进行筛选,包括:
[0040]
通过多目标搜索方法,获取输入图像的所有候选建议
[0041]
对于所有的候选建议,对每个类别按照得分进行降序排序,选择得分靠前为设定值的建议组成候选池
[0042]
迭代的获取所述候选池中得分最高的建议进入伪包围框集并从所述候选池中删除与已选择的伪包围框交并比iou大于τ的建议,直到所述候选池中没有建议或所述伪包围框集中的建议已满上限;
[0043]
显著性模块得到的可信任伪包围框bs至少和得到的多目标搜索结果中的一个相匹配时,认为这是一个正确的显著性先验信息。
[0044]
优选地,所述面积指导的样本加权策略,包括:
[0045]
对图像中存在的c类别,在k分支时得到伪包围框集其中为可能存在的显著性伪包围框,nc为多目标搜索得到的伪包围框数目;
[0046]
每一个所述伪包围框生成对应的正样本簇,所述正样本族有相同的伪类别标签yk和初始训练权重λk;
[0047]
计算每一个簇中所有样本的面积,并按照大小进行降序排列,排名表示为其中每一个s对应于样本排名,n为正样本的数目;
[0048]
根据排名计算得到一个[0,1]的分配系数μi[0049][0050]
使用线性函数对簇中所有样本进行权重计算,完成分配系数μi到权重ωi的映射,表示为:
[0051]
ωi=(1+α)-2α
·
μi[0052]
其中α是最大权重和最小权重间差值的一半;
[0053]
面积指导的权重大小随训练时迭代次数的增加而减少,最后会趋近于0,使用线性函数对权重进行控制,表示如下:
[0054][0055][0056]
其中β是总迭代轮次,ε3是权重分配消失时的迭代轮次占总迭代轮次的比例,υ是权重分配过程中的当前训练轮次。
[0057]
优选地,网络通过混合损失函数对mil检测头、refinement分支、边界框回归分支、自细化模块进行约束,表示如下:
[0058][0059]
其中是mil检测头的损失函数,是refinement分支的损失函数,是边界框回归分支的损失函数,是自细化模块的损失函数,a
sr
为自细化模块的损失权重。
[0060]
根据本发明的第二个方面,提供一种弱监督目标检测系统,包括:
[0061]
特征提取网络,用于对输入图像提取特征;
[0062]
自细化模块,对所述提取的特征进行特征增强;
[0063]
建议选择模块,对所述输入图像提取建议;
[0064]
roipooling层,提取所述建议的增强后的区域特征;
[0065]
全连接层,通过两个所述全连接层,得到特征矩阵x
cls
,
[0066]
计算模块,分别在类别和建议2个不同的维度上进行softmax得到σ(x
cls
),σ(x
det
),通过元素积得到所有建议得分;获得图片在类别c上的图像得分,其通过所有建议在该类的得分和得到:
[0067]
其中,所述建议得分、图像得分与显著性先验模块、多目标搜索方法、refinement
分支、边界框回归分支以及面积指导的加权策略关联。
[0068]
根据本发明的第三个方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行任一项所述的弱监督目标检测方法,或,运行所述的弱监督目标检测系统。
[0069]
根据本发明的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行任一项所述的弱监督目标检测方法,或,运行所述的弱监督目标检测系统。
[0070]
与现有技术相比,本发明具有如下至少一种的有益效果:
[0071]
本发明实施例中的图像弱监督目标检测方法及系统,利用显著性先验对网络的训练进行指导,更有利于网络的初始化,保证网络训练的稳定性。
[0072]
本发明实施例中的图像弱监督目标检测方法及系统,采用多目标搜索模块,可以在训练时尽可能多地使用图像中目标,同时避免将目标分类为背景儿造成的歧义。
[0073]
本发明实施例中的图像弱监督目标检测方法及系统,采用多目标搜索模块,可以训练中对显著性特征进一步删选,过滤掉错误的显著性目标。
[0074]
本发明实施例中的图像弱监督目标检测方法及系统,设计了一种面积指导的加权算法,鼓励网络在更大范围内搜索目标,从而避免网络对非刚性目标的局部检测。
[0075]
本发明实施例中的图像弱监督目标检测方法及系统,采用了特征的自细化模块,可以更好地突出目标特征,避免多尺度变换引入的噪声。
[0076]
本发明实施例中的图像弱监督目标检测方法及系统,直接使用原始图像进行训练,在主要基础网络上没有引入额外的高复杂度模型,就能有效地训练一个端到端的目标检测模型。
[0077]
本发明实施例中的图像弱监督目标检测方法及系统,在非刚性目标的检测效果上明显优于已有的算法。
附图说明
[0078]
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的和优点将会变得更明显:
[0079]
图1为本发明一实施例中的弱监督目标检测方法的流程图;
[0080]
图2为本发明一优选实施例中的基于显著性先验和面积指导的弱监督目标检测模型结构示意图;
[0081]
图3为本发明一优选实施例利用显著性先验获取伪包围框的流程图;
[0082]
图4为本发明一优选实施例中本技术的方法和oicr的主观对比图。
具体实施方式
[0083]
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
[0084]
参见图1,本发明提供一个弱监督目标检测方法,其过程如下:
[0085]
s1,对输入图像进行特征提取;
[0086]
s2,对s1提取到的特征进行自细化,获得增强特征;
[0087]
s3,对输入图像提取建议;
[0088]
s4,将s2中的增强特征通过一个roipooling层提取s3中的建议的区域特征;
[0089]
s5,对s4获取的区域特征使用全连接层,得到特征矩阵x
cls
,
[0090]
s6,分别在类别和建议2个不同的维度上进行softmax得到σ(x
cls
),σ(x
det
),通过元素积得到所有建议得分;获得图片在类别c上的图像得分,其通过所有建议在该类的得分和得到:
[0091]
其中,建议得分、图像得分与显著性先验模块、多目标搜索方法、refinement分支、边界框回归分支以及面积指导的加权策略关联。
[0092]
本实施例加入了自细化、显著性先验模块、多目标搜索方法、面积指导的加权策略,有效提升了弱监督目标检测系统对物体尤其是非刚性物体的检测能力。
[0093]
在本发明的一个优选实施例中,在训练网络时候,建议得分和图像得分通过mil检测头获得;作为mil检测头的输出,通过refinement分支进行细化;k分支的每一分支由独立的fclayer和softmax层组成,并采用显著性先验模块与多目标搜索方法相结合的方式寻找丰富且尽可能完整的目标建议作为伪包围框;在最后一个refinement分支后添加边界框回归分支;关于refinement分支和边界框回归分支中的建议分数,通过使用面积指导的样本加权策略,鼓励网络在更大的范围内搜索目标。
[0094]
进一步的,参见图2,本实施例中的弱监督目标检测方法的关于自细化、显著性先验模块、多目标搜索方法和面积指导的加权策略的执行步骤为:
[0095]
s100,自细化:去除由于多尺度变换产生的噪声,突出有效特征区域。
[0096]
s200,显著性先验特征模块:对于输入图像进行显著性先验特征的提取,并通过图像的类别信息和显著性图的特征进行初步的筛选;
[0097]
s300,多目标搜索方法:得到图像中同一类别尽可能多的目标实例,在有效利用更多有效特征的同时和显著性先验模块进行双向指导;
[0098]
s400,多目标搜索的结果对显著性先验得到的包围框进行筛选:如果显著性先验模块得到的区域和多目标搜索得到的伪包围框均不匹配,则认为输入了错误的显著性先验信息;
[0099]
s500,面积指导的样本加权策略:鼓励网络在更大范围内搜索目标,避免网络过于关注目标最具有判别性的部分。
[0100]
上述实施例构建了基于显著性先验和面积指导的弱监督目标检测模型;对训练集进行显著性提取;对生成的显著性信息进行筛选;使用显著性信息辅助弱监督检测模型进行训练,得到目标检测模型;将需要检测的图像数据集输入目标检测模型,得到图像中对应目标的类别和定位结果。通过传统特征和样本权重引导网络关注物体整体而不是某一部分区域。使用传统的显著性先验提供的粗略伪包围框辅助网络更好的初始化;结合多目标搜索模块共同发掘图像中更多且准确的目标特征;设计了一个面积相关的加权策略来鼓励网络从更大的区域搜索目标,进一步避免局部控制;有效提升了弱监督目标检测系统对物体尤其是非刚性物体的检测能力。
[0101]
在本发明的一个优选实施例中,s100关于自细化进行特征增强,可以包括如下步骤:
[0102]
s101,采用1
×
1的卷积块,得到用于乘法和加法的掩码w和偏置b。处理后的特征经过一个softmax函数后得到增强层。表示如下:
[0103]
a=σ(w
⊙fin
+b)
[0104]
其中a为权重,f
in
是输入特征图,σ是softmax函数;
[0105]
s102,特征经过增强后,得到输出特征f
out

[0106]fout
=(1+a)f
in
[0107]
s103,权重a通过一个3
×
3和1
×
1的卷积层后,使用标准的多标签分类损失进行监督得到其中c为类别数量;yc为0或1,如果图像中存在c类别则为1,否则为0;φc为在c类别上的得分。
[0108]
本实施例更好的突出目标特征,避免多尺度变换引入的噪声。
[0109]
在本发明的一个优选实施例中,构建s200中的显著性先验特征模块,如图3所示,可以包括如下步骤:
[0110]
s201,首先通过一个利用超像素、对比度、颜色和纹理特征等传统特征的显著性模块得到输入图像i的显著性预测图is;
[0111]
s202,对预测图is进行腐蚀与膨胀操作进行修正,得到修正后的显著图在加强目标内部的连结的同时将目标区域从背景中分离出来,表示如下:
[0112][0113]
其中fe和fd分别为腐蚀和膨胀函数;
[0114]
s203,对修正后的图像进行阈值分割,得到所有连通区域的包围框其中为连通区域数目。选择面积最大的连通区域包围框作为当前训练图像的一个可信任伪包围框bs,可表示如下:
[0115][0116]bs
获得和最高得分样本相同的分数;(mil检测头会计算每一个建议包围框在某一个类别上的得分,这个得分是一个数值。显著性得到的包围框通过网络得到的分数不一定是这个最高的,但由于得到的显著性框质量比较高,所以直接把显著性框也直接赋值为这个最高得分。)
[0117]
s204,采用第一过滤器进行删选,只使用单类别图像的显著性先验信息;
[0118]
s205,采用第二过滤器进行删选,去除占比图像超过一半且预测值分布离散的显著性伪包围框,从而去除背景为碎石、树林等明显错误的样本。
[0119]
本实施例利用显著性先验对网络的训练进行指导,更有利于网络的初始化,保证网络训练的稳定性。
[0120]
在本发明的一个优选实施例中,s300中的多目标搜索方法,可以包括如下步骤:
[0121]
s301,对于训练集图像,通过选择性搜索方法获取图像的所有候选建议
[0122]
s302,对于所有生成的建议,对每个类别按照得分进行降序排序,选择得分靠前p=0.15的建议组成候选池
[0123]
s303,迭代的获取候选池中得分最高的建议进入伪包围框集并从候选池中删除与已选择的伪包围框iou大于τ的建议,直到候选框中没有建议或伪包围框集中的建议已满上限k
max
=3个。
[0124]
本实施例可以在训练时尽可能多地使用图像中目标,同时避免将目标分类为背景而造成的歧义。
[0125]
在本发明的一个优选实施例中,实施s400,使用多目标搜索的结果对显著性先验得到的包围框进行筛选。如果当前图像通过显著性先验得到的包围框与图像通过多目标搜索得到的所有包围框没有一个iou达到τ=0.2,训练时不使用得到的显著性先验信息。
[0126]
本实施例可以训练中对显著性特征进一步删选,过滤掉错误的显著性目标。
[0127]
在本发明的一个优选实施例,s500的基于面积指导的样本加权策略,可以包括如下步骤:
[0128]
s501,对图像中存在的c类别,在k分支时得到伪包围框集其中为可能存在的显著性伪包围框,|nc|为多目标搜索得到的伪包围框数目。每一个伪包围框生成对应的正样本簇,它们有相同的伪类别标签yk和初始训练权重λk;
[0129]
s502,计算每一个簇中所有样本的面积,并按照大小进行降序排列。排名表示为其中每一个s对应于样本排名,n为正样本的数目;
[0130]
s503,将排名缩放到[0,1],得到一个分配系数μi,表示如下:
[0131][0132]
s504,使用线性函数对簇中所有样本进行权重计算,完成分配系数μi到权重ωi的映射。表示如下:
[0133]
ωi=(1+α)-2α
·
μi[0134]
优选的,α是最大权重和最小权重间差值的一半;
[0135]
s505,面积指导的权重大小随训练时迭代次数的增加而减少,最后会趋近于0,使用线性函数对权重进行控制,表示如下:
[0136][0137][0138]
其中β是总迭代轮次,ε3是权重分配消失时的迭代轮次占总迭代轮次的比例,υ是权重分配过程中的当前训练轮次;
[0139]
s506,设计k分支的损失函数:
[0140]
[0141][0142]
其中是第k个细化分支的损失,是细化分支总的损失函数。
[0143]
本实施例中正样本簇就是正样本的集合,是经过网络筛选之后,被认为里面包含了有效类别目标的包围框形成的集合。相对应的,被网络认为不包含目标,也就是包含背景的为负样本。而正样本簇由正样本产生,在得到了正样本后,认为和这个正样本重叠度较高,一般用iou表示,认为也包含了同样有效的目标。也就是一个正样本和与他重叠度较高的包围框共同组成一个正样本簇。
[0144]
本实施例中的k分支是一种知识蒸馏,使用它是为了更好的学习目标的特征。知识蒸馏的原理就是一个训练好的网络的输出,比从源数据直接进行训练更加容易。使用了k-分支的refinemrnt,能有效地提高检测能力。本实施例鼓励网络在更大范围内搜索目标,从而避免网络对非刚性目标的局部检测。
[0145]
基于相同的发明构思,在本发明的其他实施例中,提供的弱监督目标检测系统,其使用多实例学习的基本框架,在oicr(可参考p tang,x wang,x bai,et al.multiple instance detection network with online instance classifier refinement[c]//proceedings of the ieee conference on computer vision and pattern recognition.2017:2843-2851.)和边界框回归分支的基础网络之上,通过显著性先验的包围框获取模块、多目标搜索的筛选模块、面积指导的加权算法和自细化模块,构建端到端的弱监督目标检测系统。然后模型利用通用数据集进行训练,其中显著性先验信息可以离线生成,因此不会对正常的训练时间和复杂度产生影响。最后就可以得到一个用于目标检测的模型。
[0146]
进一步的,一种弱监督目标检测系统,特征提取网络用于对输入图像提取特征;自细化模块对提取的特征进行特征增强;建议选择模块对输入图像提取建议;
[0147]
roi pooling层提取建议的增强后的区域特征;全连接层通过两个全连接层,得到特征矩阵x
cls
,计算模块分别在类别和建议2个不同的维度上进行softmax得到σ(x
cls
),σ(x
det
),通过元素积得到所有建议得分;获得图片在类别c上的图像得分,其通过所有建议在该类的得分和得到:其中,建议得分、图像得分与显著性先验模块、多目标搜索方法、refinement分支、边界框回归分支以及面积指导的加权策略关联。
[0148]
基于相同的发明构思,在本发明的其他实施例中,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可用于执行任一项所述的弱监督目标检测方法,或,运行所述的弱监督目标检测系统。
[0149]
基于相同的发明构思,在本发明的其他实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行任一项所述的弱监督目标检测方法,或,运行所述的弱监督目标检测系统。
[0150]
根据上述构思,一具体实施例采用如下技术方案:
[0151]
一种弱监督目标检测方法,包括如下步骤:
[0152]
步骤1:在多实例学习和边界框回归网络的基本框架上,加入显著性先验的包围框
获取模块、多目标搜索的筛选模块、面积指导的加权算法和自细化模块,构建端到端的弱监督目标检测系统;
[0153]
步骤2:获取显著性伪包围框:对图像训练集进行离线的显著性先验信息获取,并获取图像的显著性伪包围框;
[0154]
步骤3:使用训练集图像对弱监督目标检测进行训练:训练中显著性信息会进行初步的筛选来去除多目标的图像样本那些明显错误的样本,因为显著性信息无法分辨图像类别而且受到光照等影响,有时会有定位明显错误的显著性信息(比如定位到森林和天空)。多目标搜索对显著性信息也会进行筛选,从而去除那些定位失败的显著性先验信息。
[0155]
步骤4:图像中目标的分类与定位:在上述步骤3中训练得到的模型(即如图1所示的模型)中,输入不同尺寸的待检测图像就可以得到图像中目标的类别和包围框。
[0156]
该优选实施例中,基于显著性先验和面积指导的弱监督目标检测模型的结构如图1所示。网络可以在单个的nvidia gtx 1080ti,ubuntu 16.04,pytorch深度学习框架环境下编程仿真实现本方法。首先,采用mil方法的主要结构设计弱监督目标检测模型,包括特征提取网络、mil检测头、refinement分支和边界框回归分支。同时加入新构建的显著性先验模块、多目标搜索模块、面积指导的建议加权模块和自细化模块,构建最终的训练模型。然后,将原始训练数据集进行图像的增广,对构建的模型进行端到端的训练。最后,使用混合损失函数对mil检测头、refinement分支、边界框回归分支、自细化模块进行约束,得到最终可以从图像中得到目标类别和定位的模型,即基于显著性先验和面积指导的弱监督目标检测模型。
[0157]
作为一优选实施例,在步骤1中,提出了基于显著性先验和面积指导的弱监督目标检测模型,网络结构如图1所示。
[0158]
该模型采用vgg-16深度神经网络对图像的特征进行提取,然后通过自细化模块对特征进行增强。
[0159]
具体来说,输入仅带有图像级标签y={y1,y2,

yc}的图像i,其中c是数据集图像类别数,yc=1或0表示图像中存在或不存在至少一个c类别的目标。训练集通过选择性搜索得到对象建议集其中表示生成建议的数量。网络输出的特征通过一个roipooling层提取建议的区域特征,使用两个全连接层后得到特征到x
cls
,分别在类别和建议2个不同的维度上进行softmax得到σ(x
cls
),σ(x
det
)。通过元素积得到所有建议的得分。最后,图片在类别c上的得分可以通过所有建议在该类的得分和得到:通过图像级监督(图像类别监督),多类别交叉熵损失函数可以端到端的训练实例分类器,就像如下公式中,
[0160][0161]
作为模型中mil检测头的输出,通过refinement分支进行细化。k分支的每一分支由独立的fc layer和softmax层组成,并采用显著性先验与多目标搜索相结合的方式寻找丰富且尽可能完整的目标建议作为伪包围框。
[0162]
在最后一个refinement分支后添加了边界框回归分支,并利用smooth-l1损失得
到分支的损失
[0163]
关于模型中细化分支和边界框回归分支中的建议分数,通过使用面积指导的样本加权策略,算法通过对由一个伪包围框得到的正样本簇按面积大小进行不同的权重分配来鼓励网络在更大的范围内搜索目标。这样,网络更有可能学习到完整的特征信息。
[0164]
作为一优选实施例,在步骤2中,首先离线得到所有训练集图像的显著性先验信息,通过对显著性信息进行腐蚀、膨胀、二值化等操作,得到一个可信任的显著性伪包围框。
[0165]
作为一优选实施例,在步骤3中,对根据步骤2得到的显著性先验信息使用两层过滤器得到单类别且背景简单的图像信息。然而显著性先验仍可能将显著的背景错误的归纳为前景目标,因此使用构建的多目标搜索模块尽可能多的发现图像中同一类别的多个实例,并对显著性先验进行判别。因为显著性和最高得分建议可能定位在不同目标,因此多目标的搜索是必要的,它可以避免正确的显著性伪包围框被舍弃。
[0166]
经过上述的三层筛选(第一层,显著性先验筛选;第二层,两层过滤器筛选;第三层,多目标搜索筛选)后,得到了可以正确用于训练的显著性信息。
[0167]
作为一优选实施例,在步骤3中,使用的训练集图像分别是pascalvoc2007(可参考meveringham,lvangool,iwilliamsck,etal.thepascalvisualobject classes(voc)challenge[j].internationaljournalofcomputervision,2010,88(2):303-338.)中的5011张图像和pascalvoc2012(可参考meveringham,meslami s,lvangool,etal.thepascalvisualobjectclasseschallenge:aretrospective[j].internationaljournalofcomputervision,2015,111(1):98-136.)中的11540张图像。对于参与训练的每一张图片,仅使用图像级注释用于训练,即图片中包含的目标类别。图像输入时进行多尺度设置,随机使用{480,576,688,864,1200}五个尺度以及镜像翻转进行训练。在测试时,使用10个尺度上的得分的平均值作为网络的最终输出。
[0168]
作为一优选实施例,在步骤1中网络中细化分支数目设置为k=3。自细化模块中的额外层进行高斯分布的初始化,均值为0,标准差为0.02,初始偏置为0。
[0169]
在训练阶段,mini-batchsize设置为4,使用sgd对网络的训练进行优化。对于pascalvoc2007和pascalvoc2012,分别设置最大迭代次数为100k和120k。在前55k、65k的学习速率为0.001,在之后的学习中下降10倍直到训练结束。动量和重量衰减分别设置为0.9和5e-4。自细化模块的损失权重a
sr
=0.3。
[0170]
多目标搜索中,设置单张图片中同一类别的目标上限为3个。训练的过程中,前5k次迭代使用显著性先验和最高得分建议,之后多目标搜索策略替换最高得分建议并在总迭代次数的0.3后对显著性框进行筛选。面积指导的样本加权策略在迭代次数的0.7时衰减到0。
[0171]
网络通过混合损失函数对mil检测头、refinement分支、边界框回归分支、自细化模块进行约束,表示如下:
[0172][0173]
其中是mil检测头的损失函数,是refinement分支的损失函数,是边界框回归分支的损失函数,是自细化模块的损失函数。优选的,自细化模块的损失权重a
sr
=0.3。
[0174]
训练完成后可以得到一个用于检测的弱监督目标检测模型。
[0175]
在步骤4中,在上述步骤中训练得到的模型中,输入任意尺寸待检测图像即可得到目标的类别和定位。
[0176]
需要说明的是,在步骤4进行检测时,输入的图片由vgg-16提取特征网络,子细化模块进行特征增强,选择性搜索得到建议集合,在roipolling和2个全连接层后,特征不再经过mil检测头,而是只经过refinement分支和边界框回归分支并得到结果,其中包围框的坐标由边界框回归模块得到没然后通过nms来确定最后的检测框。检测框的类别由refinement和回归模块共同决定,具体来说,几个refinement先进行得分的平均,得到的值再和边界框回归模块得到的得分做平均。显著性先验模块、多目标搜索和面积指导的加权策略不会用到,它们只用于训练。
[0177]
下面使用模型在公开数据集pascalvoc2007的4952张test集图像和pascal voc2012的10991张test集图像上分别评估,检测评估数据集中存在哪些目标类别(比如动物),具体的过程如下:
[0178]
第一步,对上述数据集的图像进行特征提取,如颜色、形状和纹理;
[0179]
第二步,对特征进行自细化,获得增强特征;
[0180]
第三步,对上述数据集的图像提取类别建议;
[0181]
第四步,增强特征通过一个roipooling层提取建议的区域特征;
[0182]
第五步,对区域特征使用全连接层后分别送入refinement分支和回归分支得到各分支所有建议的得分;(在训练时候,使用检测头获得建议得分;在应用时候,使用refinement分支和回归分支获得建议得分)
[0183]
第六步,获得图片中物体的位置和类别得分,其中位置通过所有建议框经过nms进行确定,得分为该建议框在所有分支上的平均得分。图像同时也会进行多尺度和翻转,并在10个输出结果上做平均。
[0184]
第七步,通过最终得分的大小,判断数据集pascalvoc2007、pascal voc2012是否包含鸟、猫、狗、羊或者其他动物。
[0185]
其中,建议得分、图像类别与显著性先验模块、多目标搜索方法、refinement分支、边界框回归分支以及面积指导的加权策略关联。
[0186]
当然,其他需要进行目标(动物、植物或静物)识别的图像或图像集,均可以使用本发明的方法和系统完成目标识别与检测。
[0187]
上述公开数据集的识别结果,遵循pascalvoc协议,选择地面真实框和预测框的iou》0.5的结果。使用map和corloc两个评估指标。平均精度(ap)和平均ap(map)用于在测试集上评估模型检测能力。正确定位(corloc)用于在trainval上评估网络学习到的定位能力。
[0188]
表1,pascalvoc2007测试集上不同方法的检测性能(ap,%)。最高分用粗体表示,第二高分用下划线表示。
[0189][0190]
表2,pascalvoc2007训练集上不同方法的定位性能(corloc,%)。最高分用粗体表示,第二高分用下划线表示。
[0191][0192]
表3,pascalvoc2012测试集上不同方法的检测性能(ap,%)。最高分用粗体表示,第二高分用下划线表示。
[0193][0194]
表4,pascalvoc2012训练集上不同方法的定位性能(corloc,%)。最高分用粗体表示,第二高分用下划线表示。
[0195][0196]
从表1、表2、表3、表4中可以看出,在2个通用数据集上都取得了领先的检测和定位性能。从表中可以看出,在鸟、猫、狗和羊等非刚性对象上获得了最佳性能,这表明本发明算
法能更好地解决非刚性目标的局部检测问题。并且本发明方法在原始的基础框架上没有引入额外的复杂度和推理时间,具有良好的可移植性。图4中给出本方法和oicr的主观对比(每一组图片的左侧为真实的包围框,中间为oicr的结果,右侧为本技术的结果)可以看出本方法对于非刚性目标具有更好的检测结果。
[0197]
本发明上述实施例提供的弱监督目标检测方法及系统,基于显著性先验和面积指导的样本加权策略。首先,利用传统的显著性先验提供的粗略伪包围框辅助网络更好的初始化。此外,考虑到mil方法倾向于检测目标最具判别性的局部区域,在检测网络中使用了面积指导的样本加权策略,鼓励网络从更大的区域搜索目标。为了更好地利用显著性信息,利用多目标检测的结果对显著性伪包围框进行筛选,从而去除错误的特征信息。此外,还利用自细化模块对特征进行加强,并和检测、细化以及回归模块一起组成混合损失函数对提出的网络进行训练。在2个常用的公共数据集voc2007和voc2012上都进行了实验,实验结果表明本发明能有效提升弱监督目标检测网络的性能并尤其对非刚性物体有更好的检测性能。
[0198]
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。

技术特征:
1.一种弱监督目标检测方法,其特征在于,包括:对输入图像进行特征提取;对所述特征进行自细化,获得增强特征;对所述输入图像提取建议;所述增强特征通过一个roi pooling层提取所述建议的区域特征;对所述区域特征使用全连接层,得到特征矩阵x
cls
,分别在类别和建议2个不同的维度上进行softmax得到σ(x
cls
),σ(x
det
),通过元素积得到所有建议得分;获得图片在类别c上的图像得分,其通过所有建议在该类的得分和得到:其中,所述建议得分、图像得分与显著性先验模块、多目标搜索方法、refinement分支、边界框回归分支以及面积指导的加权策略关联。2.根据权利要求1所述的一种弱监督目标检测方法,其特征在于,在训练时,所述建议得分和图像得分通过mil检测头获得;作为所述mil检测头的输出,通过所述refinement分支进行细化;k分支的每一分支由独立的fc layer和softmax层组成,并采用所述显著性先验模块与多目标搜索方法相结合的方式寻找丰富且尽可能完整的目标建议作为伪包围框;在最后一个refinement分支后添加所述边界框回归分支;关于所述refinement分支和边界框回归分支中的建议分数,通过使用所述面积指导的样本加权策略,鼓励网络在更大的范围内搜索目标。3.根据权利要求1所述的一种弱监督目标检测方法,其特征在于,所述对特征进行自细化,获得增强特征,包括:对输入特征,采用1
×
1的卷积块,得到用于乘法和加法的掩码w和偏置b;掩码和偏置处理后的输入特征经过一个softmax函数后得到增强层a=σ(w

f
in
+b)其中a为权重,f
in
是输入特征图,σ是softmax函数;特征经过增强后,得到输出特征f
out
:f
out
=(1+a)f
in
。4.根据权利要求1所述的一种弱监督目标检测方法,其特征在于,在所述显著性先验模块的过程,包括:提取输入图像i的多个传统特征,得到显著性预测图i
s
;对预测图i
s
进行腐蚀与膨胀操作进行修正,得到修正后的显著图进行腐蚀与膨胀操作进行修正,得到修正后的显著图其中f
e
和f
d
分别为腐蚀和膨胀函数;对所述显著图进行阈值分割,得到所有连通区域的显著性包围框其中为连通区域数目;选择面积最大的连通区域包围框作为当前训练图像的一个可信任伪包围框b
s
并和最高得分样本相同的分数,表示为:
通过第一过滤器进行筛选,仅保留单类别图像的显著性包围框;通过第二过滤器进行筛选,去除占比图像超过一半且预测值分布离散的显著性伪包围框。5.根据权利要求4所述的一种弱监督目标检测方法,其特征在于,使用所述多目标搜索方法获得的搜索结果对所述显著性模块得到的包围框进行筛选,包括:通过多目标搜索方法,获取输入图像的所有候选建议对于所有的候选建议,对每个类别按照得分进行降序排序,选择得分靠前为设定值的建议组成候选池迭代的获取所述候选池中得分最高的建议进入伪包围框集并从所述候选池中删除与已选择的伪包围框交并比iou大于τ的建议,直到所述候选池中没有建议或所述伪包围框集中的建议已满上限;显著性模块得到的可信任伪包围框b
s
至少和得到的多目标搜索结果中的一个相匹配时,认为这是一个正确的显著性先验信息。6.根据权利要求1所述的一种弱监督目标检测方法,其特征在于,所述面积指导的样本加权策略,包括:对图像中存在的c类别,在k分支时得到伪包围框集其中为可能存在的显著性伪包围框,|n
c
|为多目标搜索得到的伪包围框数目;每一个所述伪包围框生成对应的正样本簇,所述正样本族有相同的伪类别标签y
k
和初始训练权重λ
k
;计算每一个簇中所有样本的面积,并按照大小进行降序排列,排名表示为其中每一个s对应于样本排名,n为正样本的数目;根据排名计算得到一个[0,1]的分配系数μ
i
使用线性函数对簇中所有样本进行权重计算,完成分配系数μ
i
到权重ω
i
的映射,表示为:ω
i
=(1+α)-2α
·
μ
i
其中α是最大权重和最小权重间差值的一半;面积指导的权重大小随训练时迭代次数的增加而减少,最后会趋近于0,使用线性函数对权重进行控制,表示如下:对权重进行控制,表示如下:其中β是总迭代轮次,ε3是权重分配消失时的迭代轮次占总迭代轮次的比例,υ是权重分
配过程中的当前训练轮次。7.根据权利要求2所述的一种弱监督目标检测方法,其特征在于,网络通过混合损失函数对mil检测头、refinement分支、边界框回归分支、自细化模块进行约束,表示如下:其中是mil检测头的损失函数,是refinement分支的损失函数,是边界框回归分支的损失函数,是自细化模块的损失函数,a
sr
为自细化模块的损失权重。8.一种弱监督目标检测系统,其特征在于,包括:特征提取网络,用于对输入图像提取特征;自细化模块,对所述提取的特征进行特征增强;建议选择模块,对所述输入图像提取建议;roi pooling层,提取所述建议的增强后的区域特征;全连接层,通过两个所述全连接层,得到特征矩阵x
cls
,计算模块,分别在类别和建议2个不同的维度上进行softmax得到σ(x
cls
),σ(x
det
),通过元素积得到所有建议得分;获得图片在类别c上的图像得分,其通过所有建议在该类的得分和得到:其中,所述建议得分、图像得分与显著性先验模块、多目标搜索方法、refinement分支、边界框回归分支以及面积指导的加权策略关联。9.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-7中任一项所述的方法,或,运行权利要求8中所述的系统。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-7中任一项所述的方法,或,运行权利要求8中所述的系统。

技术总结
本发明提供了一种针对图像的弱监督目标检测方法及系统,包括:对输入图像进行特征提取;进行自细化增强特征;对输入图像提取建议;增强特征通过一个ROI Pooling层提取建议的区域特征;对区域特征使用全连接层,得到特征矩阵;分别在类别和建议2个不同的维度进行softmax和元素积得到所有建议得分;获得图片在类别c上的得分。其中,建议得分与显著性先验模块、多目标搜索方法、Refinement分支、边界框回归分支以及面积指导的加权策略关联。本发明直接使用原始图像进行训练,在主要基础网络上没有引入额外的高复杂度模型,就能有效地训练一个端到端的目标检测模型;本发明在非刚性目标的检测效果上明显优于已有的算法。标的检测效果上明显优于已有的算法。标的检测效果上明显优于已有的算法。


技术研发人员:王永芳 张涵
受保护的技术使用者:上海大学
技术研发日:2023.04.19
技术公布日:2023/7/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐