一种基于对比学习预训练和双曲空间的图像分类方法
未命名
10-09
阅读:182
评论:0
1.本发明涉及智能识别技术领域,特别是涉及一种基于对比学习预训练和双曲空间的图像分类方法。
背景技术:
2.深度学习近年来在不同领域均得到了极大的发展,逐步被利用于各个领域之中。在深度学习的各个分支中,图像识别作为相对成熟的领域,深度学习模型在各个图像识别任务中均保持着最前沿水平(sota)。但是在经典的图像识别任务中,目标类别通常为粗粒度的大类别,例如狗、水果、鸟等。然而在细粒度的图像识别中,目标类别通常为某一大类别中不同的子类别,例如狗的不同品种。
3.综合来看细粒度识别,其图像特点主要为:1)细粒度类别之间存在着较大的类内差异性和类间相似性。例如在cub数据集之中,同一种海鸥的姿态、背景的差别很大,而不同种类的海鸥之间又表现出了较高的相似性,它们的差别只存在于某些微小区域,如喙、翅膀或羽毛当中2)细粒度图像具有复杂的背景信息。复杂的背景信息不仅不能提供有效的识别信息,而且会干扰模型对有信息位置的特征学习。例如在树林中的鸟图像,鸟通常处于树木的背景之中,导致鸟和背景难以区分,并且有时也会因为背景的遮挡致使只有部分对象出现在图像之中。
4.根据对细粒度近年来的相关研究进行调研,基于定位-分类子网络的方法是其中最主要的解决方案之一。在早期的定位-分类子网络在训练中使用较多的标注信息,利用对象级与部位级的标注信息参与训练获得局部零件定位,这些方法可称之为利用强监督信息的定位-分类子网络方法。在利用强监督信息的方法中,不仅使用图像级的的类别标签,还引入了对象级或是部位级的人工标注信息。zhang等(zhang n,donahue j,girshick r,et al.part-based r-cnns for fine-grained category detection[j].springer international publishing,2014.)提出基于部位的区域卷积网络(part-based region-convolutional neuralcnetwork,pb r-cnn),通过自下而上区域推荐来学习部位检测器,并添加几何先验知识来提高定位准确率。现有的利用强监督信息的方法依赖于对象级与部位级的标注信息,但在实际中往往无法获得这样的标注信息。而且以上模型在提取图像特征的能力上并没有进行改进,因此本发明提出了一种基于双曲空间的分类模型。
[0005]
同时,对于现有的对比学习预训练算法,例如moco(he k,fan h,wu y,et al.momentum contrast for unsupervised visual representation learning[c]//proceedings of the ieee/cvf conference on computer vision and pattern recog nition.2020:9729-9738.)、simclr(chen t,kornblith s,norouzi m,et al.asimple framework for contrastive learning of visual representations[c]//intern ational conference on machine learning.pmlr,2020:1597-1607.)等,均只考虑了图像级之间的对比学习,忽略了背景带来的影响,容易使得模型在预训练阶段学习到背景的信息,因此本发明又提出了一种新的对比学习算法,通过辅助定位器引入区域级之间的对比
学习,减少背景的影响。
技术实现要素:
[0006]
本发明的目的是提供一种基于对比学习预训练和双曲空间的图像分类方法,以减少深度神经网络模型在背景影响大、目标对象类间差异小情况下识别能力差的问题。
[0007]
本发明至少通过如下技术方案之一实现。
[0008]
一种基于对比学习预训练和双曲空间的图像分类方法,包括以下步骤:
[0009]
获取待识别的目标图像;
[0010]
目标图像输入辅助定位器生成类激活图,获得前景区域;
[0011]
将目标图像与前景区域输入所提出的预训练框架进行全局-全局、全局-局部、局部-局部间的对比学习;
[0012]
将目标图像输入至预训练后的深度神经网络获得图像级特征向量与各个区域的区域级特征向量,转换至双曲空间;
[0013]
将图像级与最具判别性的区域级特征向量进行拼接;
[0014]
输入双曲空间下定义的全连接层,获得识别结果。
[0015]
进一步地,所述辅助定位器为timm库中经imagenet预训练后的分类模型。
[0016]
进一步地,辅助定位器采用类激活图算法为grad-cam。
[0017]
进一步地,grad-cam为:
[0018][0019][0020]
其中a代表某个特征层,k代表a中的第k个通道,ak代表特征层a中通道k的数据,代表特征层a在通道k中,坐标为ij处的数据,z等于特征层的宽度
×
高度,y
max
代表多分类中最高置信度类别的输出值,代表类别为最高置信度那一类时针对ak的权重,代表最终的类激活图。
[0021]
进一步地,获得类激活图权重后进行阈值分割、轮廓提取的后处理,得到最终类激活图的bounding box,根据坐标裁剪出前景区域并缩放。
[0022]
进一步地,所述预训练框架包括左侧的孪生网络、右侧的孪生网络均包括两路相同结构的编码器与全连接层。
[0023]
进一步地,目标图像经过图像增强后将输入左侧的孪生网络中编码为特征向量,生成正样本对g1、g2,负样本队列一中存储第一负样本n1。在步骤s2中获得的前景区域图像先经过拼图的手段打乱,这一步是为了消除对象部位之间的依赖关系,而后输入右侧的孪生网络编码,生成正样本对p1、p2,负样本队列二存储第二一负样本n2,进入损失函数计算阶段,包括:全局-全局、全局-局部、局部-局部构成,公式如下:
[0024][0025][0026][0027]
l代表负样本队列的长度;
[0028]
基于对比学习的预训练框架损失函数为:
[0029]
loss
总
=loss
全局-全局
+αloss
全局-局部
+βloss
局部-局部
[0030]
α、β为超参数权重;计算损失后分别更新负样本队列一与负样本队列二。
[0031]
进一步地,将目标图像输入至预训练后的深度神经网络获得图像级特征向量与各个区域的区域级特征向量,转换至双曲空间,具体包括:
[0032]
输入的目标图像输入编码器中生成图像级的特征向量,通过等距的滑动窗口生成待建议的局部图像,将待建议的局部图像输入编码器中生成区域级的特征向量,将所有得到的特征向量转换为双曲空间下的特征向量。
[0033]
进一步地,双曲空间中的模型为庞加莱圆盘模型其曲率参数为c:
[0034][0035]dn
={x∈rn:c||x||2《1,c≥0}
[0036]
其中是共形因子,ge=in是欧几里得度量张量;gd为黎曼度量;dn为n维的球体;x为空间中的某一基点;rn为欧式空间;in为单位矩阵;
[0037]
将处于双曲空间中的任意向量相加定义为:
[0038][0039]
对于某个基点向量将向量v由欧式空间转换至双曲空间的指数映射定义为:
[0040][0041]
其中基点x设置为0,代表曲率为c、基点为x时的共形因子。
[0042]
进一步地,首先通过对图像级特征向量进行分类得到伪标签,再对所有区域级特征向量进行分类,挑选出在伪标签类别上置信度最高的区域作为最具判别性区域,得到所需的区域特征向量后,采用拼接操作融合二者信息。
[0043]
与现有的技术相比,本发明的有益效果为:通过在预训练中加入对局部区域的对比学习提高模型在后续分类任务中的泛化能力;通过将图片从欧式空间转换至更加具有层次性的双曲空间,提高模型的分类能力;通过加入对模型判别有帮助的区域特征,进一步提
高模型的分类能力。
附图说明
[0044]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]
图1是本发明实例中一种基于对比学习预训练和双曲空间的图像分类方法的算法流程图;
[0046]
图2是本发明实例中使用辅助定位器计算类激活图,获得前景区域的实例图;
[0047]
图3是本发明实例中提出的基于前景区域的预训练框架的模型流程图;
[0048]
图4是本发明实例中一种基于双曲空间的分类模型的流程图。
具体实施方式
[0049]
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050]
在类似细粒度图像识别的图像识别领域中存在着以下的难点:(1)深度学习模型受背景影响大(2)目标对象的类别之间差异小(3)在实际应用场景中通常只能获得图像级的标签,无法获得例如对象级标签等更具信息的标签。因此,基于以上提到的几个难点,使得在此类场景下的图像识别任务具有挑战性。
[0051]
为了克服以上的问题,本发明提出了一种基于对比学习预训练和双曲空间的图像分类方法。此发明首先进行预训练阶段,通过一个辅助的定位器对目标图像生成类激活图,提取前景区域,去除背景干扰,得到对象区域图像。将目标图像与区域图像输入所提出的预训练框架,进行全局-全局、全局-局部、局部-局部间的对比学习,得到优于随机初始化与imagenet数据集上预训练得到的模型初始化参数。至此,预训练阶段结束,进入分类阶段。在此阶段,目标图像首先会进入特征提取器,生成图像级的特征向量。而后通过对目标图像进行滑动窗口,生成不同区域的图片后输入特征提取器生成区域级的特征向量。将获得的所有特征向量输入双曲空间转换层,转换至双曲空间下的向量表征。将区域级的特征向量输入在双曲空间下定义的全连接层进行判别性识别,得到判别性最高的区域级特征向量。将其与图像级的特征向量拼接生成最终特征向量,进行分类,得到识别结果。由于提供了更专注于对象区域上的预训练参数,并且引入了对分类更具优势的双曲空间与最具判别性的区域信息,因此能够减少上述难点带来的影响,提高模型的识别能力。接下来对各个步骤进行详细描述。
[0052]
参考图1,所提出的发明中的深度学习模型首先将进行对比学习预训练获得较好的模型初始化参数。参考图3,本发明提出了一种基于类激活图的对比学习预训练方法,需要注意的是,由于后续分类阶段使用的为双曲空间下定义的网络模型,因此在预训练阶段中保持一致,模型也应在双曲空间下进行对比学习。后续分类阶段使用的网络模型参考图
4。
[0053]
一种基于对比学习预训练和双曲空间的图像分类方法,包括以下步骤:
[0054]
步骤s1、获取待识别的目标图像。
[0055]
本实施例中,获取的目标图像均只有图像级的类别标签,并不带有类似于目标检测任务中的bounding box的对象级标签等更具体的标签信息,因此本任务可定义为弱监督的图像分类任务。图片只需经过尺寸变换、标准化等常规预处理手段后就可输入网络中。
[0056]
步骤s2、输入辅助定位器计算类激活图,获得前景区域。
[0057]
作为一种优选的实施例,辅助定位器为timm开源库中经imagenet预训练的resnet,此模型全程不参与更新。在预训练阶段中,输入的图像首先会经过辅助定位器生成类激活图,本发明中采用类激活图算法为grad-cam。虽然辅助定位器并没有在目标图像上进行训练,但是拥有imagenet预训练的初始化参数是能够支持模型区分出前景与背景,因此可以使用其进行前景定位。原grad-cam的公式为:
[0058][0059][0060]
其中a代表某个特征层,k代表a中的第k个通道,ak代表特征层a中通道k的数据,代表特征层a在通道k中,坐标为ij处的数据,c代表类别c,代表针对ak的权重,z等于特征层的宽度
×
高度,yc代表在类别c上的输出值,代表此时的类激活图。
[0061]
由公式可知类激活图计算中需要类别信息,而在自监督预训练中不会引入标签,因此需对原grad-cam的公式进行修改,修改后为:
[0062][0063][0064]
其中y
max
代表多分类中最高置信度类别的输出值,代表类别为最高置信度那一类时针对ak的权重,代表最终的类激活图
[0065]
由公式可知,此时使用的梯度值由原来的指定类别变为使用分类置信度最高的那一类所计算出的梯度值。获得类激活图权重后进行阈值分割、轮廓提取等后处理,得到最终类激活图的bounding box,根据其坐标裁剪出前景区域并缩放为模型输入尺寸,效果参考图2。
[0066]
步骤s3、将目标图像与前景区域输入预训练框架进行全局-全局、全局-局部、局部-局部间的对比学习。
[0067]
如图3所示,在本实施例中,所述预训练框架包括左右两个分支构成。首先目标图像经过图像增强后将输入左侧的孪生网络中编码为特征向量,生成正样本对g1、g2,负样本
队列一中存储第一负样本n1。在步骤s2中获得的前景区域图像先经过拼图的手段打乱,这一步是为了消除对象部位之间的依赖关系,而后输入右侧的孪生网络编码,生成正样本对p1、p2,负样本队列二存储第二负样本n2,上述的孪生网络均由两路相同结构的编码器与全连接层组成。进入损失函数计算阶段,其由三部分构成:全局-全局、全局-局部、局部-局部构成,公式如下:
[0068][0069][0070][0071]
l代表负样本队列的长度。
[0072]
在对比学习中随机裁剪是数据增强的重点,但随机裁剪的位置会使得模型在训练后出现注意力错误的情况,即模型容易学习到背景的信息,通过引入全局与局部间的损失项,能够约束模型的注意力范围,使其集中于对象。同时由于对区域图像采取了拼图的图像增强手段,打破了对象部位间的联系,能够使得模型更好学习部位特征,所以提出的对比学习框架的损失函数为:
[0073]
loss
总
=loss
全局-全局
+αloss
全局-局部
+βloss
局部-局部
[0074]
α、β为超参数权重。
[0075]
计算损失后分别更新负样本队列一与负样本队列二。
[0076]
步骤s4、将目标图像输入至预训练后的深度神经网络获得图像级特征向量与各个区域的区域级特征向量,转换至双曲空间。
[0077]
在本实施例中,采用的编码器初始化为步骤s3中预训练后得到的参数,基于双曲空间的分类模型结构如图4所示。输入的目标图像首先会输入编码器中生成图像级的特征向量,并通过等距的滑动窗口生成待建议的局部图像,将其输入编码器中生成区域级的特征向量,将所有得到的特征向量转换为双曲空间下的特征向量。
[0078]
传统深度学习模型的本质是在欧氏空间中进行各种几何变换,当数据的分布呈现非欧几何例如树的特性时,欧式空间的表征能力将受限。而在开放世界中的大部分自然数据本质上是分层的,因此双曲空间非常适合此类数据,并且双曲空间还有另外一个理想的性质,即可以在不牺牲模型精度和表示能力的情况下使用低维流形进行嵌入。
[0079]
作为一种优选的实施例,采用双曲空间中的庞加莱圆盘模型其曲率参数为c(实际曲率值为-c2)。该庞加莱圆盘模型被实现为一个具有黎曼度量的n维的球体dn={x∈rn:c||x||2《1,c≥0},其中是共形因子,ge=in是欧几里得度量张量,x为空间中的某一点,rn为欧式空间,in为单位矩阵。这意味着,接近球边界的局部距离会被因子λc无穷缩放,这就产生了双曲空间中的“空间膨胀”的特性,这个特性能够使得模型在低维嵌入下也能使得网络预测变得精确。
[0080]
双曲空间不是向量空间,其中的运算公式也需要进行修改,对处于双曲空间中的任意向量它们的相加定义为:
[0081][0082]
对于某个基点向量将向量v由欧式空间转换至双曲空间的指数映射定义为:
[0083][0084]
其中基点x一般设置为0,代表曲率为c、基点为x时的共形因子。
[0085]
步骤s5、将图像级与最具判别性的区域级特征向量进行拼接。
[0086]
在本实施例中,经过步骤s4后,图像级与区域级的特征向量均以双曲空间表示,现需选择出最具判别性的区域级特征向量。在本步骤中评价判别性的标准为分类置信度,而在预测过程中无标签信息,因此首先通过对图像级特征向量进行分类得到伪标签,再对所有区域级特征向量进行分类,挑选出在伪标签类别上置信度最高的区域作为最具判别性区域,需注意的是步骤s5中与步骤s6中采用的分类器均为在双曲空间下定义的全连接层。得到所需的区域特征向量后,采用拼接操作融合二者信息,若图像级与区域级特征向量维度为b
×n×
c,其中b为batchsize,n为特征长度,c为通道数,则拼接后的特征向量为b
×
2n
×
c。
[0087]
步骤s6、输入双曲空间下定义的全连接层,获得识别结果。
[0088]
在本实例中,经过步骤s5得到的特征向量输入双曲空间下定义的全连接层,获得最终的识别结果。
[0089]
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
技术特征:
1.一种基于对比学习预训练和双曲空间的图像分类方法,其特征在于,包括以下步骤:获取待识别的目标图像;目标图像输入辅助定位器生成类激活图,获得前景区域;将目标图像与前景区域输入所提出的预训练框架进行全局-全局、全局-局部、局部-局部间的对比学习;将目标图像输入至预训练后的深度神经网络获得图像级特征向量与各个区域的区域级特征向量,转换至双曲空间;将图像级与最具判别性的区域级特征向量进行拼接;输入双曲空间下定义的全连接层,获得识别结果。2.根据权利要求1所述的一种基于对比学习预训练和双曲空间的图像分类方法,其特征在于,所述辅助定位器为timm库中经imagenet预训练后的分类模型。3.根据权利要求1所述的一种基于对比学习预训练和双曲空间的图像分类方法,其特征在于,辅助定位器采用类激活图算法为grad-cam。4.根据权利要求1所述的一种基于对比学习预训练和双曲空间的图像分类方法,其特征在于,grad-cam为:cam为:其中a代表某个特征层,k代表a中的第k个通道,a
k
代表特征层a中通道k的数据,代表特征层a在通道k中,坐标为ij处的数据,z等于特征层的宽度
×
高度,y
max
代表多分类中最高置信度类别的输出值,代表类别为最高置信度那一类时针对a
k
的权重,代表最终的类激活图。5.根据权利要求1所述的一种基于对比学习预训练和双曲空间的图像分类方法,其特征在于,获得类激活图权重后进行阈值分割、轮廓提取的后处理,得到最终类激活图的bounding box,根据坐标裁剪出前景区域并缩放。6.根据权利要求1所述的一种基于对比学习预训练和双曲空间的图像分类方法,其特征在于,所述预训练框架包括左侧的孪生网络、右侧的孪生网络均包括两路相同结构的编码器与全连接层。7.根据权利要求6所述的一种基于对比学习预训练和双曲空间的图像分类方法,其特征在于,目标图像经过图像增强后将输入左侧的孪生网络中编码为特征向量,生成正样本对g1、g2,负样本队列一中存储第一负样本n1;在步骤s2中获得的前景区域图像先经过拼图的手段打乱,这一步是为了消除对象部位之间的依赖关系,而后输入右侧的孪生网络编码,生成正样本对p1、p2,负样本队列二存储第二一负样本n2,进入损失函数计算阶段,包括:全局-全局、全局-局部、局部-局部构成,公式如下:
l代表负样本队列的长度;基于对比学习的预训练框架损失函数为:loss
总
=loss
全局-全局
+αloss
全局-局部
+βloss
局部-局部
α、β为超参数权重;计算损失后分别更新负样本队列一与负样本队列二。8.根据权利要求1所述的一种基于对比学习预训练和双曲空间的图像分类法,其特征在于,将目标图像输入至预训练后的深度神经网络获得图像级特征向量与各个区域的区域级特征向量,转换至双曲空间,具体包括:输入的目标图像输入编码器中生成图像级的特征向量,通过等距的滑动窗口生成待建议的局部图像,将待建议的局部图像输入编码器中生成区域级的特征向量,将所有得到的特征向量转换为双曲空间下的特征向量。9.根据权利要求8所述的一种基于对比学习预训练和双曲空间的图像分类方法,其特征在于,双曲空间中的模型为庞加莱圆盘模型其曲率参数为c:d
n
={x∈r
n
:c||x||2<1,c≥0}其中是共形因子,g
e
=i
n
是欧几里得度量张量;g
d
为黎曼度量;d
n
为n维的球体;x为空间中的某一基点;r
n
为欧式空间;i
n
为单位矩阵;将处于双曲空间中的任意向量相加定义为:对于某个基点向量将向量v由欧式空间转换至双曲空间的指数映射定义为:其中基点x设置为0,代表曲率为c、基点为x时的共形因子。10.根据权利要求9所述的一种基于对比学习预训练和双曲空间的图像分类方法,其特征在于,首先通过对图像级特征向量进行分类得到伪标签,再对所有区域级特征向量进行分类,挑选出在伪标签类别上置信度最高的区域作为最具判别性区域,得到所需的区域特
征向量后,采用拼接操作融合二者信息。
技术总结
本发明公开了一种基于对比学习预训练和双曲空间的图像分类方法,包括:获取待识别的目标图像;使用辅助定位器生成类激活图,获得前景区域;将目标图像与前景区域输入所提出的预训练框架进行全局-全局、全局-局部、局部-局部间的对比学习;将目标图像输入至预训练后的深度神经网络获得图像级特征向量与各个区域的区域级特征向量,转换至双曲空间;将图像级与最具判别性的区域级特征向量进行拼接;输入双曲空间下定义的全连接层,获得识别结果;本发明的预训练框架能够缓解对比学习后模型出现注意力错误的情况,而双曲空间中的类别之间呈现树形结构,更有利于区分类别,同时又加入区域信息,因此最终能够提高图像分类能力。因此最终能够提高图像分类能力。因此最终能够提高图像分类能力。
技术研发人员:刘艳霞 赖浩宇 李宇虹 周月
受保护的技术使用者:华南理工大学
技术研发日:2023.07.12
技术公布日:2023/10/7
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
