一种基于数据增强的鸟类细粒度图像分类方法
未命名
07-23
阅读:105
评论:0
1.本发明涉及数据增强的细粒度图像分类方法技术领域,尤其涉及一种基于数据增强的鸟类细粒度图像分类方法。
背景技术:
2.细粒度图像分类旨在对同一个类型对象的子类进行分类,细粒度图像分类任务中,图像分类细节占比较小。细粒度图像分类技术在现实生活场景中和工作生产环境找那个有着广泛且重要的应用价值,甚至在互联网信息安全中也会起到举足轻重的作用。细粒度图像分类应用在人工智能医学判断,如儿童骨龄评估任务、儿童发育性髋关节脱位诊断任务、癌症病人的肿瘤是否为良性的判断任务等,非常具有临床价值和商业前景。现有技术中,细粒度图像数据集较少,数据驱动是深度学习的一个重要特性。数据集的质量和数量起着重要的作用。依靠现有的数据集和普通的数据增强(翻转、裁剪等等)无法提高网络模型的整体性能。并且细粒度图像中最大信息量的区域不一定是最具有区分度的区域。细粒度图像分类的核心是使用高效的网络模型和算法来得到具有差异性的细粒度特征。基于强监督的分类方法普遍存在两个问题:需要大量的人工标注信息,所需成本过高;测试时间较长,在复杂的应用场景下会受到很大限制。
3.例如,一种在中国专利文献上公开的“一种基于视觉特征约束的细粒度图像分类方法”,其公告号:cn115410031a,公开了包括利用clip方法的预训练文本特征编码器提取的文本特征监督约束细粒度图像分类的提取的图片特征;利用clip方法的预训练视觉特征编码器获取训练图片的激活图,将其作为掩码对训练图片进行掩码处理后再获取掩码图片的视觉特征,但是该方案具有局限性。
技术实现要素:
4.为了解决现有技术中数据不充足和目标区域定位方法不准确的问题,本发明提供一种基于数据增强的鸟类细粒度图像分类方法,能够先对图像中过明显特征进行抑制,然后进行特征定位并去噪,最后进行分割增强,提高识别准确度。
5.为了实现上述目的,本发明提供如下技术方案:
6.一种基于数据增强的鸟类细粒度图像分类方法,包括如下步骤:s1、对神经网络进行预训练,基于神经网络获得特征图;
7.s2、对特征图进随机数据增强,使得高响应区域被筛选出来并抑制;
8.s3、对s2后的图像进行定位识别得到去噪后的目标区域图像;
9.s4、对目标区域图像进行多尺度数据增强,识别显著特征区域后输出鸟类特征识别图。通过数据增强提高定位识别的准确性,通过定位识别将特征图中只包含目标物体的区域筛选出来,通过多尺度数据增强将图像分割为多个子图像并进行增强,提高了不同区域的识别度进而提高分类的精度,使得鸟类图像识别过程中鸟类不同状态下的相同特征可以被准确识别,能够将鸟类识别过程中目标区域进行筛选同时多尺度增强进一步筛选,提
高了图像识别的准确性。
10.作为优选的,进行随机数据增强包括,建立随机增强模型,随机选取特征图并筛选高响应区域,根据高响应区域确定遮罩区域,将遮罩区域叠加到特征图中。随机增强模型包括主干网络resnet-50,主干网络输入为原始图像x,输出为特征图f1;随机选取单通道的特征图。能够通过随机选取保证数据增强的随机性来提高数据的质量,减少鸟类识别过程中数据模糊造成的特征识别不准确。
11.作为优选的,s2还包括,随机选取特征图后将各位置数数值归一化得到高响应参数,设置超参数,比较超参数和高响应参数确定高响应区域;重复上述过程至没有新的高响应区域出现。随机选取特征图后,对特征图中各个位置进行归一化操作,获得特征图中每个位置的响应参数;根据识别过程中特征的差异性确定超参数,避免特征差异过大造成的识别范围局限;根据超参数和响应参数进行比较,对超过超参数的响应参数进行标记,对标记的响应参数处图像划分为高响应区域,对高响应区域根据其响应参数分别设定抑制值,将每个抑制值与对应的图像x进行融合得到图像x1,实现高响应区域的抑制。能够避免鸟类识别过程中明显特征对不同形态下不明显特征的影响,提高识别准确度。
12.作为优选的,s3中包括,建立注意力定位模型,根据特征图获得激活图,根据激活图确定高关注度区域,根据高关注度区域获得去噪后的目标区域图像。注意力定位模型包括主干网络resnet-50,输入为s2中高响应区域抑制后的图像x1,输出为特征图f2,根据特征图f2确定激活图a,激活图a用于显示鸟类图像中各位置的特征识别结果,对特征识别结果明显的区域判断为高关注度区域并保留,将其余部分去除从而得到去噪后的目标区域图像。通过对过明显特征抑制后的图像进行特征识别,避免过明显特征对细小特征的影响,使得特征定位更为准确,提高鸟类不同姿态和环境下的特征识别准确度。
13.作为优选的,s3还包括,获得每个通道的激活图,设置阈限,比较激活图的数据和阈限对激活图进行筛选,将筛选后的激活图与原图像叠加得到去噪后的目标区域图像。获得上述s3中的特征图后,将所述特征图中各个通道相加求和得到一通道激活图a,根据激活图a中各个位置的数值确定卷积神经网络识别图片中感兴趣的位置;阈限的确定包括根据鸟类特征识别过程中特征识别的数据复杂程度确定,将激活图a与阈限t进行比较确定该处是否判定为识别的特征,判定为识别的特征后对该处设定图像值;图像值为0和1组成的图像掩码,用于确定各处图像是否为特征;将图像值和所述s2中高响应区域抑制后的图像x1进行融合,得到去除噪声和无关背景仅剩下特征的目标区域图像x2。从而获得鸟类图像中特征。
14.作为优选的,进行多尺度数据增强包括,建立多尺度数据增强模型,对每个通道确定高响应参数,根据高响应参数确定显著特征区域并输出显著特征提取图。多尺度数据增强模型包括主干网络resnet-50,输入为目标区域图像x2,输出为特征图f3,对特征图f3中每个通道求均值,确定均值最大的对应通道的对应特征图,从而获得细粒度图像中最具有辨识度的区域。将该特征图中最明显的特征作为识别中心,围绕识别中心确定不同范围的多个显著特征区域;将上述多个显著特征区域统一大小并重新进行特征定位。从而得到多次不同尺度的识别结果。
15.作为优选的,在步骤s4后包括,建立损失函数,基于损失函数对每一步骤后的图像进行损失测算,并对每一步的损失函数结果进行加权求和。损失函数为交叉熵损失函数,
其中为图像正确类别的标签信息,yi为神经网络预测的标签。能够确定每一步的分类损失,提高鸟类图像识别准确率。
16.作为优选的,所述的神经网络采用卷积神经网络,通过所述的卷积神经网络最后一层得到所述的特征图;所述的步骤s2-步骤s4均使用所述卷积神经网络获取特征图。通过卷积神经网络迭代图像信息从而获取图像信息的特征图,特征图包括不同通道中表示宽和高的数据,从而便于定位特征位置。
17.本发明具有如下优点:
18.(1)通过多尺度数据增强将图像分割为多个子图像并进行增强,提高了不同区域的识别度进而提高分类的精度,使得鸟类图像识别过程中鸟类不同状态下的相同特征可以被准确识别,能够将鸟类识别过程中目标区域进行筛选同时多尺度增强进一步筛选,提高了图像识别的准确性;(2)通过对过明显特征抑制后的图像进行特征识别,避免过明显特征对细小特征的影响,使得特征定位更为准确,提高鸟类不同姿态和环境下的特征识别准确度;(3)能够寻找到多个具有类别信息的部位,从而提高分类的准确率。
附图说明
19.下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
20.图1是本发明的方法步骤示意图。
21.图2是本方案的逻辑示意图。
22.图3是实施例中数据增强的逻辑示意图。
23.图4是实施例中识别结果对比图。
具体实施方式
24.以下由特定的具体实施例说明本发明的实施方式,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.如图1所示,在一个较佳的实施例中,本发明公开了一种基于数据增强的鸟类细粒度图像分类方法,包括如下步骤:s1、对神经网络进行预训练,基于神经网络获得特征图;s2、对特征图进随机数据增强,使得高响应区域被筛选出来并抑制;进行随机数据增强包括,建立随机增强模型,随机选取特征图并筛选高响应区域,根据高响应区域确定遮罩区域,将遮罩区域叠加到特征图中。随机增强模型包括主干网络resnet-50,主干网络输入为原始图像x,输出为特征图f1;随机选取单通道的特征图。s2还包括,随机选取特征图后将各位置数数值归一化得到高响应参数,设置超参数,比较超参数和高响应参数确定高响应区域;重复上述过程至没有新的高响应区域出现。随机选取特征图后,对特征图中各个位置进行归一化操作,获得特征图中每个位置的响应参数;根据识别过程中特征的差异性确定超参数,避免特征差异过大造成的识别范围局限;根据超参数和响应参数进行比较,对超过超参数的响应参数进行标记,对标记的响应参数处图像划分为高响应区域,对高响应区域根据其响应参数分别设定抑制值,将每个抑制值与对应的图像x进行融合得到图像x,。
26.在使用时,通卷积神经网络建立神经网络,通过所述的卷积神经网络最后一层得
到所述的特征图;通过卷积神经网络对图像进行迭代得到特征图,特征图包括不同通道中表示宽和高的数据,确定特征图中的高响应参数,从特征图中筛选出响应度过高的区域进行遮盖,从而完成抑制高响应度抑制,提高整体区域的识别准确度。
27.s3、对s2后的图像进行定位识别得到去噪后的目标区域图像;
28.s3中包括,建立注意力定位模型,根据特征图获得激活图,根据激活图确定高关注度区域,根据高关注度区域获得去噪后的目标区域图像。注意力定位模型包括主干网络resnet-50,输入为s2中高响应区域抑制后的图像x1,输出为特征图f2,根据特征图f2确定激活图a,激活图a用于显示鸟类图像中各位置的特征识别结果,对特征识别结果明显的区域判断为高关注度区域并保留,将其余部分去除从而得到去噪后的目标区域图像。
29.s3还包括,获得每个通道的激活图,设置阈限,比较激活图的数据和阈限对激活图进行筛选,将筛选后的激活图与原图像叠加得到去噪后的目标区域图像。获得上述s3中的特征图后,将所述特征图中各个通道相加求和得到一通道激活图a,根据激活图a中各个位置的数值确定卷积神经网络识别图片中感兴趣的位置;阈限的确定包括根据鸟类特征识别过程中特征识别的数据复杂程度确定,将激活图a与阈限t进行比较确定该处是否判定为识别的特征,判定为识别的特征后对该处设定图像值;图像值为0和1组成的图像掩码,用于确定各处图像是否为特征;将图像值和所述s2中高响应区域抑制后的图像x1进行融合,得到去除噪声和无关背景仅剩下特征的目标区域图像x2。
30.s4、对目标区域图像进行多尺度数据增强,识别显著特征区域后输出鸟类特征识别图。进行多尺度数据增强包括,建立多尺度数据增强模型,对每个通道确定高响应参数,根据高响应参数确定显著特征区域并输出显著特征提取图。多尺度数据增强模型包括主干网络resnet-50,输入为目标区域图像x2,输出为特征图f3,对特征图f3中每个通道求均值,确定均值最大的对应通道的对应特征图,从而获得细粒度图像中最具有辨识度的区域。将该特征图中最明显的特征作为识别中心,围绕识别中心确定不同范围的多个显著特征区域;将上述多个显著特征区域统一大小并重新进行特征定位。
31.在使用时,输入细粒度鸟类图像输出物体对象特征图,1.定义变量值k=3、设置iou阈值为0.15;2.经过卷积网络获取特征图f;3.特征图f各个通道求均值得到向量v;3.向量v的数字从大到小排序;4.计算每个向量vi所述特征图fi的最大值的坐标;5.与前m个特征图获得坐标计算iou,小于阈值则保留;6.获得前n个通道的特征图
32.在步骤s4后包括,建立损失函数,基于损失函数对每一步骤后的图像进行损失测算,并对每一步的损失函数结果进行加权求和。损失函数为交叉熵损失函数,其中为图像正确类别的标签信息,yi为神经网络预测的标签。
33.本发明在使用时,将图像数据输入到神经网络中进行预训练得到特征图,对该特征图进行数据增强去除其中高响应区域,得到遮盖高响应区域的图像数据,再将遮盖高响应区域的图像数据进行特征定位识别,去除图像数据中的噪音和无关背景的目标区域图像,再将目标区域图像进行多尺度数据增强识别图像数据中鸟类的不同特征,在将每一步的损失函数求和确定识别过程中的误差。
34.如图2-4所示,在第二个具体的实施例中,本发明建立了基于数据增强的视觉注意力定位卷积神经网络,该网络对卷积神经网络进行预训练,使得网络在分类之前能够尽可
能对关注更多对细节区域保证物体区域的定位的完整性,从而挖掘尽可能多的具有区分度的区域。网络模型主要分为三个子网络,数据增强网络、注意力定位网络和多尺度数据增强网络。
35.在数据增强网络中,图像数据集x
1...n
输入至主干网络resnet-50中得到特征图为了保证数据增强的随机性提高数据的数量,本文中随机从c个通道中选取各个位置之和最大的特征图来引导数据增强的方式,其中h和w为特征图的长和宽。在每一次训练开始时,先从原始图像获得特征图中随机选取的单通道的特征图(保证了数据增强的随机性),然后对fi中各个位置数值进行归一化操作得到f
i_norm
,具体操作如公式3-6所示。
[0036][0037]
设置超参数θ(θ∈[0.4,0.6]),超参数θ如同注意力定位模块中的阈限t,但不同的是θ的数值人工设置的超参数。将f
i_norm
各个位置与θ进行比较得到m
high
,其中m
high
为特征图中高响应区域的图像掩码。将输入图像x与图像掩码m
high
点乘生成x
high
。将特征图像中高响应的区域进行抑制得到另一个图像掩码m
drop
,并于图像数据x点乘生成x
drop
。具体如公式3-7,3-8所示。
[0038][0039]mdrop
=(m
high-1)
×
(-1)
ꢀꢀꢀꢀ
(3-8)
[0040]
在注意力定位模块中,输入图像x经过卷积神经网络最后一层得到的特征图h和w表示特征图的高和宽,c为特征图的通道数。首先将得到的特征图的各个通道相加求和得到一通道激活图其中fi表示第i个通道的特征图,具体计算如公式3-1中所示。
[0041][0042]
根据特征激活图a可以根据激活图中各个位置的数值计算出卷积神经网络识别图片中感兴趣的位置。认为激活图中a中数组较高的区域为目标区域。具体确定高响应区域方法为通过相加激活图a行列的值,并计算平均值得到一个阈限t。其中(i,j)则是表示特征图的某一点坐标位置。具体计算如公式3-2中所示,
[0043][0044]
最后利用阈限t与激活图a中各位置的数值进行比较,然后决定是否被选择,最后获得注意力二值掩码图m
att
。其中,m
att
是有0和1组成的图像掩码,图像掩码m
att
与输入数据图像x点乘得到x
att
,x
att
为去除无关背景或噪声的目标区域图像。具体计算如公式3-3,3-4中所示。
[0045]
[0046]
x
att
=x
⊙matt
ꢀꢀꢀꢀꢀꢀ
(3-4)
[0047]
在多尺度数据增强模块中,首先利用目标区域图像数据集通过卷积神经网络生成的特征图作为依据。然后将每一个通道中各个的数值进行求均值得到v=[v1,v2,.......vn],其中每一个通道的和为vi。接着选取数组v中最大的数值并该数值对应的特征图最后寻找出特征图fi中数值最高的位置。认为响应度最高的位置就是细粒度图像中最具有辨识度的区域。由于考虑到训练时长和算力的制约,取数值v中前k个数值,在实验中k取值为3。在分割图像过程中,将以某一个通道中数值最高的位置(x,y)为中心点并设置n个比例大小(实验中将n设置为3个比例:256
×
256,192
×
192,128
×
128)的显著特征提取图。最后将所有不同大小的子图像重新调整大小为448
×
448,重新输入网络模型中。
[0048]
本发明在使用时,使用448
×
448
×
3的数据图像作为网络的输入,对三个部分进行联合训练并且使用了随机梯度下降优化器(sgd)并训练了150轮,其中批大小设置为16,初始学习率为1
×
10-3
,并且设置了第60轮和第100轮后学习率乘以0.1。在测试阶段只使用注意力定位模块进行注意力定位并输入训练好的神经网络获得最终的分类结果。所有实验均在nvidia rtx a4000 gpu上进行加速计算。
[0049]
与目前主流的细粒度图像分类算法和传统的细粒度图像分类算法进行准确率对比。在细粒度鸟类图像cub-200-2011和stanford dogs数据集对比的算法包括deeplac[17]、part-rcnn、pa-cnn[18]、mg-cnn[19]、fcan[20]、b-cnn、ra-cnn、ma-cnn、pc、nts-net、tasn[21]。具体如表3-1,表3-2所示。
[0050]
表3-1各算法在cub200-2011数据集上的分类准确率指标
[0051]
[0052][0053]
表3-2各算法在stanford dogs数据集上的分类准确率指标
[0054][0055]
为了验证注意力网络的有效性,在cub-200-2011数据集上对原始的resnet-50网络输出的结果和含有注意力定位模块的resnet-50网络输出的结果进行对比。如表3-5所示。在经过注意力定位机制生成后的图像数据能够更好提高分类的结果。
[0056]
表3-5
[0057][0058]
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
技术特征:
1.一种基于数据增强的鸟类细粒度图像分类方法,其特征在于,包括如下步骤:s1、对神经网络进行预训练,基于神经网络获得特征图;s2、对特征图进随机数据增强,使得高响应区域被筛选出来并抑制;s3、对s2后的图像进行定位识别得到去噪后的目标区域图像;s4、对目标区域图像进行多尺度数据增强,识别显著特征区域后输出鸟类特征识别图。2.根据权利要求1所述的一种基于数据增强的鸟类细粒度图像分类方法,其特征在于,进行随机数据增强包括,建立随机增强模型,随机选取特征图并筛选高响应区域,根据高响应区域确定遮罩区域,将遮罩区域叠加到特征图中。3.根据权利要求2所述的一种基于数据增强的鸟类细粒度图像分类方法,其特征在于,s2还包括,随机选取特征图后将各位置数数值归一化得到高响应参数,设置超参数,比较超参数和高响应参数确定高响应区域;重复上述过程至没有新的高响应区域出现。4.根据权利要求1或2所述的一种基于数据增强的鸟类细粒度图像分类方法,其特征在于,s3中包括,建立注意力定位模型,根据特征图获得激活图,根据激活图确定高关注度区域,根据高关注度区域获得去噪后的目标区域图像。5.根据权利要求4所述的一种基于数据增强的鸟类细粒度图像分类方法,其特征在于,所述的s3还包括,获得每个通道的激活图,设置阈限,比较激活图的数据和阈限对激活图进行筛选,将筛选后的激活图与原图像叠加得到去噪后的目标区域图像。6.根据权利要求5所述的一种基于数据增强的鸟类细粒度图像分类方法,其特征在于,所述的进行多尺度数据增强包括,建立多尺度数据增强模型,对每个通道确定高响应参数,根据高响应参数确定显著特征区域并输出显著特征提取图。7.根据权利要求6所述的一种基于数据增强的鸟类细粒度图像分类方法,其特征在于,在步骤s4后包括,建立损失函数,基于损失函数对每一步骤后的图像进行损失测算,并对每一步的损失函数结果进行加权求和。8.根据权利要求1至7任一项所述的一种基于数据增强的鸟类细粒度图像分类方法,其特征在于,所述的神经网络采用卷积神经网络,通过所述的卷积神经网络最后一层得到所述的特征图;所述的步骤s2-步骤s4均使用所述卷积神经网络获取特征图。
技术总结
本发明公开了一种基于数据增强的鸟类细粒度图像分类方法,包括如下步骤:S1、对神经网络进行预训练,基于神经网络获得特征图;S2、对特征图进随机数据增强,使得高响应区域被筛选出来并抑制;S3、对S2后的图像进行定位识别得到去噪后的目标区域图像;S4、对目标区域图像进行多尺度数据增强,识别显著特征区域后输出鸟类特征识别图;通过多尺度数据增强将图像分割为多个子图像并进行增强,提高了不同区域的识别度进而提高分类的精度,使得鸟类图像识别过程中鸟类不同状态下的相同特征可以被准确识别,能够将鸟类识别过程中目标区域进行筛选同时多尺度增强进一步筛选,提高了图像识别的准确性。准确性。准确性。
技术研发人员:平佳锜
受保护的技术使用者:浙江工商大学
技术研发日:2023.03.01
技术公布日:2023/7/21
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
