细粒度图像分类优化方法及系统
未命名
08-05
阅读:117
评论:0
1.本发明涉及图像处理技术领域,具体涉及一种基于卷积和自注意力机制融合残差网络的细粒度图像分类优化方法及系统。
背景技术:
2.解决细粒度图像分类问题的关键是如何找到具有区分性的细微图像特征区域。为了解决这一问题,现有的大量规则复杂的神经网络用以提取图像中细致的特征。其中,以卷积操作为基础的卷积神经网络,曾经由于其较于传统方法的优异表现而成为这一领域的主流被大家所接受。而以注意力机制为基础的vision transformer(vit)模型,其采用注意力机制的神经网络可以在细粒度图像分类领域有更好的表现,各种基于注意力机制的神经网络模型被提出,使得细粒度图像分类任务的分类效果提升到了全新阶段。
3.然而,虽然以注意力机制搭建的神经网络较之卷积神经网络有着不错的效果,但其高昂的训练成本(诸如时间成本,大量的数据量等)和硬件需求使得其在实际应用、技术落地等方面存在着不小的障碍。而对于卷积神经网络而言虽然较之注意力神经网络表现较差,但由于其具有的低成本、轻量化的特点使得其在实际应用领域更受欢迎。
4.sanghyun等人提出了convolutional block attention module(cbam)方法。该方法通过将通道注意力模块和空间注意力模块串行连接组成,cbam从通道和空间两个维度计算特征图的注意力图,然后将特征图和注意力图相乘进行特征的自适应学习。该方法在诸如人脸识别、细粒度图像分类领域等多个计算机视觉领域上都取得了十分优秀的成绩。
5.上述方法,只是机械的将两种注意力机制放入到卷积神经网络中,没有对二者进行进一步的融合开发,使得新网络虽然同时兼具卷积和注意力机制但其效果并不理想;将注意力机制加入到卷积神经网络中后,没有对其他组成模块进行改动,使得注意力机制无法很好的适应卷积神经网络;虽然尝试将卷积和注意力机制相融合,但无论是模型计算量还是分类准确率都有待提高。
技术实现要素:
6.本发明的目的在于提供一种基于卷积和自注意力机制融合残差网络的细粒度图像分类优化方法及系统,以解决上述背景技术中存在的至少一项技术问题。
7.为了实现上述目的,本发明采取了如下技术方案:
8.一方面,本发明提供一种细粒度图像分类优化方法,其特征在于,包括:
9.获取待分类优化的图像;
10.利用预先训练好的模型对获取的待分类优化的图像进行处理,得到图像的分类优化结果;其中,预先训练好的模型中,包括特征提取网络和神经网络分类器;
11.其中,基于卷积运算的可加性,使用非对称卷积进行数据增强;通过对卷积运算和注意力机制的分解,将卷积运算和注意力机制进行融合,得到融合模块;将非对称卷积和融合模块嵌入残差网络的残差块。
12.可选的,所述残差网络结构由四个通道数依次递增的不同阶段组成,每个阶段由一个通道混洗模块和n个残差块组成,输入数据在进入每个阶段时都会先传入通道混洗模块进行通道数统一,之后传入n个残差块进行特征提取以此完成一个阶段的计算,并以此往复直至完全通过四个阶段;随后将计算好的数据传入分类层进行特征分类并输出分类结果。
13.可选的,非对称卷积包括并列的3个分支,分别为1
×
3的卷积、3
×
3的卷积和3
×
1的卷积,每个分支分别提取中间特征图。
14.可选的,假设存在卷积核其中k是卷积核的尺寸,c
in
和c
out
分别代表了输入和输出通道数;假设张量和是输入和输出的特征映射,其中h和w分别代表特征图的高和宽;将和和分别表示为f和y对应像素点(i,j)的特征张量,则标准卷积的运算过程为:
[0015][0016]
其中,a,b∈{0,1,
…
,k-1}表示核位置(a,b)的权重;
[0017]
则标准卷积表示为以下两个阶段:
[0018]
阶段一:
[0019]
阶段二:
[0020][0021]
在第一阶段,即卷积计算阶段,输入特征图从某个位置线性投影到卷积核上;在第二阶段,即移位和聚合阶段,投影的特征图根据卷积核和聚集的位置一起移动。
[0022]
可选的,如果一个具有多个头部的多头注意机制有n个头部,可选的,如果一个具有多个头部的多头注意机制有n个头部,表示输入和输出特征,表示图像中某个特定点(i,j)对应的张量,则多头注意机制中的单头为:
[0023][0024]
其中,zq,zk,zv为q、k、v对应的投影矩阵,n1表示多头注意力机制的头数为1,nk(i,j)表示以中心像素(i,j)为空间范围k的局部区域;并且是关于nk(i,j)相应矩阵的特征;
[0025]
则多头注意力机制表示为如下两个阶段:
[0026]
阶段一:
[0027]
阶段二:
[0028]
在阶段一中首先进行1
×
1卷积,将输入特征投影为q、k和v,q、k、v表示注意力机制运算过程中的三个中间量;第二阶段为注意力权重的计算和值矩阵的聚合,即局部特征的聚合。
[0029]
可选的,选择使用步长为4的4
×
4卷积作为初始下采样层;而对于残差网络中不同阶段的下采样层,采用步长为2的2
×
2卷积核,即将输入特征图划分为多个尺寸为2
×
2大小的互不重叠的块以逐渐集中关键信息,从而便于网络在合理的计算能力要求下获得更高的结果。
[0030]
第二方面,本发明提供一种细粒度图像分类优化系统,包括:
[0031]
获取模块,用于获取待分类优化的图像;
[0032]
处理模块,用于利用预先训练好的模型对获取的待分类优化的图像进行处理,得到图像的分类优化结果;其中,预先训练好的模型中,包括特征提取网络和神经网络分类器;
[0033]
其中,基于卷积运算的可加性,使用非对称卷积进行数据增强;通过对卷积运算和注意力机制的分解,将卷积运算和注意力机制进行融合,得到融合模块;将非对称卷积和融合模块嵌入残差网络的残差块。
[0034]
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的细粒度图像分类优化方法。
[0035]
第四方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的细粒度图像分类优化方法。
[0036]
第五方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的细粒度图像分类优化方法的指令。
[0037]
本发明有益效果:通过将卷积操作和注意力机制的共同点结合,实现了卷积和注意力机制的融合,可以在较低的参数量下同时使用卷积和注意力机制;提出了改进模块,使得在此基础之上搭建的模块可以同时具有卷积网络和注意力网络的特性;改进模型中使用的特征提取方式,提升其效率以更好的平衡模型复杂度和模型效果之间的关系。
[0038]
本发明附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本发明的实践了解到。
附图说明
[0039]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]
图1为本发明实施例所述的卷积非对称化示意图。
[0041]
图2为本发明实施例所述的非对称卷积增强模块结构图。
[0042]
图3为本发明实施例所述的卷积运算过程拆解示意图。
[0043]
图4为本发明实施例所述的注意力机制运算过程拆解示意图。
[0044]
图5为本发明实施例所述的卷积与注意力融合模块结构图。
[0045]
图6为本发明实施例所述的下采样层结构示意图。
[0046]
图7为本发明实施例所述的残差块基本结构图。
[0047]
图8为本发明实施例所述的网络模型结构图。
[0048]
图9为本发明实施例所述的方法实现的网络流程图。
具体实施方式
[0049]
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0050]
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
[0051]
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0052]
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
[0053]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0054]
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
[0055]
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
[0056]
实施例1
[0057]
本实施例1中,为解决卷积神经网络和注意力神经网络存在的问题,根据卷积运算和注意力机制的中的共同点,提出了卷积与注意力的融合模块,并分别加入非对称卷积增强模块和碎片化下采样层,提出了全新的残差网络,称之为asymmetric convolution and self-attention network(acanet)。
[0058]
本实施例中,首先提供了一种细粒度图像分类优化系统,包括:获取模块,用于获取待分类优化的图像;处理模块,用于利用预先训练好的模型对获取的待分类优化的图像
进行处理,得到图像的分类优化结果;其中,预先训练好的模型中,包括特征提取网络和神经网络分类器;其中,基于卷积运算的可加性,使用非对称卷积进行数据增强;通过对卷积运算和注意力机制的分解,将卷积运算和注意力机制进行融合,得到融合模块;将非对称卷积和融合模块嵌入残差网络的残差块。
[0059]
本实施例1中,利用上述的系统,实现了细粒度图像分类优化方法,包括:利用获取模块获取待分类优化的图像;利用处理模块,基于预先训练好的模型对获取的待分类优化的图像进行处理,得到图像的分类优化结果;其中,预先训练好的模型中,包括特征提取网络和神经网络分类器;其中,基于卷积运算的可加性,使用非对称卷积进行数据增强;通过对卷积运算和注意力机制的分解,将卷积运算和注意力机制进行融合,得到融合模块;将非对称卷积和融合模块嵌入残差网络的残差块。
[0060]
其中,所述残差网络结构由四个通道数依次递增的不同阶段组成,每个阶段由一个通道混洗模块和n个残差块组成,输入数据在进入每个阶段时都会先传入通道混洗模块进行通道数统一,之后传入n个残差块进行特征提取以此完成一个阶段的计算,并以此往复直至完全通过四个阶段;随后将计算好的数据传入分类层进行特征分类并输出分类结果。
[0061]
对于非对称卷积模块,以卷积核大小为3
×
3、不长为1的卷积,非对称卷积为并列的3个分支,分别为1
×
3的卷积、3
×
3的卷积和3
×
1的卷积,每个分支分别提取中间特征图。
[0062]
对于卷积的运算,假设存在卷积核其中k是卷积核的尺寸,c
in
和c
out
分别代表了输入和输出通道数;假设张量和是输入和输出的特征映射,其中h和w分别代表特征图的高和宽;将和分别表示为f和y对应像素点(i,j)的特征张量,则标准卷积的运算过程为:
[0063][0064]
其中,a,b∈{0,1,
…
,k-1}表示核位置(a,b)的权重;
[0065]
则标准卷积表示为以下两个阶段:
[0066]
阶段一:
[0067]
阶段二:
[0068][0069]
在第一阶段,即卷积计算阶段,输入特征图从某个位置线性投影到卷积核上;在第二阶段,即移位和聚合阶段,投影的特征图根据卷积核和聚集的位置一起移动。
[0070]
如果一个具有多个头部的多头注意机制有n个头部,如果一个具有多个头部的多头注意机制有n个头部,表示输入和输出特征,表示图像中某个特定点(i,j)对应的张量,则多头注意机制中的单头为:
[0071][0072]
其中,zq,zk,zv为q、k、v对应的投影矩阵,n1表示多头注意力机制的头数为1,nk(i,j)表示以中心像素(i,j)为空间范围k的局部区域;并且是关于nk(i,j)相应矩阵的特征;
[0073]
则多头注意力机制表示为如下两个阶段:
[0074]
阶段一:
[0075]
阶段二:
[0076]
在阶段一中首先进行1
×
1卷积,将输入特征投影为q、k和v,q、k、v表示注意力机制运算过程中的三个中间量;第二阶段为注意力权重的计算和值矩阵的聚合,即局部特征的聚合。
[0077]
选择使用步长为4的4
×
4卷积作为初始下采样层;而对于残差网络中不同阶段的下采样层,采用步长为2的2
×
2卷积核,即将输入特征图划分为多个尺寸为2
×
2大小的互不重叠的块以逐渐集中关键信息,从而便于网络在合理的计算能力要求下获得更高的结果。
[0078]
实施例2
[0079]
本实施例2中,通过对卷积运算和注意力机制的分解,利用卷积运算和注意力机制中的共同之处,提出了融合卷积和注意力机制的基础模块。使用非对称卷积对传统卷积进行数据增强,设计了全新的纯卷积模块,并在此基础之上将以上两个全新模块嵌入残差网络的残差块当中,提出了残差网络基本模块。最后本发明借鉴了注意力网络中的先进经验,提出了适用于卷积与注意力融合模块的下采样层。将基于这些模块设计而成的用于细粒度图像分类的改进网络,称之为asymmetric convolution and self-attention network(acanet),模型结构主要包括特征提取网络和神经网络分类器。
[0080]
本实施例2中,对于设计的非对称卷积数据增强模块,具体说明如下:
[0081]
本实施例中通过对卷积运算进行分解,仔细研究了卷积运算中存在的特点,并发现了卷积运算中存在的灵活性和可加性的特点。一个k
×
k大小的卷积可以被拆分为一组1
×
k和k
×
1大小的非对称卷积,来实现等效运算的同时降低模型的参数量。这其中的原理是如果一个二维矩阵的秩为1,那么这个矩阵就可以等效转换为一系列的一维矩阵。关于卷积运算的可加性可通过如式(1)所示:
[0082]i×
k1+i
×
k2=i
×
(k1+k2)
ꢀꢀ
(1)
[0083]
其中k1和k2分别代表两个卷积核,i代表特征图输入。因此以3
×
3卷积为例常用的3
×
3对称卷积即可拆分为由1
×
3卷积和3
×
1卷积的一组非对称卷积组合如图1所示。
[0084]
然而,在实际应用当中若把卷积运算视作一个矩阵,那么该矩阵的秩往往不会等于1。所以如果直接用一组非对称卷积替换传统卷积那么实际效果往往并不理想。因此本实施例提出用一组非对称卷积对经典卷积进行数据增强,这样可以用较小的带价来对网络的特征提取能力进行提升。该数据增强模块结构如图2所示。
[0085]
本实施例2中,对于设计卷积与注意力机制融合模块,具体说明如下:
[0086]
作为卷积神经网络的重要组成部分,卷积通常被设置为3
×
3大小,步长为1。卷积运算的具体过程可如图3所示。
[0087]
假设存在卷积核其中k是卷积核的尺寸,c
in
和c
out
分别代表了输入和输出通道数。再假设张量和是输入和输出的特征映射,其中h和w分别代表特征图的高和宽。我们将和分别表示为f和y对应像素点(i,j)的特征张量。所以标准卷积的运算过程可如式(2)所示。
[0088][0089]
其中,a,b∈{0,1,
…
,k-1}表示核位置(a,b)的权重。所以标准卷积可以被表示为以下两个阶段:
[0090]
阶段一:
[0091]
阶段二:
[0092][0093]
在第一阶段,即1
×
1卷积计算阶段,输入特征图从某个位置线性投影到卷积核上。这和经典卷积几乎是一样的。然而,在第二阶段,即移位和聚合阶段,投影的特征图根据卷积核和聚集的位置一起移动。经过仔细计算,卷积运算过程中的计算量主要来自于第一阶段,而第二阶段相对简单。
[0094]
由于vit模型的提出,注意机制已成为除卷积之外的另一个重要基础模块。与传统卷积相比,注意机制可以使模型对更大范围的图像信息给予更多的关注。注意力机制的运算过程可如图4所示,其中q、k、v表示注意力机制运算过程中的三个中间量,其作用类似于卷积过程中的1
×
1卷积。
[0095]
如果一个具有多个头部的多头注意机制有n个头部,如果一个具有多个头部的多头注意机制有n个头部,表示输入和输出特征,表示图像中某个特定点(i,j)对应的张量。因此,多头注意机制中的单头可如式(6)所示。
[0096][0097]
其中,zq,zk,zv为q、k、v对应的投影矩阵,n1表示多头注意力机制的头数为1,nk(i,j)表示以中心像素(i,j)为空间范围k的局部区域。并且是关于nk(i,j)相应矩阵的特征。同样多头注意力机制也可以表示为如下两个阶段:
[0098]
阶段一:
[0099]
阶段二:
[0100]
与传统卷积相似,在阶段i中首先进行1
×
1卷积,将输入特征投影为q、k和v。第二
阶段为注意力权重的计算和值矩阵的聚合,即局部特征的聚合。与阶段一相比,相应的计算成本也被证明是较小的,遵循与卷积相同的模式。卷积与注意力融合模块的组成结构如图5所示。
[0101]
本实施例2中,对于设计下采样层,具体说明如下:
[0102]
一般来说,下采样层关心的是如何处理输入的图像数据,以便后续操作。由于图像中普遍存在自然冗余,卷积网络和注意力网络中的下采样层倾向于主动对输入图像进行下采样,使其大小适合后续操作。
[0103]
在经典的残差网络中,首先使用步长为2的7
×
7卷积层对输入图像进行卷积,然后使用最大池化层进一步减少输入图像,去除冗余信息。残差网络使用这组操作作为网络的初始下采样层,通过该层的输入图像将缩小到原始大小的四分之一。
[0104]
在swin transformer模型中,采用了一种更为特殊的下采样策略,即使用大小为4的“patchify”层,将整个输入图像整齐地划分为多个与卷积核大小相同、互不重叠的块,进行降采样操作。因此,本实施例中尝试将该方法应用于经典残差网络,使经典残差网络能更好地发挥注意力机制的作用,实现卷积与注意力的融合。
[0105]
本实施例中选择使用步长为4的4
×
4卷积作为初始下采样层。而对于残差网络中不同阶段的下采样层,本发明采用步长为2的2
×
2卷积核,即将输入特征图划分为多个尺寸为2
×
2大小的互不重叠的块以逐渐集中关键信息,从而便于网络在合理的计算能力要求下获得更高的结果。下采样层结构可如图6所示。
[0106]
本实施例2中,综合上述设计的非对称卷积数据增强模块神经网络结构、卷积与注意力机制融合模块和下采样层,构建用于细粒度图像分类的改进网络,(acanet)。该改进网络中,残差网络结构整体呈金字塔型由四个通道数依次递增的不同阶段组成,每个阶段由一个通道混洗模块和n个残差块组成,其中n为可以设置的超参数。残差块结构可如图7所示。输入数据在进入每个阶段时都会先传入通道混洗模块进行通道数统一,之后传入n个残差块进行特征提取以此完成一个阶段的计算,并以此往复直至完全通过四个阶段。随后将计算好的数据传入分类层进行特征分类并输出分类结果。网络整体结构如图8所示。
[0107]
本实施例2中,结合图9所示,整个方法的实现过程如下:
[0108]
第一步,配置运行环境,选用pytorch深度学习框架进行训练,在开始训练模型中之前需要安装pytorch、numpy、os等数据库以配合训练,并使用python3.10配置虚拟环境。
[0109]
第二步,准备用于训练模型的数据集,选用cub-200-2011、standford cars和flowers-102数据集进行模型训练,这三个数据集中分别包含了5994、8144和2040张用于训练的高维图片和低维标签数据以及用于测试的高维图象和低维标签数据。
[0110]
第三步,设置模型训练文件和相关参数,除了设置整个系统的配置文件外,根据三个数据集的特点专门配置了设置文件和参数。由于训练集图片数量较少,所以本发明将周期数量设置为600,初始学习率为0.1并且每二百个周期将学习率调整为十分之一。
[0111]
第四步,图象预处理和加载阶段。对输入图像进行尺寸调整、裁剪、随机旋转等预处理操作在统一图象格式的同时加强数据以使得模型在训练过程中避免过拟合等问题且具有更好的泛化性能。
[0112]
第五步,图象特征提取阶段。将预处理好的图象传入网络中进行特征提取。通过网络中的通道混洗模块增加通道数拓宽网络宽度之后进入多个残差块进行特征提取,之后传
入relu函数层增加网络的训练过程增加非线性因素以更好的拟合数据特征。
[0113]
第六步,特征分类。将提取好的特征经过重新排列后传入全连接层通过相关分类函数进行特征分类。
[0114]
第七步,计算损失和准确率。将分类完成后的结果与标签数据进行对比并计算准确率,并将分类结果传入损失函数计算损失。使用了损失函数即celoss、focalloss和mcloss。
[0115]
第八步,梯度下降算法更新权重。通过梯度下降算法不断寻找模型的最优解,并回传数据更新网络权重,指导模型训练。
[0116]
第九步,保存最优模型。记录模型训练的准确度,在未达到设定的训练轮数(epoch)之前,每个epoch计算一次模型准确率。
[0117]
第十步,结束整个过程。
[0118]
本实施例2中,在三个数据集上进行了模拟实验,与其他现有的模型和损失函数的结果进行了比较,比较结果如表1所示,由表1可知,本实施例2所提的方法表现出了更好的性能。
[0119]
表1
[0120][0121]
综上,本实施例2中,首先,通过卷积运算的灵活性和可加性,在训练和特征提取期间将两个非对称卷积作为经典卷积的数据增强支路,并使用结构重参数化技术在测试期间将支路和主路合并减小模型参数量,称之为非对称卷积数据增强模块,可在不增加模型参数量和算力的条件下实现数据增强以提升模型效果。其次,通过对卷积运算过程和注意力机制的拆解,将二者共同的部分组合,从而提出了卷积与注意力融合模块,为注意力网络和卷积网络的融合提供了较之于先前方案更加轻量化的全新解决方案。再次,将提出的非对称卷积数据增强模块和卷积与注意力融合模块融入残差网络,提出了改进的非对称卷积和注意力融合网络(acanet),可以在多个公开数据集上取得较之多个传统方法更优秀的结果。最后,通过借鉴注意力网络中的下采样层技术,提出了适用于卷积和注意力融合网络的
下采样层技术,可以帮助卷积与注意力融合技术更好的适应残差网络。
[0122]
实施例3
[0123]
本实施例3提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的细粒度图像分类优化方法,该方法包括:
[0124]
获取待分类优化的图像;
[0125]
利用预先训练好的模型对获取的待分类优化的图像进行处理,得到图像的分类优化结果;其中,预先训练好的模型中,包括特征提取网络和神经网络分类器;
[0126]
其中,基于卷积运算的可加性,使用非对称卷积进行数据增强;通过对卷积运算和注意力机制的分解,将卷积运算和注意力机制进行融合,得到融合模块;将非对称卷积和融合模块嵌入残差网络的残差块。
[0127]
实施例4
[0128]
本实施例4提供一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的细粒度图像分类优化方法,该方法包括:
[0129]
获取待分类优化的图像;
[0130]
利用预先训练好的模型对获取的待分类优化的图像进行处理,得到图像的分类优化结果;其中,预先训练好的模型中,包括特征提取网络和神经网络分类器;
[0131]
其中,基于卷积运算的可加性,使用非对称卷积进行数据增强;通过对卷积运算和注意力机制的分解,将卷积运算和注意力机制进行融合,得到融合模块;将非对称卷积和融合模块嵌入残差网络的残差块。
[0132]
实施例5
[0133]
本实施例5提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的细粒度图像分类优化方法的指令,该方法包括:
[0134]
获取待分类优化的图像;
[0135]
利用预先训练好的模型对获取的待分类优化的图像进行处理,得到图像的分类优化结果;其中,预先训练好的模型中,包括特征提取网络和神经网络分类器;
[0136]
其中,基于卷积运算的可加性,使用非对称卷积进行数据增强;通过对卷积运算和注意力机制的分解,将卷积运算和注意力机制进行融合,得到融合模块;将非对称卷积和融合模块嵌入残差网络的残差块。
[0137]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0138]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0139]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0140]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0141]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
技术特征:
1.一种细粒度图像分类优化方法,其特征在于,包括:获取待分类优化的图像;利用预先训练好的模型对获取的待分类优化的图像进行处理,得到图像的分类优化结果;其中,预先训练好的模型中,包括特征提取网络和神经网络分类器;其中,基于卷积运算的可加性,使用非对称卷积进行数据增强;通过对卷积运算和注意力机制的分解,将卷积运算和注意力机制进行融合,得到融合模块;将非对称卷积和融合模块嵌入残差网络的残差块。2.根据权利要求1所述的细粒度图像分类优化方法,其特征在于,所述残差网络结构由四个通道数依次递增的不同阶段组成,每个阶段由一个通道混洗模块和n个残差块组成,输入数据在进入每个阶段时都会先传入通道混洗模块进行通道数统一,之后传入n个残差块进行特征提取以此完成一个阶段的计算,并以此往复直至完全通过四个阶段;随后将计算好的数据传入分类层进行特征分类并输出分类结果。3.根据权利要求2所述的细粒度图像分类优化方法,其特征在于,非对称卷积包括并列的3个分支,分别为1
×
3的卷积、3
×
3的卷积和3
×
1的卷积,每个分支分别提取中间特征图。4.根据权利要求2所述的细粒度图像分类优化方法,其特征在于,假设存在卷积核其中k是卷积核的尺寸,c
in
和c
out
分别代表了输入和输出通道数;假设张量和是输入和输出的特征映射,其中h和w分别代表特征图的高和宽;将和分别表示为f和y对应像素点(i,j)的特征张量,则标准卷积的运算过程为:其中,a,b∈{0,1,
…
,k-1}表示核位置(a,b)的权重;则标准卷积表示为以下两个阶段:阶段一:阶段二:阶段二:在第一阶段,即卷积计算阶段,输入特征图从某个位置线性投影到卷积核上;在第二阶段,即移位和聚合阶段,投影的特征图根据卷积核和聚集的位置一起移动。5.根据权利要求4所述的细粒度图像分类优化方法,其特征在于,如果一个具有多个头部的多头注意机制有n个头部,表示输入和输出特征,表示图像中某个特定点(i,j)对应的张量,则多头注意机制中的单头为:
其中,z
q
,z
k
,z
v
为q、k、v对应的投影矩阵,n1表示多头注意力机制的头数为1,n
k
(i,j)表示以中心像素(i,j)为空间范围k的局部区域;并且是关于n
k
(i,j)相应矩阵的特征;则多头注意力机制表示为如下两个阶段:阶段一:阶段二:在阶段一中首先进行1
×
1卷积,将输入特征投影为q、k和v,q、k、v表示注意力机制运算过程中的三个中间量;第二阶段为注意力权重的计算和值矩阵的聚合,即局部特征的聚合。6.根据权利要求5所述的细粒度图像分类优化方法,其特征在于,选择使用步长为4的4
×
4卷积作为初始下采样层;而对于残差网络中不同阶段的下采样层,采用步长为2的2
×
2卷积核,即将输入特征图划分为多个尺寸为2
×
2大小的互不重叠的块以逐渐集中关键信息,从而便于网络在合理的计算能力要求下获得更高的结果。7.一种细粒度图像分类优化系统,其特征在于,包括:获取模块,用于获取待分类优化的图像;处理模块,用于利用预先训练好的模型对获取的待分类优化的图像进行处理,得到图像的分类优化结果;其中,预先训练好的模型中,包括特征提取网络和神经网络分类器;其中,基于卷积运算的可加性,使用非对称卷积进行数据增强;通过对卷积运算和注意力机制的分解,将卷积运算和注意力机制进行融合,得到融合模块;将非对称卷积和融合模块嵌入残差网络的残差块。8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-6任一项所述的细粒度图像分类优化方法。9.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如权利要求1-6任一项所述的细粒度图像分类优化方法。10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-6任一项所述的细粒度图像分类优化方法的指令。
技术总结
本发明提供一种细粒度图像分类优化方法及系统,属于图像处理技术领域,本发明通过卷积运算的灵活性和可加性,将两个非对称卷积作为经典卷积的数据增强支路,使用结构重参数化将支路和主路合并减小模型参数量,在不增加模型参数量和算力的条件下实现数据增强以提升模型效果;提出了卷积与注意力融合模块,为注意力网络和卷积网络的融合提供了较之于先前方案更加轻量化的全新解决方案;提出的非对称卷积数据增强模块和卷积与注意力融合模块融入残差网络,提出了改进的非对称卷积和注意力融合网络,通过借鉴注意力网络中的下采样层技术,提出了适用于卷积和注意力融合网络的下采样层技术,帮助卷积与注意力融合技术更好的适应残差网络。应残差网络。应残差网络。
技术研发人员:谭志 胥子皓
受保护的技术使用者:北京建筑大学
技术研发日:2023.05.10
技术公布日:2023/8/4
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
