一种基于MLP无需分块嵌入映射的视觉识别方法

未命名 08-13 阅读:87 评论:0

一种基于mlp无需分块嵌入映射的视觉识别方法
技术领域
1.本发明涉及深度学习模型计算机视觉识别技术领域,特别涉及一种基于mlp的视觉识别方法,该mlp是一种对特征极端解耦合的深度学习视觉多层感知机模型,可用于计算机视觉任务的主干模型。


背景技术:

2.作为第一个端到端的视觉模型,在很长一段时间内卷积神经网络cnn已经变成了计算机视觉领域实际上的标准工具,并且成功应用在很多实际场景任务上。一般来说,cnn拥有金字塔型的设计,也就是说,越深的卷积层拥有越多的特征通道数但是具有越低的分辨率,典型代表为cifar-quick和vggnet。对于cnn的研究主要集中在两个方面:首先是模型的结构设计。代表性模型为引入残差连接的resnet。残差连接已经变成了现在卷积神经网络必不可少的设计元素,并且resnet衍生出非常多的变体,如resnest,resnext等。另一个方面是卷积核的形式,深度可分离卷积将标准卷积核解耦合为逐深度卷积和逐点卷积,分别提取空间和通道的特征。
3.利用最初在自然语言处理领域提出的自注意力机制,视觉transformers(vision transformers,vits)同样在很多视觉任务上取得优异的成绩。
4.最近研究表明,当使用如在大型数据集上进行预训练等的现代学习策略以及大量数据增强方法时,视觉多层感知机(vision multi-layer perceptron,vision mlp)被证明是一种能够取得和cnn和vits可比较性能的视觉模型。作为一种极具竞争力,但是概念和技术上都比卷积操作和自注意力机制操作更加简单的替代品,视觉mlp继承了丢弃手工设计视觉特征和归纳偏好,端到端的学习模式的趋势。于是在深度学习模型领域,从最初使用全连接层的mlp到使用卷积层的cnn,再到使用自注意力机制的vits,重新回到mlp的闭环被成功建立起来。
5.视觉mlp被设计为完全依靠全连接层(即前馈神经网络)并且仿照vits的结构,即使用分块嵌入的图像作为输入。然而对于现有的视觉mlp(plain-mlp,mlp-mixer和resmlp等),通常的做法是使用卷积操作来实现对输入图像实现分块嵌入映射操作,这就与建立一个纯粹由全连接层堆叠而成的视觉mlp模型的目的相悖。


技术实现要素:

6.针对现有的视觉mlp仿照视觉transformer的结构,使用卷积映射将三维输入张量经过分块嵌入为二维矩阵,导致需要大量的参数与存储空间并改变了初始的空间特征分布的技术缺陷,本发明的目的在于使用一个完全避免卷积操作的、无需分块嵌入的、纯粹由全连接层堆叠而成的视觉mlp模型,来实现视觉识别的方法。这里,分块嵌入指将图像均匀分成多个块,通过卷积或其他编码方式,将图像从三维映射为二维的特征映射。
7.本发明采用的技术方案如下:
8.一种基于mlp无需分块嵌入映射的视觉识别方法,包括以下步骤:
9.步骤1,将n层mlp层堆叠成主干模型;直接将图像输入到主干模型中,无需进行卷积映射编码或分块嵌入的操作;
10.步骤2,对于每一层mlp层,给定输入特征映射为x,尺寸为w*h*c,w,h和c分别表示宽度、高度和通道数维度,首先经过批量归一化层bn1进行批量归一化得到特征映射bn1(x);
11.步骤3,使用由w个不同线性映射构成的宽度多层感知机模块在h*c平面的每个像素位置点交互提取步骤2所得特征映射bn1(x)的宽度维度特征信息,得到特征映射u;
12.步骤4,使用由h个不同线性映射构成的高度多层感知机模块在c*w平面的每个像素位置点交互提取步骤3所得特征映射u的高度维度特征信息,得到特征映射v;将特征映射v经过批量归一化层bn2进行批量归一化得到特征映射bn2(v);将bn2(v)与步骤2所得特征映射bn1(x)相加,接着再次经过批量归一化层bn3进行批量归一化得到特征映射s;
13.步骤5,堆叠e*c个不同线性映射构成的第一个全连接层、第一激活层、批量归一化层bn4、c个不同线性映射构成的第二个全连接层、第二激活层和批量归一化层bn5得到通道多层感知机模块,其中e为扩张系数,用于调整第一个全连接层的输出特征通道数;在w*h平面的每个像素位置点交互提取步骤4所得特征映射s的通道数维度特征信息,得到特征映射o;
14.步骤6,将步骤5特征映射o与步骤4特征映射s相加,得到当前mlp层的输出特征映射x’,作为输入特征映射输入到下一层mlp层,继续进行特征提取;重复步骤2~步骤6,直到最后一层mlp层;
15.步骤7,将所述主干模型的输出输入到全局平均池化层以及用于分类的线性全连接层,进行图像识别分类,输出最终预测结果。
16.进一步地,所述步骤3中,w个不同线性映射即是一个输入输出均为w的全连接层,它具有参数pw,尺寸为w*w,h*c平面的每个像素位置点共享参数。
17.进一步地,所述步骤4中,h个不同线性映射即是一个输入输出均为h的全连接层,它具有参数ph,尺寸为h*h,c*w平面的每个像素位置点共享参数。
18.进一步地,所述步骤5中,所述第一个全连接层中,e*c个不同线性映射即是一个输入为c输出为e*c的全连接层,它具有参数pc1,尺寸为c*e*c,w*h平面的每个像素位置点共享参数;所述第二个全连接层中,c个不同线性映射即是一个输入为e*c输出为c的全连接层,它具有参数pc2,尺寸为e*c*c,w*h平面的每个像素位置点共享参数。
19.进一步地,所述步骤5中,所述第一激活层和第二激活层为深度学习模型中所使用的激活函数。
20.本发明提出的一种基于mlp的视觉识别方法,对视觉特征提取完全解耦合,从宽度(width)、高度(height)和通道数(channel)三个维度单独地顺序地交替地进行特征提取,在保证模型表示能力的前提下极大降低了模型的参数量。本发明是第一个完全使用全连接层堆叠而成的视觉多层感知机模型,以原始图像作为输入,无需对输入图像进行卷积映射编码或分块嵌入等操作。此外,通过结合宽度和高度维度的权重对全局空间权重进行重构,特征映射上任意像素对之间的信息交互都可以通过可视化观察,并且可以观察到捕捉长期依赖的现象。
附图说明
21.图1为本发明方法的流程示意图;
22.图2为本发明多种具体实施例mlp层示意图,(a)为基本mlp层,(b)为扩张mlp层,(c)为交替mlp层,(d)为超级mlp层;
23.图3为本发明与现有方法的性能对比;
24.图4为本发明对重构空间权重的可视化。
具体实施方式
25.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方案做进一步地详细描述。
26.由于本发明对现有视觉mlp模型进行了改进,实施例中称为x-mlp模型。图1所示为本发明使用x-mlp模型的视觉识别方法流程图。
27.首先,将原始图像作为x-mlp模型的输入,无需将图像分割成均匀的分块,并且进行卷积映射嵌入。x-mlp模型由多层(本实施例为12层)mlp层反复堆叠而成。每层mlp层对特征进行完全解耦合,从宽度width,高度height,通道数channel三个维度独立地交替地进行信息交互和特征提取,每层mlp层生成的特征映射是三维的实值张量。对于图像识别分类任务来说,在x-mlp模型之后加上一层全局平均池化层以及用于分类的线性全连接层。
28.对于每层的mlp层来说,假设给定输入特征映射为x,尺寸为w*h*c,首先经过批量归一化层bn进行批量归一化得到特征映射bn(x)。
29.接着使用由w个不同线性映射构成的宽度多层感知机模块(width-cross mlp block)在h*c平面的每个像素位置点交互提取(extract interactively)特征映射bn(x)的width维度特征信息,得到特征映射u。w个不同线性映射即是一个输入输出均为w的全连接层,它具有参数pw(即权重),尺寸为w*w(即是pw
11
到pw
ww
),h*c平面的每个像素位置点共享参数(shared parameters)。
30.接着使用由h个不同线性映射构成的高度多层感知机模块(height-cross mlp block)在c*w平面的每个位置点交互提取特征映射u的height维度特征信息,得到特征映射v。h个不同线性映射即是一个输入输出均为h的全连接层,它具有参数ph(即权重),尺寸为h*h(即是ph
11
到ph
hh
),c*w平面的每个像素位置点共享参数。
31.接着将特征映射v经过批量归一化层bn进行批量归一化得到特征映射bn(v);
32.接着将特征映射bn(v)与特征映射bn(x)相加,接着再次经过批量归一化层bn进行批量归一化得到特征映射s;
33.接着堆叠e*c个不同线性映射层(第一全连接层)、prelu激活层、批量归一化层、c个不同线性映射层(第二全连接层)、prelu激活层和批量归一化层,得到通道多层感知机模块(channel-cross mlp block)。e为扩张系数(expansion coefficient),用于调整全连接层的输出特征通道数,这里的e取值4。channel-cross mlp block的第一全连接层,e*c个不同线性映射即是一个输入为c输出为e*c的全连接层,它具有参数pc1(即权重),尺寸为c*e*c,w*h平面的每个位置点共享参数。channel-cross mlp block的第二全连接层,c个不同线性映射即是一个输入为e*c输出为c的全连接层,它具有参数pc2(即权重),尺寸为e*c*c,w*h平面的每个像素位置点共享参数。
34.接着使用channel-cross mlp block在w*h平面的每个位置点交互提取特征映射s的channel维度特征信息,得到特征映射o;
35.接着将特征映射o与特征映射s相加,即为特征映射s到特征映射o的恒等映射残差连接,得到这一mlp层的输出特征映射x’;
36.接着将所得输出特征映射x’作为输入特征映射输入到下一层mlp层,继续进行特征提取。如将x-mlp模型用于其他视觉任务上,可以在x-mlp模型后添加特定任务所需要的神经网络层,并且将x-mlp模型的输出特征映射作为这些神经网络层的输入。如在图像分类任务中连接分类模块。
37.本发明一种基于mlp的视觉识别方法的核心创新点为mlp层对特征进行完全解耦合,从width,height,channel三个维度独立地交替地进行信息交互和特征提取,符合本发明核心创新点的不同组件组合都在本发明的范围之内,从而本发明衍生出非常多的变体实施例,如图2所示为本发明多种具体实施例mlp层示意图,包括基本mlp层以及改进的mlp层。
38.图2(a)是基本mlp层,对应图3中的“x-basic”,按照上述步骤说明搭建。
39.图2(b)是扩张mlp层,对应图3中的“x-exp”。在基本mlp层基础上,在宽度多层感知机模块和高度多层感知机模块中添加了一个全连接层,并在两个全连接层之间添加了一个非线性激活函数。该模型旨在捕捉非线性关系,提高空间特征的提取能力。
40.图2(c)是交替mlp层,对应图3中的“x-alt”。此模型将扩张mlp层的宽度多层感知机模块和高度多层感知机模块中两个全连接层分开,并按顺序交替这四个层。这种方法可以更充分地提取与合并宽度和高度的信息。
41.图2(d)是超级mlp层,对应图3中的“x-sup”。此模型在基本mlp层中构建更多的跳转连接和通道交叉mlp块,以增强特征提取。此外,我们在三维特征混合后聚合通道信息。这种复杂的去符号增强了空间和通道特征的提取,并在大多数基准数据集上获得了优越的性能。本实施例的有益效果可以通过如下实验来验证:
42.一、模型精度
43.根据本发明提出的由图2四种mlp层堆叠的四个实施例x-mlp模型,即x-basic、x-exp、x-alt、x-sup,在分类任务上进行测试,测试包括十种具有挑战性的计算机视觉图像分类数据集,分别为:tiny-imagenet-200,caltech-256,food-101,flowers-102,cifar-100,cifar-10,svhn,mnist,kmnist以及fashionmnist。如图4所示,均取得优秀的测试准确率,证明本发明所提出的x-mlp模型具有优秀的表示能力。
44.并与现有的深度学习视觉多层感知机模型以及卷积神经网络模型进行了对比,如图3所示。为了对比的公平性,所有视觉模型都在十种数据集上使用相同优化配置训练至收敛。
45.当将本发明所提出的方法与其他现有的视觉mlp方法进行比较时,本发明所提出的基于图2mlp层的四个实施例均取得更好的结果。虽然mlpmixer-12是其他现有的视觉mlp中表现最优的mlp模型,但本发明所提出的超级mlp层(图2(d))在tiny-imagenet-200和food-101数据集上准确率远远超过mlpmixer-12,幅度分别达到9.22%和10.34%。除此之外,本发明所提出的实施例x-sup的参数数量比mlpmixer-12的参数数量少了1.5倍。本发明所提出的实施例x-alt在flowers-102和cifar-100数据集上准确率远远超过最优的mlpmixer-12,幅度分别达到5.77%and 5.99%,但是本发明所提出的实施例x-alt参数数
量只有mlpmixer-24的54.62%。
46.如图3测试结果,本发明所提出的x-mlp模型的最佳实施例和最佳现有视觉mlp的准确率差值:本发明所提出的实施例x-alt在数据集caltech-256上与现有最佳实施例mlpmixer-24的准确率差值为3.25%;本发明所提出的实施例x-alt在数据集cifar-10上与现有最佳实施例mlpmixer-12的准确率差值为5.99%;本发明所提出的实施例x-sup在数据集mnist上与现有最佳实施例mlpmixer-12的准确率差值为0.40%;本发明所提出的实施例x-sup在数据集kmnist上与现有最佳实施例mlpmixer-24的准确率差值为2.33%;本发明所提出的实施例x-sup在数据集fashion-mnist上与现有最佳实施例mlpmixer-12的准确率差值为0.84%;准确率的增幅仍然非常明显。
47.当和cnn模型进行比较时,本发明提出的x-mlp实施例模型仍然能够在这些具有挑战性的计算机视觉图像分类数据集取得具有竞争力的甚至更优秀的结果。举例来说,本发明所提出的实施例x-sup在tiny-imagenet-200和food-101数据集超过vggnet,幅度分别达到5.66%和3.92%,而参数量仅有vggnet的28.52%。
48.由此可看出本发明在模型精度以及模型大小(参数量)上综合性能的优越性。
49.二、可视化结果
50.通过对空间权重的重构,可以对空间权重进行可视化,从而观察到特征映射上任意像素对之间的信息交互和捕捉长期依赖现象。
51.对空间权重的重构的步骤为:
52.(1)给定输入x,尺寸h*w*c,由于只考虑空间权重,因此忽略x的通道维度,x的尺寸为h*w;
53.(2)width-cross mlp block的权重pw用于提取width维度的特征信息,尺寸为w*w;
54.(3)height-cross mlp block的权重ph用于提取height维度的特征信息,尺寸h*h;
55.(4)将width-cross mlp block作用于x上,得到输出特征映射y’表达式为:
[0056][0057]
其中,下标表示点的坐标。(i,j)是第i行j列上的点,i的取值范围是1~h,j的取值范围是1~w。
[0058]
(5)将height-cross mlp block作用于特征映射y’上,得到输出特征映射y表达式为:
[0059][0060]
(6)将特征映射y的表达式重写为:
[0061][0062]
(7)重构的空间权重w’,尺寸为h*w*h*w,以及对应的映射可以被表达为:
[0063][0064][0065]
其中,a和b是下标,含义是具体的尺寸(h和w)。
[0066]
如图4所示为本发明对重构空间权重的可视化。可以观察到特征映射上任意像素对之间的信息交互和捕捉长期依赖现象。
[0067]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之中。

技术特征:
1.一种基于mlp无需分块嵌入映射的视觉识别方法,其特征在于,包括以下步骤:步骤1,将n层mlp层堆叠成主干模型;直接将图像输入到主干模型中,无需进行卷积映射编码或分块嵌入的操作;步骤2,对于每一层mlp层,给定输入特征映射为x,尺寸为w*h*c,w,h和c分别表示宽度、高度和通道数维度,首先经过批量归一化层bn1进行批量归一化得到特征映射bn1(x);步骤3,使用由w个不同线性映射构成的宽度多层感知机模块在h*c平面的每个像素位置点交互提取步骤2所得特征映射bn1(x)的宽度维度特征信息,得到特征映射u;步骤4,使用由h个不同线性映射构成的高度多层感知机模块在c*w平面的每个像素位置点交互提取步骤3所得特征映射u的高度维度特征信息,得到特征映射v;将特征映射v经过批量归一化层bn2进行批量归一化得到特征映射bn2(v);将bn2(v)与步骤2所得特征映射bn1(x)相加,接着再次经过批量归一化层bn3进行批量归一化得到特征映射s;步骤5,堆叠e*c个不同线性映射构成的第一个全连接层、第一激活层、批量归一化层bn4、c个不同线性映射构成的第二个全连接层、第二激活层和批量归一化层bn5得到通道多层感知机模块,其中e为扩张系数,用于调整第一个全连接层的输出特征通道数;在w*h平面的每个像素位置点交互提取步骤4所得特征映射s的通道数维度特征信息,得到特征映射o;步骤6,将步骤5特征映射o与步骤4特征映射s相加,得到当前mlp层的输出特征映射x’,作为输入特征映射输入到下一层mlp层,继续进行特征提取;重复步骤2~步骤6,直到最后一层mlp层;步骤7,将所述主干模型的输出输入到全局平均池化层以及用于分类的线性全连接层,进行图像识别分类,输出最终预测结果。2.根据权利要求1所述的一种基于mlp无需分块嵌入映射的视觉识别方法,其特征在于,所述步骤3中,w个不同线性映射即是一个输入输出均为w的全连接层,它具有参数pw,尺寸为w*w,h*c平面的每个像素位置点共享参数。3.根据权利要求1所述的一种基于mlp无需分块嵌入映射的视觉识别方法,其特征在于,所述步骤4中,h个不同线性映射即是一个输入输出均为h的全连接层,它具有参数ph,尺寸为h*h,c*w平面的每个像素位置点共享参数。4.根据权利要求1所述的一种基于mlp无需分块嵌入映射的视觉识别方法,其特征在于,所述步骤5中,所述第一个全连接层中,e*c个不同线性映射即是一个输入为c输出为e*c的全连接层,它具有参数pc1,尺寸为c*e*c,w*h平面的每个像素位置点共享参数;所述第二个全连接层中,c个不同线性映射即是一个输入为e*c输出为c的全连接层,它具有参数pc2,尺寸为e*c*c,w*h平面的每个像素位置点共享参数。5.根据权利要求1所述的一种基于mlp无需分块嵌入映射的视觉识别方法,其特征在于,所述步骤5中,所述第一激活层和第二激活层为深度学习模型中所使用的激活函数。

技术总结
本发明提出了一种基于MLP无需分块嵌入映射的视觉识别方法。该方法通过引入一种新的提取特征的方法,对视觉特征提取完全解耦合,从宽度,高度和通道三个维度单独地顺序地交替地进行特征提取,在保证模型表示能力的前提下极大降低了模型的参数量。本发明对于现有的多层感知机模型,是首个完全使用全连接层堆叠而成的模型,无需对输入图像进行卷积映射编码或分块嵌入等操作。块嵌入等操作。块嵌入等操作。


技术研发人员:王心悦 蔡志成 曹汛 沈秋
受保护的技术使用者:南京大学
技术研发日:2023.04.15
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐