级联带状混合的多层感知机模型图像识别方法及相关设备

未命名 08-27 阅读：172 评论：0

1.本发明涉及计算机视觉技术领域，特别涉及一种级联带状混合的多层感知机模型图像识别方法及相关设备。

背景技术：

2.在计算机视觉领域中，卷积神经网络(convolutional neural networks，cnns)是主流的深度学习模型，在算法性能上取得了一系列的突破。自注意力方法(self-attention)在自然语言处理领域取得了巨大的成功。受此启发，transformer模型也被应用到了视觉领域中，并达到了与cnns方法相当的模型性能。虽然vit(vision transformer)模型及其系列方法整体优于传统的cnns模型，但是最近的研究表明，self-attention在视觉算法中并非是必需的，非注意力模型(attention-free)也能够取得与之接近或更优的模型性能。近年来，基于多层感知机的模型(multi layer perceptron，mlp)，比如mlp-mixer、maxim、gmlp等方法，仅采用mlp网络层构造了attention-free的深度学习模型，表现出了优秀的模型潜力。
3.在视觉模型中，全局信息和局部信息对模型的识别精度都会产生一定的影响。cnns模型通过共享卷积核权重，采用一系列卷积核在图像上进行滑动卷积得到新的图像特征，从而能够聚合局部信息。但由于受限于卷积核的大小，该方法无法获取图像的长距离信息。transformer模型通过self-attention模块获取图像的全局信息，但却引入了大量的计算复杂度。相比较而言，基于mlp的模型不再使用基于注意力机制，而是采用网络深度更深的mlp网络层，从通道维度和空间维度获取图像的全局信息，具有显著的应用潜力。
4.其中，mlp-mixer模型提出了两种mlp网络层：通道混合层(channel-mixing mlps)和图像块混合层(token-mixing mlps)。channel-mixing mlps主要用于对每个图像块(token)进行通道维度的特征信息混合，而token-mixing mlps主要用于不同空间位置token的特征信息融合。该方法的主要问题是：模型参数量过大，从而导致模型容易过拟合。sparse mlp方法通过引入sparse mlp block，即mlp仅沿着图像空间维度的轴向进行处理，同时通过共享参数的方法，有效减少了模型参数提升了模型的精度，降低了模型的过拟合风险。但是，该方法同时也带来了一些缺陷。一方面，该模型采用并行的方法进行token之间的信息交互，该方法会降低token之间的交互效率。具体而言，一个token与图像二维空间的其他所有token进行信息交互必须通过两个sparse mlp block才能够实现；另一方面，sparse mlp block容易丢失相邻token信息，从而对局部相邻token的图像信息聚合欠佳。更为重要的是，token-mixing mlp的模型表达能力与特征的空间分辨率相关。空间分辨率越小的特征，其对应的token-mixing模型表达能力也将越弱，极大限制了模型的性能。
5.因而现有技术还有待改进和提高。

技术实现要素：

6.本发明的主要目的在于提供一种级联带状混合的多层感知机模型图像识别方法
及相关设备，旨在解决现有技术中多层感知机的模型中的图像块之间的交互效率低下且聚合效果差的问题。
7.为了达到上述目的，本发明采取了以下技术方案：
8.一种级联带状混合的多层感知机模型图像识别方法，所述级联带状混合的多层感知机模型图像识别方法包括：
9.将经过切分后的原始图像输入至级联带状混合的多层感知机模型中的第一网络层，依次进行第一映射操作、第一信息交互操作和第一特征聚合操作，得到第一输出特征；
10.将所述第一输出特征输入到所述多层感知机模型中的第二网络层，依次进行第一卷积操作、第二信息交互操作和第二特征聚合操作，得到第二输出特征；
11.将所述第二输出特征输入到所述多层感知机模型中的第三网络层，依次进行第二卷积操作、第三信息交互操作和第三特征聚合操作，得到第三输出特征；
12.将所述第三输出特征输入到所述多层感知机模型中的第四网络层，依次进行第三卷积操作、第四信息交互操作和第四特征聚合操作，得到第四输出特征；
13.对所述第四输出特征进行池化操作和第二映射操作，得到图像分类结果。
14.所述级联带状混合的多层感知机模型图像识别方法中，所述将经过切分后的原始图像输入至级联带状混合的多层感知机模型中的第一网络层，依次进行第一映射操作、第一信息交互操作和第一特征聚合操作，得到第一输出特征，具体包括：
15.对第一维度的原始图像进行切分，得到多个图像块；利用所述第一网络层中的第一线性模块对所有所述图像块进行所述第一映射操作，得到第二维度的图像特征；
16.在宽度方向的维度上，利用所述第一网络层中的第一级联带状混合模块对所述第二维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第一融合图像特征；
17.在高度方向的维度上，利用所述第一级联带状混合模块对所述第一融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到第二融合图像特征；
18.利用所述第一网络层中的第一通道混合模块对所述第二融合图像特征进行第一特征聚合操作，得到所述第一输出特征。
19.所述级联带状混合的多层感知机模型图像识别方法中，所述将所述第一输出特征输入到所述多层感知机模型中的第二网络层，依次进行第一卷积操作、第二信息交互操作和第二特征聚合操作，得到第二输出特征，具体包括：
20.利用所述第二网络层中的第一图像块融合模块对所述第一输出特征进行所述第一卷积操作，得到第三维度的图像特征；
21.在宽度方向的维度上，利用所述第二网络层中的第二级联带状混合模块对所述第三维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第三融合图像特征；
22.在高度方向的维度上，利用所述第二级联带状混合模块对所述第三融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到第四融合图像特征；
23.利用所述第二网络层中的第二通道混合模块对所述第四融合图像特征进行第二
特征聚合操作，得到所述第二输出特征。
24.所述级联带状混合的多层感知机模型图像识别方法中，所述将所述第二输出特征输入到所述多层感知机模型中的第三网络层，依次进行第二卷积操作、第三信息交互操作和第三特征聚合操作，得到第三输出特征，具体包括：
25.利用所述第三网络层中的第二图像块融合模块对所述第二输出特征进行所述第二卷积操作，得到第四维度的图像特征；
26.在宽度方向的维度上，利用所述第三网络层中的第三级联带状混合模块对所述第四维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第五融合图像特征；
27.在高度方向的维度上，利用所述第三级联带状混合模块对所述第五融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到第六融合图像特征；
28.利用所述第三网络层中的第三通道混合模块对所述第六融合图像特征进行第三特征聚合操作，得到所述第三输出特征。
29.所述级联带状混合的多层感知机模型图像识别方法中，所述将所述第三输出特征输入到所述多层感知机模型中的第四网络层，依次进行第三卷积操作、第四信息交互操作和第四特征聚合操作，得到第四输出特征，具体包括：
30.利用所述第四网络层中的第三图像块融合模块对所述第三输出特征进行所述第三卷积操作，得到第五维度的图像特征；
31.在宽度方向的维度上，利用所述第四网络层中的第四级联带状混合模块对所述第五维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第七融合图像特征；
32.在高度方向的维度上，利用所述第四级联带状混合模块对所述第七融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到第八融合图像特征；
33.利用所述第四网络层中的第四通道混合模块对所述第八融合图像特征进行第四特征聚合操作，得到所述第四输出特征。
34.所述级联带状混合的多层感知机模型图像识别方法中，所述第一维度为h
×w×
3；所述第二维度为其中，h表示竖直方向上的像素数，w表示水平方向上的像素数，c表示通道数，p表示所述图像块的长，q表示所述图像块的宽。
35.所述级联带状混合的多层感知机模型图像识别方法中，所述第三维度为所述第四维度为所述第五维度为其中，h表示竖直方向上的像素数，w表示水平方向上的像素数，c表示通道数，p表示所述图像块的长，q表示所述图像块的宽。
36.一种级联带状混合的多层感知机模型图像识别系统，所述级联带状混合的多层感知机模型图像识别系统包括：
37.第一输出特征获取模块，用于将经过切分后的原始图像输入至级联带状混合的多
层感知机模型中的第一网络层，依次进行第一映射操作、第一信息交互操作和第一特征聚合操作，得到第一输出特征；
38.第二输出特征获取模块，用于将所述第一输出特征输入到所述多层感知机模型中的第二网络层，依次进行第一卷积操作、第二信息交互操作和第二特征聚合操作，得到第二输出特征；
39.第三输出特征获取模块，用于将所述第二输出特征输入到所述多层感知机模型中的第三网络层，依次进行第二卷积操作、第三信息交互操作和第三特征聚合操作，得到第三输出特征；
40.第四输出特征获取模块，用于将所述第三输出特征输入到所述多层感知机模型中的第四网络层，依次进行第三卷积操作、第四信息交互操作和第四特征聚合操作，得到第四输出特征；
41.图像分类结果获取模块，用于对所述第四输出特征进行池化操作和第二映射操作，得到图像分类结果。
42.一种智能终端，所述智能终端包括：存储器、处理器、显示器及存储在所述存储器上并可在所述处理器上运行的级联带状混合的多层感知机模型图像识别程序，所述级联带状混合的多层感知机模型图像识别程序被所述处理器执行时实现如上所述的级联带状混合的多层感知机模型图像识别方法的步骤。
43.一种计算机可读存储介质，所述计算机可读存储介质存储有级联带状混合的多层感知机模型图像识别程序，所述级联带状混合的多层感知机模型图像识别程序被处理器执行时实现如上所述的级联带状混合的多层感知机模型图像识别方法的步骤。
44.相较于现有技术，本发明提供的一种级联带状混合的多层感知机模型图像识别方法及相关设备，方法包括：将经过切分后的原始图像输入至第一网络层，依次进行第一映射、第一信息交互和第一特征聚合操作得到第一输出特征；将第一输出特征输入到第二网络层，依次进行第一卷积、第二信息交互和第二特征聚合操作得到第二输出特征；将第二输出特征输入到第三网络层，依次进行第二卷积、第三信息交互和第三特征聚合操作得到第三输出特征；将第三输出特征输入到第四网络层，依次进行第三卷积、第四信息交互和第四特征聚合操作得到第四输出特征；对第四输出特征进行池化和第二映射操作得到图像分类结果，提升了多层感知机的模型中的图像块之间的交互效率和聚合效果。
附图说明
45.图1为本发明提供的级联带状混合的多层感知机模型图像识别方法的较佳实施例的流程图；
46.图2为本发明提供的级联带状混合的多层感知机模型图像识别方法的较佳实施例中基于级联带状混合的多层感知机模型的框架示意图；
47.图3为本发明提供的级联带状混合的多层感知机模型图像识别方法的较佳实施例中步骤s100的流程图；
48.图4为本发明提供的级联带状混合的多层感知机模型图像识别方法的较佳实施例中cast-mlp网络的级联带状混合模块的结构图；
49.图5为本发明提供的级联带状混合的多层感知机模型图像识别方法的较佳实施例
中通道混合结构的示意图；
50.图6为本发明提供的级联带状混合的多层感知机模型图像识别方法的较佳实施例中strip mlp结构与传统的mlp结构和sparse mlp结构的对比示意图；
51.图7为本发明提供的级联带状混合的多层感知机模型图像识别方法的较佳实施例中步骤s200的流程图；
52.图8为本发明提供的级联带状混合的多层感知机模型图像识别系统的原理框图步骤s300的流程图；
53.图9为本发明提供的级联带状混合的多层感知机模型图像识别方法的较佳实施例中步骤s400的流程图；
54.图10为本发明提供的级联带状混合的多层感知机模型图像识别系统的架构关系图；
55.图11为本发明提供的智能终端的较佳实施例的运行环境示意图。
具体实施方式
56.为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
57.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
58.本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
59.本发明提供了一种级联带状混合的多层感知机模型(cascade strip mixing mlp，cast-mlp)图像识别方法及相关设备。在本发明提出的一种级联带状混合的多层感知机网络模型中，本发明提出了一个新的级联带状混合模块(strip mlp)，该模块能够通过级联结构来显著提高token之间的交互效率，相邻的token能够在带状尺度下进行信息交互，即能够同时在短范围和长范围进行信息的混合。本发明中通过将经过切分后的原始图像依次输入级联带状混合的多层感知机模型中的第一网络层、第二网络层、第三网络层和第四网络层后，进行池化操作和第二映射操作得到图像分类结果，从而加快了多层感知机的模型中的图像块之间的交互效率，并提升了图像块之间的聚合效果。
60.下面通过具体示例性的实施例对级联带状混合的多层感知机模型图像识别方法设计方案进行描述，需要说明的是，下列实施例只用于对发明的技术方案进行解释说明，并
embedding)、所述第一级联带状混合模块(对应图2中stage 1中的cascade strip mixing)和所述第一通道混合模块(对应图2中stage 1中的channel mixing)。
73.具体地，获取第一维度的原始图像x后，对所述原始图像x进行均匀切分，得到多个图像块(patches)；其中，所述原始图像x的维度(第一维度)为h
×w×
3(h表示图像在竖直方向有多少像素，w表示水平方向像素数，c表示通道数(例如黑白图像的通道数c＝1，而rgb彩色图像的通道数c＝3))。那么，所述原始图像x被均匀切分为个图像块，每个patch的大小为p
×
q。
74.然后，将每个patch通过线性层(第一线性模块)将其映射至更高的维度(第二维度)，即得到第二维度的图像特征。当所述第二维度的图像特征经过所述第一级联带状混合模块(对应图2中stage 1中的cascade strip mixing)时，所述第一级联带状混合模块中的strip mlp(带状混合模块)在宽度方向和高度方向上对第二维度的图像特征进行应用：
75.如图4所示的cast-mlp网络的级联带状混合模块(其中，级联带状混合模块包括：第一级联带状混合模块、第二级联带状混合模块、第三级联带状混合模块和第四级联带状混合模块，且四者具有相同的结构)的结构图，在strip mlp(对应图4中网格中的小方块)应用于宽度(width)方向上：给定输入特征即此时的第二维度的图像特征。然后，对所述第二维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到所述第一融合图像特征，即进行特征维度置换(第一次的第一维度置换)，即得到并将图像特征在通道维度上划分为g组，即每个组的特征沿着宽度方向进行堆叠，即
76.然而，由于此操作，图像特征在宽度方向数据的维度将会很大。为了避免过多的模型计算量以及参数量，本发明提出了分组带状mlp层(group strip mlp，对应图4中的输入特征从维度置换到恢复和维度置换后的所有步骤)，将数据沿着宽度方向划分为s段(s需要能够被gw整除)，之后，将strip mlp应用于每段特征数据，各段数据之间的权重不共享参数。最终，将图像特征进行维度置换(第二次的第一维度置换)，恢复至与输入特征维度一致，从而可得到图像特征为了进一步保留图像位置信息，将得到的图像特征与输入特征进行级联，并通过全连接层(对应图4中的channel fc)进行图像融合，从而得到融合后的图像特征(此时为第一融合图像特征)。
77.同理，在strip mlp应用于高度(height)方向上，利用所述第一级联带状混合模块对所述第一融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到所述第二融合图像特征：该步骤以作为输入，即与上一步骤形成级联模型。该步骤的特征处理方法与strip mlp应用于宽度方向类似，不同之处在于特征的维度置换沿着高度方向进行操作，并最终能够得到输出特征(第二融合图
像特征)。
78.最后，利用所述第一网络层中的第一通道混合模块(对应图2中stage 1的channel-mixing)对所述第二融合图像特征进行第一特征聚合操作，得到所述第一输出特征
79.其中，channel-mixing：主要用于进行通道维度的信息聚合，其结构如图5所示。本发明中，通过strip mlp与cascade strip mixing结构的设计，实现了仅采用一个模块即可实现当前token与其他token在二维空间的信息交互，从而提升了token的交互效率。
80.然而，本发明中的cast-mlp结构中的cascade strip mixing结构是基于全新的strip mlp结构提出的。其中，本发明中首次提出的strip mlp结构与传统的mlp结构和sparse mlp结构的对比示意图如图6所示。本发明中strip mlp结构将mlp(mlp：multi layer perceptron，中文名为多层感知机的模型)应用于token的当前轴以及相邻的两个轴，能够对相邻轴token的信息进行有效融合，能够同时获取短距离和长距离信息，并提升模型的表达能力，使得token能够在“带状尺度”(strip scale)进行信息交互。
81.传统mlp方法将当前的token与其他token进行全部的信息交互，计算量巨大、模型参数较大，导致了模型的过拟合现象。而sparse mlp的方法忽略了相邻轴的token信息交互，容易丢失临近token的信息，同时也降低了token信息交互的效率。而cascade strip mixing结构则能够使得token之间的信息交互更加高效，并进一步地提升模型的表达能力。
82.进一步地，请继续参阅图1，s200、将所述第一输出特征输入到所述多层感知机模型中的第二网络层，依次进行第一卷积操作、第二信息交互操作和第二特征聚合操作，得到第二输出特征。
83.具体地，在得到所述第一输出特征后，进入阶段二：
84.将所述第一输出特征输入到所述多层感知机模型中的第二网络层(对应图2中的stage 2)，利用所述第一网络层对所述第一输出特征依次进行所述第一卷积操作、所述第二信息交互操作和所述第二特征聚合操作，在所述第二阶段重复t2个周期后，得到所述第二输出特征以便将所述第二输出特征作为所述第三网络层的输入进行进一步地操作。
85.更进一步地，请参阅图7，所述s200、将所述第一输出特征输入到所述多层感知机模型中的第二网络层，依次进行第一卷积操作、第二信息交互操作和第二特征聚合操作，得到第二输出特征，具体包括：
86.s210、利用所述第二网络层中的第一图像块融合模块对所述第一输出特征进行所述第一卷积操作，得到第三维度的图像特征；其中，所述第三维度为
87.s220、在宽度方向的维度上，利用所述第二网络层中的第二级联带状混合模块对所述第三维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第三融合图像特征；
88.s230、在高度方向的维度上，利用所述第二级联带状混合模块对所述第三融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合
操作，得到第四融合图像特征；
89.s240、利用所述第二网络层中的第二通道混合模块对所述第四融合图像特征进行第二特征聚合操作，得到所述第二输出特征。
90.其中，所述第二网络层包括：所述第一图像块融合模块(对应图2中stage 2中的patch merging)、所述第二级联带状混合模块(对应图2中stage2中的cascade strip mixing)和所述第二通道混合模块(对应图2中stage 2中的channel mixing)。
91.具体地，在得到所述第一输出特征后，进入阶段二：
92.获取所述第一输出特征后，将所述第一输出特征输入至所述第二网络层中，利用所述第二网络层中的第一图像块融合模块(对应图2中stage 2中的patch merging)对所述第一输出特征进行所述第一卷积操作，得到所述第三维度的图像特征，即所述第一图像块融合模块通过卷积操作使得图像特征的分辨率下降2倍，同时图像通道数增加为输入通道的两倍，即由变为
93.同理，当所述第三维度的图像特征经过所述第二级联带状混合模块时，所述第二级联带状混合模块中的strip mlp在宽度方向和高度方向上对第三维度的图像特征进行应用：
94.在strip mlp应用于宽度方向上：给定输入特征即此时的第三维度的图像特征，然后，对所述第三维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到所述第三融合图像特征，即进行特征维度置换(第一次的第一维度置换)，即得到并将图像特征在通道维度上划分为g组，即每个组的特征沿着宽度方向进行堆叠，即
95.然而，由于此操作，图像特征在宽度方向数据的维度将会很大。为了避免过多的模型计算量以及参数量，本发明提出了分组带状mlp层，将数据沿着宽度方向划分为s段，之后，将strip mlp应用于每段特征数据，各段数据之间的权重不共享参数。最终，将图像特征进行维度置换(第二次的第一维度置换)，恢复至与输入特征维度一致，从而可得到图像特征为了进一步保留图像位置信息，将得到的图像特征与输入特征进行级联，并通过全连接层进行图像融合，从而得到融合后的图像特征(此时为第三融合图像特征)。
96.同理，在strip mlp应用于高度(height)方向上，利用所述第二级联带状混合模块对所述第三融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到所述第四融合图像特征：该步骤以作为输入，即与上一步骤形成级联模型。该步骤的特征处理方法与strip mlp应用于宽度方向类似，不同之处在于特征的维度置换沿着高度方向进行操作，并最终能够得到输出特征(第四融合图像特征)。
97.最后，利用所述第二网络层中的第二通道混合模块(对应图2中stage 2的channel-mixing)对所述第四融合图像特征进行第二特征聚合操作，得到所述第二输出特征
98.进一步地，请继续参阅图1，s300、将所述第二输出特征输入到所述多层感知机模型中的第三网络层，依次进行第二卷积操作、第三信息交互操作和第三特征聚合操作，得到第三输出特征。
99.具体地，在得到所述第二输出特征后，进入阶段三：
100.将所述第二输出特征输入到所述多层感知机模型中的第三网络层(对应图2中的stage 3)，利用所述第三网络层对所述第二输出特征依次进行所述第二卷积操作、所述第三信息交互操作和所述第三特征聚合操作，在所述第三阶段重复t3个周期后，得到所述第三输出特征以便将所述第三输出特征作为所述第四网络层的输入进行进一步地操作。
101.更进一步地，请参阅图8，所述s300、将所述第二输出特征输入到所述多层感知机模型中的第三网络层，依次进行第二卷积操作、第三信息交互操作和第三特征聚合操作，得到第三输出特征，具体包括：
102.s310、利用所述第三网络层中的第二图像块融合模块对所述第二输出特征进行所述第二卷积操作，得到第四维度的图像特征；其中，所述第四维度为
103.s320、在宽度方向的维度上，利用所述第三网络层中的第三级联带状混合模块对所述第四维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第五融合图像特征；
104.s330、在高度方向的维度上，利用所述第三级联带状混合模块对所述第五融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到第六融合图像特征；
105.s340、利用所述第三网络层中的第三通道混合模块对所述第六融合图像特征进行第三特征聚合操作，得到所述第三输出特征。
106.其中，所述第三网络层包括：所述第二图像块融合模块(对应图2中stage 3中的patch merging)、所述第三级联带状混合模块(对应图2中stage3中的cascade strip mixing)和所述第三通道混合模块(对应图2中stage 3中的channel mixing)。
107.具体地，在得到所述第二输出特征后，进入阶段三：
108.首先，利用所述第三网络层中的第二图像块融合模块(对应图2中stage3中的patch merging)对所述第二输出特征进行所述第二卷积操作，得到第四维度的图像特征。
109.然后，在宽度方向的维度上，利用所述第三网络层中的第三级联带状混合模块(对应图2中stage 3中的cascade strip mixing)对所述第四维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第五融合图像
特征。
110.再者，在高度方向的维度上，利用所述第三级联带状混合模块对所述第五融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到第六融合图像特征；最后，利用所述第三网络层中的第三通道混合模块(对应图2中stage 3中的channel mixing)对所述第六融合图像特征进行所述第三特征聚合操作，得到所述第三输出特征
111.进一步地，请继续参阅图1，s400、将所述第三输出特征输入到所述多层感知机模型中的第四网络层，依次进行第三卷积操作、第四信息交互操作和第四特征聚合操作，得到第四输出特征。
112.具体地，在得到所述第三输出特征后，进入阶段四：
113.将所述第三输出特征输入到所述多层感知机模型中的第四网络层(对应图2中的stage 4)，利用所述第四网络层对所述第三输出特征依次进行所述第三卷积操作、所述第四信息交互操作和所述第四特征聚合操作，在所述第四阶段重复t4个周期后，得到所述第四输出特征以便对所述第四输出特征进行池化操作和第二映射操作，得到所述图像分类结果。
114.更进一步地，请参阅图9，所述s400、将所述第三输出特征输入到所述多层感知机模型中的第四网络层，依次进行第三卷积操作、第四信息交互操作和第四特征聚合操作，得到第四输出特征，具体包括：
115.s410、利用所述第四网络层中的第三图像块融合模块对所述第三输出特征进行所述第三卷积操作，得到第五维度的图像特征；其中，所述第五维度为
116.s420、在宽度方向的维度上，利用所述第四网络层中的第四级联带状混合模块对所述第五维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第七融合图像特征；
117.s430、在高度方向的维度上，利用所述第四级联带状混合模块对所述第七融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到第八融合图像特征；
118.s440、利用所述第四网络层中的第四通道混合模块对所述第八融合图像特征进行第四特征聚合操作，得到所述第四输出特征。
119.具体地，在得到所述第三输出特征后，进入阶段四：
120.首先，利用所述第四网络层中的第三图像块融合模块(对应图2中stage4中的patch merging)对所述第三输出特征进行所述第三卷积操作，得到第五维度的图像特征。
121.然后，在宽度方向的维度上，利用所述第三网络层中的第三级联带状混合模块(对应图2中stage 3中的cascade strip mixing)对所述第四维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第七融合图像
特征；
122.再者，在高度方向的维度上，利用所述第三级联带状混合模块对所述第七融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到第八融合图像特征；最后，利用所述第三网络层中的第三通道混合模块(对应图2中stage 3中的channel mixing)对所述第八融合图像特征进行第三特征聚合操作，得到所述第四输出特征
123.进一步地，请继续参阅图1，s500、对所述第四输出特征进行池化操作和第二映射操作，得到图像分类结果。
124.具体地，在得到所述第四输出特征后，对所述第四输出特征进行所述池化操作和所述第二映射操作，即所述第四输出特征经过全局平均池化(global average pooling，gap)，并经线性层处理，得到最终的分类结果：所述图像分类结果。
125.本发明中经过切分后的原始图像输入至级联带状混合的多层感知机模型中的第一网络层、第二网络层、第三网络层和第四网络层进行映射操作、卷积操作、信息交互操作和特征聚合操作，最终得到所述图像分类结果。即通过级联结构来显著提高token之间的交互效率，相邻的token能够在带状尺度下进行信息交互，即能够同时在短范围和长范围进行信息的混合。
126.接下来，用发明实例和实验结果来证明本发明中的cast-mlp与现有技术中cnn-based模型、transformer-based模型和mlp-based模型的区别的过程如下：
127.模型配置：为了将本发明的方法与现存方法进行比较，设计了4种模型变体：cast-mlp-t*、cast-mlp-t、cast-mlp-s和cast-mlp-b，各模型参数量和计算复杂度逐渐增加，与swin transformer等公开方法的模型大小类似或接近。各模型结构的参数如下：
128.cast-mlp-t*：c＝80，{t1～t4}＝{2，2，6，2}；
129.cast-mlp-t：c＝80，{t1～t4}＝{2，2，16，2}；
130.cast-mlp-s：c＝96，{t1～t4}＝{2，2，18，2}；
131.cast-mlp-b：c＝128，{t1～t4}＝{2，2，18，2}；
132.本发明将cast-mlp与cnn-based模型、transformer-based模型和mlp-based模型进行了比较。采用了3种不同规模的公开数据集，各类数据集说明如下：
133.caltech-101：包含101类别，共有9k图像，对每一类别随机选择80％作为训练集，剩余图像作为测试集；
134.cifar-100：包含100类别，共60k图像，其中，有50k用于模型训练，10k用于模型测试；
135.imagenet-1k：包含1000类别，其中有1.28m训练图像数据，50k的测试图像数据；
136.其中，cast-mlp在caltech-101数据集的模型实验结果如表1所示，本发明方法取得了更优的实验结果：与cnn模型相比，cast-mlp-b的top-1accuracy比resnet152模型高3.39％，三个不同大小的模型比resnet模型平均高3.09％。与transformer模型相比，本发明的方法比swin transformer各模型高11.13％/12.69％/14.01％，而vit-b/16模型仅取得了53.96％的精度。与mlp模型相比，本发明模型比cast-mlp-t*比wave-mlp-t高3.03％，cast-mlp-s比hire-mlp-b高3.89％。以上实验说明，在小数据集中，本发明的方法具有明显
的优势和竞争力。
[0137][0138]
表1
[0139]
cast-mlp在cifar-100数据集的模型实验结果如表2所示，top-1accuracy比cnn模型平均高出约0.6％～1.39％，cast-mlp-b比swin-b模型高出8.19％，比mlp-based模型平均高出约0.23％～1.59％。实验表明本发明在中等数据集的模型精度具有明显优势。
[0140][0141]
表2
[0142]
cast-mlp在imagenet-1k数据集的模型实验结果如表3所示，本发明的方法达到了80.5％的精度，模型参数量仅19m，精度比cyclemlp-b1高1.6％。表明本发明在大数据集上的性能能够与先进的模型持平或更优。
[0143]
表4为cast-mlp在cifar-10和cifar-100的迁移学习实验结果，即表示cast-mlp-t*在imagenet-1的预训练模型基础上，在cifar-10和cifar-100迁移学习结果。可以看到本发明方法的迁移学习精度，在cifar-10和cifar-100分别高于其他方法0.6％和0.5％，而模型的参数量仅有18m，进一步表明本发明方法更加高效，性能更加优异。
[0144][0145]
表3
[0146][0147]
表4
[0148]
综上，本发明中提出的分组带状mlp网络层(group strip mlp)，能够有效增强模型的表达能力。在各种规模的公开数据集上的实验表明，本发明的方法具有明显的性能优势。在caltech-101数据集，cast-mlp方法取得了92.51％的top-1精度(top-1精度是指预测概率排名第一的类别的与实际结果相符的准确率)，比swin-b模型高14.09％；在imagenet-1k数据集上，cast-mlp的小模型(模型参数19m、计算复杂度2.8g flops)取得了80.5％的精度，比cyclemlp-b1模型精度高1.6％。
[0149]
进一步地，请参阅图10，本发明提供一种级联带状混合的多层感知机模型图像识别系统，所述级联带状混合的多层感知机模型图像识别系统包括：
[0150]
第一输出特征获取模块1，用于将经过切分后的原始图像输入至级联带状混合的
多层感知机模型中的第一网络层，依次进行第一映射操作、第一信息交互操作和第一特征聚合操作，得到第一输出特征；
[0151]
第二输出特征获取模块2，用于将所述第一输出特征输入到所述多层感知机模型中的第二网络层，依次进行第一卷积操作、第二信息交互操作和第二特征聚合操作，得到第二输出特征；
[0152]
第三输出特征获取模块3，用于将所述第二输出特征输入到所述多层感知机模型中的第三网络层，依次进行第二卷积操作、第三信息交互操作和第三特征聚合操作，得到第三输出特征；
[0153]
第四输出特征获取模块4，用于将所述第三输出特征输入到所述多层感知机模型中的第四网络层，依次进行第三卷积操作、第四信息交互操作和第四特征聚合操作，得到第四输出特征；
[0154]
图像分类结果获取模块5，用于对所述第四输出特征进行池化操作和第二映射操作，得到图像分类结果。
[0155]
具体地，所述级联带状混合的多层感知机模型图像识别系统用于实现所述级联带状混合的多层感知机模型图像识别方法，那么，所述级联带状混合的多层感知机模型图像识别方法实现如下：
[0156]
首先，给定所述原始图像x，并对所述原始图像x进行均匀切分，得到经过切分后的原始图像。进入阶段一：将经过切分后的原始图像输入至级联带状混合的多层感知机模型中的第一网络层(对应图2中的stage 1)中，利用所述第一网络层对经过切分后的原始图像依次进行所述第一映射操作、所述第一信息交互操作和所述第一特征聚合操作，在所述第一阶段重复t1个周期后，得到所述第一输出特征
[0157]
然后，进入阶段二：
[0158]
将所述第一输出特征输入到所述多层感知机模型中的第二网络层(对应图2中的stage 2)，利用所述第一网络层对所述第一输出特征依次进行所述第一卷积操作、所述第二信息交互操作和所述第二特征聚合操作，在所述第二阶段重复t2个周期后，得到所述第二输出特征
[0159]
其次，进入阶段三：
[0160]
将所述第二输出特征输入到所述多层感知机模型中的第三网络层(对应图2中的stage 3)，利用所述第三网络层对所述第二输出特征依次进行所述第二卷积操作、所述第三信息交互操作和所述第三特征聚合操作，在所述第三阶段重复t3个周期后，得到所述第三输出特征
[0161]
再者，进入阶段四：
[0162]
将所述第三输出特征输入到所述多层感知机模型中的第四网络层(对应图2中的stage 4)，利用所述第四网络层对所述第三输出特征依次进行所述第三卷积操作、所述第四信息交互操作和所述第四特征聚合操作，在所述第四阶段重复t4个周期后，得到
所述第四输出特征
[0163]
最后，对所述第四输出特征进行所述池化操作和所述第二映射操作，即所述第四输出特征经过全局平均池化(global average pooling，gap)，并经线性层处理，得到最终的分类结果：所述图像分类结果。
[0164]
如图11所示，基于上述级联带状混合的多层感知机模型图像识别方法，本发明还相应提供了一种智能终端，所述智能终端包括处理器10、存储器20及显示器30。图11仅示出了智能终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。
[0165]
所述存储器20在一些实施例中可以是所述智能终端的内部存储单元，例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备，例如所述智能终端上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)等。进一步地，所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据，例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有级联带状混合的多层感知机模型图像识别程序40，该级联带状混合的多层感知机模型图像识别程序40可被处理器10所执行，从而实现本技术中级联带状混合的多层感知机模型图像识别方法。
[0166]
所述处理器10在一些实施例中可以是一中央处理器(central processing unit，cpu)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述级联带状混合的多层感知机模型图像识别方法等。
[0167]
所述显示器30在一些实施例中可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。
[0168]
在一实施例中，当处理器10执行所述存储器20中级联带状混合的多层感知机模型图像识别程序40时实现的步骤，可以参照上述级联带状混合的多层感知机模型图像识别方法中的对应描述，在此不再赘述。
[0169]
具体的，本实施例中，上述基于多面体模型建模的级联带状混合的多层感知机模型图像识别系统的各模块的具体功能可以参照上述级联带状混合的多层感知机模型图像识别方法中的对应描述，在此不再赘述。
[0170]
进一步地，本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有自动并行策略搜索程序40，所述自动并行策略搜索程序40被处理器执行时实现如上所述的级联带状混合的多层感知机模型图像识别方法的步骤；由于上述对该所述级联带状混合的多层感知机模型图像识别方法的步骤进行了详细的描述，在此不再赘述。
[0171]
综上所述，本发明提供的一种级联带状混合的多层感知机模型图像识别方法及相关设备，方法包括：将经过切分后的原始图像输入至第一网络层，依次进行第一映射、第一信息交互和第一特征聚合操作得到第一输出特征；将第一输出特征输入到第二网络层，依
次进行第一卷积、第二信息交互和第二特征聚合操作得到第二输出特征；将第二输出特征输入到第三网络层，依次进行第二卷积、第三信息交互和第三特征聚合操作得到第三输出特征；将第三输出特征输入到第四网络层，依次进行第三卷积、第四信息交互和第四特征聚合操作得到第四输出特征；对第四输出特征进行池化和第二映射操作得到图像分类结果，提升了多层感知机的模型中的图像块之间的交互效率和聚合效果。
[0172]
可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

技术特征：
1.一种级联带状混合的多层感知机模型图像识别方法，其特征在于，所述级联带状混合的多层感知机模型图像识别方法包括：将经过切分后的原始图像输入至级联带状混合的多层感知机模型中的第一网络层，依次进行第一映射操作、第一信息交互操作和第一特征聚合操作，得到第一输出特征；将所述第一输出特征输入到所述多层感知机模型中的第二网络层，依次进行第一卷积操作、第二信息交互操作和第二特征聚合操作，得到第二输出特征；将所述第二输出特征输入到所述多层感知机模型中的第三网络层，依次进行第二卷积操作、第三信息交互操作和第三特征聚合操作，得到第三输出特征；将所述第三输出特征输入到所述多层感知机模型中的第四网络层，依次进行第三卷积操作、第四信息交互操作和第四特征聚合操作，得到第四输出特征；对所述第四输出特征进行池化操作和第二映射操作，得到图像分类结果。2.根据权利要求1所述的级联带状混合的多层感知机模型图像识别方法，其特征在于，所述将经过切分后的原始图像输入至级联带状混合的多层感知机模型中的第一网络层，依次进行第一映射操作、第一信息交互操作和第一特征聚合操作，得到第一输出特征，具体包括：对第一维度的原始图像进行切分，得到多个图像块；利用所述第一网络层中的第一线性模块对所有所述图像块进行所述第一映射操作，得到第二维度的图像特征；在宽度方向的维度上，利用所述第一网络层中的第一级联带状混合模块对所述第二维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第一融合图像特征；在高度方向的维度上，利用所述第一级联带状混合模块对所述第一融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到第二融合图像特征；利用所述第一网络层中的第一通道混合模块对所述第二融合图像特征进行第一特征聚合操作，得到所述第一输出特征。3.根据权利要求1所述的级联带状混合的多层感知机模型图像识别方法，其特征在于，所述将所述第一输出特征输入到所述多层感知机模型中的第二网络层，依次进行第一卷积操作、第二信息交互操作和第二特征聚合操作，得到第二输出特征，具体包括：利用所述第二网络层中的第一图像块融合模块对所述第一输出特征进行所述第一卷积操作，得到第三维度的图像特征；在宽度方向的维度上，利用所述第二网络层中的第二级联带状混合模块对所述第三维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第三融合图像特征；在高度方向的维度上，利用所述第二级联带状混合模块对所述第三融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到第四融合图像特征；利用所述第二网络层中的第二通道混合模块对所述第四融合图像特征进行第二特征聚合操作，得到所述第二输出特征。
4.根据权利要求3所述的级联带状混合的多层感知机模型图像识别方法，其特征在于，所述将所述第二输出特征输入到所述多层感知机模型中的第三网络层，依次进行第二卷积操作、第三信息交互操作和第三特征聚合操作，得到第三输出特征，具体包括：利用所述第三网络层中的第二图像块融合模块对所述第二输出特征进行所述第二卷积操作，得到第四维度的图像特征；在宽度方向的维度上，利用所述第三网络层中的第三级联带状混合模块对所述第四维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第五融合图像特征；在高度方向的维度上，利用所述第三级联带状混合模块对所述第五融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到第六融合图像特征；利用所述第三网络层中的第三通道混合模块对所述第六融合图像特征进行第三特征聚合操作，得到所述第三输出特征。5.根据权利要求4所述的级联带状混合的多层感知机模型图像识别方法，其特征在于，所述将所述第三输出特征输入到所述多层感知机模型中的第四网络层，依次进行第三卷积操作、第四信息交互操作和第四特征聚合操作，得到第四输出特征，具体包括：利用所述第四网络层中的第三图像块融合模块对所述第三输出特征进行所述第三卷积操作，得到第五维度的图像特征；在宽度方向的维度上，利用所述第四网络层中的第四级联带状混合模块对所述第五维度的图像特征依次进行第一次的第一维度置换、堆叠、第二次的第一维度置换、恢复、级联和融合操作，得到第七融合图像特征；在高度方向的维度上，利用所述第四级联带状混合模块对所述第七融合图像特征依次进行第一次的第二维度置换、堆叠、第二次的第二维度置换、恢复、级联和融合操作，得到第八融合图像特征；利用所述第四网络层中的第四通道混合模块对所述第八融合图像特征进行第四特征聚合操作，得到所述第四输出特征。6.根据权利要求2所述的级联带状混合的多层感知机模型图像识别方法，其特征在于，所述第一维度为h
×
w
×
3；所述第二维度为其中，h表示竖直方向上的像素数，w表示水平方向上的像素数，c表示通道数，p表示所述图像块的长，q表示所述图像块的宽。7.根据权利要求5所述的级联带状混合的多层感知机模型图像识别方法，其特征在于，所述第三维度为所述第四维度为所述第五维度为其中，h表示竖直方向上的像素数，w表示水平方向上的像素数，c表示通道数，p表示所述图像块的长，q表示所述图像块的宽。8.一种级联带状混合的多层感知机模型图像识别系统，其特征在于，所述级联带状混合的多层感知机模型图像识别系统包括：第一输出特征获取模块，用于将经过切分后的原始图像输入至级联带状混合的多层感
知机模型中的第一网络层，依次进行第一映射操作、第一信息交互操作和第一特征聚合操作，得到第一输出特征；第二输出特征获取模块，用于将所述第一输出特征输入到所述多层感知机模型中的第二网络层，依次进行第一卷积操作、第二信息交互操作和第二特征聚合操作，得到第二输出特征；第三输出特征获取模块，用于将所述第二输出特征输入到所述多层感知机模型中的第三网络层，依次进行第二卷积操作、第三信息交互操作和第三特征聚合操作，得到第三输出特征；第四输出特征获取模块，用于将所述第三输出特征输入到所述多层感知机模型中的第四网络层，依次进行第三卷积操作、第四信息交互操作和第四特征聚合操作，得到第四输出特征；图像分类结果获取模块，用于对所述第四输出特征进行池化操作和第二映射操作，得到图像分类结果。9.一种智能终端，其特征在于，所述智能终端包括：存储器、处理器、显示器及存储在所述存储器上并可在所述处理器上运行的级联带状混合的多层感知机模型图像识别程序，所述级联带状混合的多层感知机模型图像识别程序被所述处理器执行时实现如权利要求1-7任一项所述的级联带状混合的多层感知机模型图像识别方法的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有级联带状混合的多层感知机模型图像识别程序，所述级联带状混合的多层感知机模型图像识别程序被处理器执行时实现如权利要求1-7任一项所述的级联带状混合的多层感知机模型图像识别方法的步骤。

技术总结
本发明公开级联带状混合的多层感知机模型图像识别方法及相关设备，方法包括：将经过切分后的原始图像输入至第一网络层，依次进行第一映射、第一信息交互和第一特征聚合操作得到第一输出特征；将第一输出特征输入到第二网络层，依次进行第一卷积、第二信息交互和第二特征聚合操作得到第二输出特征；将第二输出特征输入到第三网络层，依次进行第二卷积、第三信息交互和第三特征聚合操作得到第三输出特征；将第三输出特征输入到第四网络层，依次进行第三卷积、第四信息交互和第四特征聚合操作得到第四输出特征；对第四输出特征进行池化和第二映射操作得到图像分类结果，提升了多层感知机的模型中的图像块之间的交互效率和聚合效果。效果。效果。

技术研发人员：曹桂平张建国
受保护的技术使用者：南方科技大学
技术研发日：2023.04.20
技术公布日：2023/8/24

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种分析大规模光伏对离网或并网系统稳定性影响的方法与流程 下一篇：使用冷冻电子显微镜解析蛋白质结构的方法

级联带状混合的多层感知机模型图像识别方法及相关设备

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

级联带状混合的多层感知机模型图像识别方法及相关设备

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表