基于非对称并行Transformer网络的三维点云理解处理方法与流程

未命名 07-23 阅读：103 评论：0

基于非对称并行transformer网络的三维点云理解处理方法
技术领域
1.本发明属于计算机视觉的三维点云理解领域的一种点云优化处理方法，尤其是涉及一种基于非对称并行transformer网络的三维点云解析处理方法。

背景技术：

2.三维点云理解已经成为自动驾驶、机器人和虚拟现实等各个应用领域的基本任务，具体包括点云分类和分割任务。因为点云在结构上与图像不同，本质上是连续三维空间中的集合，是稀疏的、不规则的、无序的，这些特性使得成熟的二维图像理解深度网络难以直接应用于三维点云理解。2017年发表在国际顶级计算机视觉会议ieee international conference on computer vision上的《pointnet:deep learning on point sets for 3d classification and segmentation》是一项开创性的工作，它利用多层感知机和池化层来处理特征。2017年发表在conference on neural information processing systems上的《pointnet++:deep hierarchical feature learning on point sets in a metric space》基于pointnet，采用分层抽样策略提取局部特征。在pointnet和pointnet++之后，也出现了许多基于点的方法，但他们主要关注于提出新的模块来捕获局部特征，却忽视了全局特征的构建。
3.由于优秀的捕捉全局特征的能力，transformer网络在自然语言处理和二维图像理解中都很流行，同时也特别适合三维点云理解。因为它对输入元素的排列和基数是不变的，这使得它本质上是一个集合运算符。基于这些优点，一些工作尝试开发基于transformer网络的模块。然而，由于注意力算子的二次复杂度，以往的工作仍然难以构建用于三维点云理解的全局上下文。
4.例如在2021年发表在国际顶级计算机视觉会议ieee international conference on computer vision上的《point transformer》是一项开创性的工作，它采用局部分组注意力来聚集分组邻居的特征，但忽略了显式地捕获长范围上下文特征，导致有效感受野有限。最近，2022年发表在ieee conference on computer vision and pattern recognition上的《stratified transformer for 3d point cloud segmentation》采用了基于窗口的子注意力模块，并提出了一个基于key的分层采样策略，在一定程度上扩大了有效感受野。但是，由于基于窗口的注意力失去了全局性信息，有效感受野仍然有限。另一方面，由于引入了特殊的分层采样策略，其计算成本相较point transformer显著增加。

技术实现要素：

5.基于现有技术的不足，本发明提出了一种基于非对称并行transformer网络的点云理解解析方法，通过全局分支显式地捕捉全局特征，同时采用非对称地并行方式有效结合全局分支和局部分支地特征，提高模型在分类和分割任务上的精度。
6.本发明的具体技术方案如下：
7.(1)将点云数据输入多层感知机得到点云特征向量；
8.(2)再将点云特征向量进行下采样操作后，再输入到连续多个非对称并行transformer网络中处理获得优化后的点云特征向量；
9.(3)重复上述步骤(2)多次，将最后的点云特征向量进入分类或分割头得到输出理解结果。
10.最终将理解结果可以实际用于点云分类和分割任务中。
11.方法原始的点云数据通常来源于雷达等采集的点云数据。
12.对于输入的点云数据i∈rn×c，各个步骤的具体处理如下：
13.所述步骤(1)的具体过程为：首先，将点云数据i∈rn×c输入带有多层感知机和非对称并行transformer网络的特征提取层，得到点云特征向量x∈rn×c，r表示实数集，n表示点的数量，c表示通道的维度。
14.所述特征提取层主要由多层感知机和连续两个非对称并行transformer网络依次连接构成。
15.所述步骤(1)和步骤(2)中的单个非对称并行transformer网络按照以下方式进行处理：
16.s1、将点云特征向量在通道层非对称地拆分成两个特征向量；
17.s2、将两个特征向量分别进入局部分支和全局分支处理获得各自的局部特征和全局特征；
18.s3、将得到的局部特征和全局特征在通道维度上拼接在一起，再输入通过前向反馈网络得到优化后的点云特征向量，作为非对称并行transformer网络的输出。
19.所述s3具体是：将局部特征y
l
和全局特征yg在通道维度上通过张量拼接的方式拼接在一起后获得拼接特征，再将拼接特征再和原始输入非对称并行transformer网络的点云特征向量进行残差连接操作获得融合特征，然后将融合特征输入前向反馈网络得到反馈特征，最后将反馈特征和融合特征进行残差连接操作获得优化后的点云特征向量y。
20.所述的局部分支主要由一个局部分组注意力模块组成，局部分组注意力模块是遍历向量中的每一个元素通过k近邻算法找到最近的16个相邻的元素作为邻居元素，并以遍历的元素在向量中的特征值作为查询向量query、以邻居元素在向量中的特征值同时作为键向量key和值向量value输入向量交叉注意力模块，获取局部特征
21.所述的全局分支主要由一个全局主元注意力模块组成，全局主元注意力模块是通过最远点采样算法找到均匀分布在全局的主元元素，并以主元元素在向量中的特征值同时作为键向量key和值向量value、以所有元素在向量中的特征值作为查询向量query输入标量交叉注意力模块，获取全局特征
22.所述步骤(2)中，将点云特征x∈rn×c在通道维度上非对称地划分为两部分和x
l
表示输入到局部分支的部分，xg表示输入到全局分支的部分，c
l
表示输入到局部分支的部分的通道维度，cg表示输入到全局分支的部分的通道维度，随着步骤(2)重复多次的次数深入，通道维度cg不断变大而通道维度c
l
不断变小，使得由步骤(1)至步骤(3)构成的整体模型方法更关注全局特征。
23.在第一步骤(2)处理时，cg：c设置为1：8；
24.在第二步骤(2)处理时，cg：c设置为1：8；
25.在第三步骤(2)处理时，cg：c设置为1：4；
26.在第四步骤(2)处理时，cg：c设置为1：1。
27.所述步骤(3)中，重复步骤(2)四次，第一次重复步骤(2)时经过连续三个非对称并行transformer网络处理，第二次重复步骤(2)时经过连续四个非对称并行transformer网络处理，第三次重复步骤(2)时经过连续六个非对称并行transformer网络处理，第四次重复步骤(2)时经过连续三个非对称并行transformer网络处理。
28.所述步骤(3)中：
29.所述的分类头主要由全局池化操作gap和多层感知操作mlp依次连接构成；
30.所述的分割头包括解码器和多层感知操作mlp，解码器包括多个采样提取单元和一个转换提取单元，每个采样提取单元均是由一个上采样操作和一个非对称并行transformer网络依次连接构成，转换提取单元均是由一个特征转换操作transformation和一个非对称并行transformer网络依次连接构成。
31.当采用分割头时，采样提取单元的数量和重复步骤(2)的次数相同，将最后次重复步骤(2)处理获得的优化后的点云特征向量输入到转换提取单元处理，将转换提取单元输出结果和倒数第二次重复步骤(2)处理获得的优化后的点云特征向量进行相加后一起输入到第一个采样提取单元中，并且将第k个采样提取单元的输出结果和第n-k次重复步骤(2)处理获得的优化后的点云特征向量进行相加后一起输入到第k+1个采样提取单元中，k不等于n和n-1，将第n-1个采样提取单元的输出结果和经步骤(1)处理获得的点云特征向量进行相加后一起输入到第n个采样提取单元中，第n个采样提取单元的输出结果输入到多层感知操作mlp中处理获得优化后的点云特征向量。
32.在训练时，重复上述步骤(1)至步骤(2)多次，直到达到预设训练次数后结束训练，并将训练完毕的多层感知机和非对称并行transformer网络用于上述步骤(1)至步骤(3)进行处理实施，实现点云分类或分割。
33.与现有技术相比，本发明具有以下有益效果：
34.1、本发明出了一种新的点云非对称并行transformer网络，它通过并行分支有效地建模了短距和长距依赖关系。此外，本发明还引入了全局主元注意力作为全局分支来扩展点云理解任务中的有效感受野。
35.2、本发明设计了非对称的并行结构，有效地整合了局部信息和全局信息，在点云分类和分割任务上均提高了精度，同时没有引入额外的计算量。
附图说明
36.图1为本发明的整体框架；
37.图2为本发明非对称并行transformer网络的流程示意图；
38.图3是全局特征提取分支的流程示意图；
39.图4为本发明与现有技术有效感受野的对比图；
40.图5为本发明实施例在s3dis点云分割数据集上定性的分割结果。
具体实施方式
41.下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实
施例旨在便于对本发明的理解，而对其不起任何限定作用。
42.如图1所示，本发明的实施例及其实施过程如下：
43.(1)将点云数据输入多层感知机得到点云特征向量；
44.对于输入的点云数据i∈rn×c，各个步骤的具体处理如下：
45.步骤(1)的具体过程为：首先，将点云数据i∈rn×c输入带有多层感知机和非对称并行transformer网络的特征提取层，得到点云特征向量x∈rn×c，r表示实数集，n表示点的数量，c表示通道的维度。
46.特征提取层是仅由多层感知机和连续两个非对称并行transformer网络依次连接构成。
47.上述非对称并行transformer网络按照以下方式进行处理：
48.s1、将点云特征向量在通道层非对称地拆分成两个特征向量；
49.s2、将两个特征向量分别进入局部分支和全局分支处理获得各自的局部特征和全局特征；
50.s3、将得到的局部特征和全局特征在通道维度上拼接在一起，再输入通过前向反馈网络得到优化后的点云特征向量，作为非对称并行transformer网络的输出。
51.s3具体是：将局部特征y
l
和全局特征yg在通道维度上通过张量拼接的方式拼接在一起后获得拼接特征，再将拼接特征再和原始输入非对称并行transformer网络的点云特征向量进行残差连接操作获得融合特征，然后将融合特征输入前向反馈网络得到反馈特征，最后将反馈特征和融合特征进行残差连接操作获得优化后的点云特征向量y。
52.如图2所示，在非对称并行transformer网络中，点云特征首先被划分为两个子特征，分别输入局部分组注意力模块(lga)和全局主元注意力模块(gpa)。在此之后，两个分支的输出被合并在一起，结果通过由多层感知机组成的前向反馈网络层。
53.局部分支主要由一个局部分组注意力模块组成，局部分组注意力模块是遍历向量中的每一个元素通过k近邻算法找到最近的16个相邻的元素作为邻居元素，并以遍历的元素在向量中的特征值作为查询向量query、以邻居元素在向量中的特征值同时作为键向量key和值向量value输入向量交叉注意力模块，获取局部特征
54.全局分支主要由一个全局主元注意力模块组成，全局主元注意力模块是通过最远点采样算法找到均匀分布在全局的主元元素，并以主元元素在向量中的特征值同时作为键向量key和值向量value、以所有元素在向量中的特征值作为查询向量query输入标量交叉注意力模块，获取全局特征
55.如图3所示，对于全局特征提取分支，本发明采用了全局主元注意力模块(gpa)。具体来说，首先通过最远点采样算法对输入点云进行采样，得到均匀分布的主元点。然后从主元点通过多层感知机得到注意力机制中的key和value，并采用所有点云特征作为query以保持最终输出结果的点云数量。在此之后，本发明利用key和query生成标量注意力，并将其与value相乘得到注意力机制的输出，然后通过分类头或分割头得到最终结果。
56.如图4所示，现有工作point transformer采用分组邻居内的局部分组注意力提取局部特征。stratified transformer利用基于窗口的注意力和分层的关键抽样策略来部分地扩大有效接受野。不同的是，本发明采用并行的分支分别捕获局部特征和全局特征。此
外，全局分支通过主元点直接对长距依赖关系进行了建模，进一步扩大了有效感受野。
57.(2)再将点云特征向量进行下采样操作后，再输入到连续多个非对称并行transformer网络中处理获得优化后的点云特征向量；
58.步骤(2)中，将点云特征x∈rn×c在通道维度上非对称地划分为两部分和x
l
表示输入到局部分支的部分，xg表示输入到全局分支的部分，c
l
表示输入到局部分支的部分的通道维度，cg表示输入到全局分支的部分的通道维度，随着步骤(2)重复多次的次数深入，通道维度cg不断变大而通道维度c
l
不断变小，使得由步骤(1)至步骤(3)构成的整体模型方法更关注全局特征。
59.(3)具体实施重复步骤(2)四次，第一次重复步骤(2)时经过连续三个非对称并行transformer网络处理，cg：c设置为1：8。
60.第二次重复步骤(2)时经过连续四个非对称并行transformer网络处理，cg：c设置为1：8；第三次重复步骤(2)时经过连续六个非对称并行transformer网络处理，cg：c设置为1：3；第四次重复步骤(2)时经过连续三个非对称并行transformer网络处理，cg：c设置为1：1。
61.最后将第四次重复步骤(2)获得的点云特征向量进入分类或分割头得到输出理解结果。
62.分类头主要由全局池化操作gap和多层感知操作mlp依次连接构成；
63.分割头包括解码器和多层感知操作mlp，解码器包括多个采样提取单元和一个转换提取单元，每个采样提取单元均是由一个上采样操作和一个非对称并行transformer网络依次连接构成，转换提取单元均是由一个特征转换操作transformation和一个非对称并行transformer网络依次连接构成。
64.当采用分割头时，采样提取单元的数量和重复步骤(2)的次数相同，将最后次重复步骤(2)处理获得的优化后的点云特征向量输入到转换提取单元处理，将转换提取单元输出结果和倒数第二次重复步骤(2)处理获得的优化后的点云特征向量进行相加后一起输入到第一个采样提取单元中，并且将第k个采样提取单元的输出结果和第n-k次重复步骤(2)处理获得的优化后的点云特征向量进行相加后一起输入到第k+1个采样提取单元中，k不等于n和n-1，将第n-1个采样提取单元的输出结果和经步骤(1)处理获得的点云特征向量进行相加后一起输入到第n个采样提取单元中，第n个采样提取单元的输出结果输入到多层感知操作mlp中处理获得优化后的点云特征向量。
65.具体实施中，由步骤(1)至步骤(3)构成了整体模型。
66.如图1所示，对于最上面一行的三维点云形状分类任务来说，输入特征首先通过多层感知机嵌入得到点云特征，然后经过非对称并行transformer网络，再经过由下采样层和非对称并行transformer网络组成的几个阶段，特征被传递到由全局平均池化和多层感知机组成的分类头中。
67.如图1所示，对于底部两行的三维点云分割任务，特征会输入到由上采样层和一个非对称并行transformer网络组成的各个阶段。然后特征通过由多层感知机组成的分割头。黑色箭头是特征流，紫色箭头是上采样层中的合并操作。
68.在训练时，重复上述步骤(1)至步骤(2)多次，直到达到预设训练次数后结束训练，
获得训练完毕的整体模型及其中的多层感知机和非对称并行transformer网络，用于上述步骤(1)至步骤(3)构成的整体模型进行处理实施，实现点云分类或分割。
69.图5中，展示了采用本发明算法和现有工作模型的分割效果。可以明显看出，采用本发明算法模型的分割结果，相对于现有工作模型的分割结果，在视觉感受效果上获得了较大的提升。这定性地证明了本发明算法的有效性。
70.下面将本发明提出的方法应用到实际例子当中，同时与其他同类型的方法进行对比，以体现本发明的技术效果和优越性。
71.本发明在两个公开数据集s3dis点云分割数据集和modelnet点云分类数据集上做了测试。
72.s3dis数据集包含来自3个不同建筑的6个区域的271个房间。这些点云被注释为13个类别，例如书柜、地板和木板。遵循和先用工作通用的设置，本发明在训练期间保留区域5并用于评估所提出的模型。
73.本发明采用平均类交并比(miou)，平均类精度(macc)和总体精度(oa)作为性能的评估指标。另一方面，本发明使用区域5的平均gflops作为效率的评估指标。结果如下表所示。
74.表1
[0075][0076]
如表1所示，本发明提出的分割模型要比传统的方法具有更好的性能，同时在效率方面也没有引入额外的计算消耗。
[0077]
对于三维点云形状分类任务，本发明在modelnet40数据集上进行实验。它由12311个cad模型组成，包含40个对象类别，分为9843个用于训练的模型和2468个用于测试的模型。根据之前的工作，本发明从每个模型的网格面中统一采样1024个点，并重新缩放这些点以适应单位球体。
[0078]
对于评估指标，本发明使用类平均准确度(macc)和总体准确度(oa)。结果如下表所示。
[0079]
表2
[0080][0081]
如表2所示，在三维点云形状分类任务上，本发明所提出的算法展现了相对基准算法较大的提升效果。
[0082]
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

技术特征：
1.一种基于非对称并行transformer网络的点云理解处理方法，其特征在于方法包括：(1)将点云数据输入多层感知机得到点云特征向量；(2)再将点云特征向量进行下采样操作后，再输入到连续多个非对称并行transformer网络中处理获得优化后的点云特征向量；(3)重复上述步骤(2)多次，将最后的点云特征向量进入分类或分割头得到输出理解结果。2.根据权利要求1所述的一种基于非对称并行transformer网络的点云理解处理方法，其特征在于：所述步骤(1)的具体过程为：首先，将点云数据i∈r
n
×
输入带有多层感知机和非对称并行transformer网络的特征提取层，得到点云特征向量x∈r
n
×
c
，r表示实数集，n表示点的数量，c表示通道的维度。3.根据权利要求1或2所述的一种基于非对称并行transformer网络的点云理解处理方法，其特征在于：所述步骤(1)和步骤(2)中的单个非对称并行transformer网络按照以下方式进行处理：s1、将点云特征向量在通道层非对称地拆分成两个特征向量；s2、将两个特征向量分别进入局部分支和全局分支处理获得局部特征和全局特征；s3、将得到的局部特征和全局特征在通道维度上拼接在一起，再输入通过前向反馈网络得到优化后的点云特征向量，作为非对称并行transformer网络的输出。4.根据权利要求3所述的一种基于非对称并行transformer网络的点云理解处理方法，其特征在于：所述s3具体是：将局部特征y
l
和全局特征y
g
在通道维度上通过张量拼接的方式拼接在一起后获得拼接特征，再将拼接特征再和原始输入非对称并行transformer网络的点云特征向量进行残差连接操作获得融合特征，然后将融合特征输入前向反馈网络得到反馈特征，最后将反馈特征和融合特征进行残差连接操作获得优化后的点云特征向量y。5.根据权利要求3或4所述的一种基于非对称并行transformer网络的点云理解处理方法，其特征在于：所述的局部分支主要由局部分组注意力模块组成，局部分组注意力模块是遍历向量中的每一个元素通过k近邻算法找到最近的16个相邻的元素作为邻居元素，并以遍历的元素的特征值作为查询向量query、以邻居元素的特征值同时作为键向量key和值向量value输入向量交叉注意力模块，获取局部特征所述的全局分支主要由全局主元注意力模块组成，全局主元注意力模块是通过最远点采样算法找到均匀分布在全局的主元元素，并以主元元素的特征值同时作为键向量key和值向量value、以所有元素的特征值作为查询向量query输入标量交叉注意力模块，获取全局特征6.根据权利要求1所述的一种基于非对称并行transformer网络的点云理解处理方法，其特征在于：所述步骤(2)中，将点云特征x∈r
n
×
c
在通道维度上非对称地划分为两部分和x
l
表示输入到局部分支的部分，x
g
表示输入到全局分支的部分，c
l
表示输入到局部分支的部分的通道维度，c
g
表示输入到全局分支的部分的通道维度，随着步骤(2)重复多次的次数深入，通道维度c
g
不断变大而通道维度c
l
不断变小，使得更关注全局特征。
7.根据权利要求6所述的一种基于非对称并行transformer网络的点云理解处理方法，其特征在于：在第一步骤(2)处理时，c
g
：c设置为1：8；在第二步骤(2)处理时，c
g
：c设置为1：8；在第三步骤(2)处理时，c
g
：c设置为1：4；在第四步骤(2)处理时，c
g
：c设置为1：1。8.根据权利要求1所述的一种基于非对称并行transformer网络的点云理解处理方法，其特征在于：所述步骤(3)中，重复步骤(2)四次，第一次重复步骤(2)时经过连续三个非对称并行transformer网络处理，第二次重复步骤(2)时经过连续四个非对称并行transformer网络处理，第三次重复步骤(2)时经过连续六个非对称并行transformer网络处理，第四次重复步骤(2)时经过连续三个非对称并行transformer网络处理。9.根据权利要求1所述的一种基于非对称并行transformer网络的点云理解处理方法，其特征在于：所述步骤(3)中：所述的分类头主要由全局池化操作gap和多层感知操作mlp依次连接构成；所述的分割头包括解码器和多层感知操作mlp，解码器包括多个采样提取单元和一个转换提取单元，每个采样提取单元均是由一个上采样操作和一个非对称并行transformer网络依次连接构成，转换提取单元均是由一个特征转换操作transformation和一个非对称并行transformer网络依次连接构成。10.根据权利要求1所述的一种基于非对称并行transformer网络的点云理解处理方法，其特征在于：在训练时，重复上述步骤(1)至步骤(2)多次，直到达到预设训练次数后结束训练，并将训练完毕的多层感知机和非对称并行transformer网络用于上述步骤(1)至步骤(3)进行处理实施，实现点云分类或分割。

技术总结
本发明公开了一种基于非对称并行Transformer网络的点云理解处理方法。将点云数据输入多层感知机得点云特征向量；下采样操作后再输入连续多个非对称并行Transformer网络得优化后的点云特征向量；非对称并行Transformer网络中是在通道层非对称地拆分成两个特征向量，再分别进入局部、全局分支处理获得局部、全局特征，后在通道维度上拼接输入前向反馈网络得到；重复步骤多次最后进入分类或分割头得到输出理解结果。本发明通过全局分支显式地捕捉全局特征，同时采用非对称地并行方式有效结合全局、局部分支地特征，引入了全局主元注意力作为全局分支来扩展点云理解任务中的有效感受野，有效地整合了局部、全局信息，提高模型在分类和分割任务上的精度。提高模型在分类和分割任务上的精度。提高模型在分类和分割任务上的精度。

技术研发人员：李恒佳郑途池志豪杨政何晓飞
受保护的技术使用者：杭州飞步科技有限公司
技术研发日：2023.03.27
技术公布日：2023/7/21

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

基于非对称并行Transformer网络的三维点云理解处理方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于非对称并行Transformer网络的三维点云理解处理方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表