自监督3D点云抽象的制作方法
未命名
08-15
阅读:103
评论:0
自监督3d点云抽象
1.技术领域
1.本发明原理整体涉及点云处理的领域。也在点云信号的分析、插值、表示和理解的上下文中理解本文档。
2.
背景技术:
2.本部分旨在向读者介绍本领域的各个方面,这些方面可能与下文描述和/或要求保护的本发明原理的各个方面有关。据信该讨论有助于为读者提供背景信息,以促进更好地理解本发明原理的各个方面。因此,应当理解,这些陈述应当从这个角度来解读,而不是承认现有技术。
3.点云是跨若干商业领域使用的数据格式,包括自主驾驶、机器人、ar/vr、土木工程、计算机图形以及动画/电影产业。3d lidar传感器已被部署在自动驾驶汽车中,并且负担得起的lidar传感器被包括在例如apple ipad pro 2020和intel realsense lidar相机l515中。随着感测技术的进步,三维(3d)点云数据已变得更加实用并且被期望在所提到的应用中成为有价值的使能器。
4.同时,点云数据可能消耗大部分网络流量,例如在5g网络上连接的汽车之间,以及沉浸式通信(虚拟或增强现实(vr/ar))。点云理解和通信基本上会导致高效的表示格式。特别地,为了世界建模和感测的目的,原始点云数据需要被适当地组织和处理。
5.此外,点云可表示包含多个移动对象的相同场景的顺序扫描。与从静态场景或静态对象捕获的静态点云相比,这些被称为动态点云。动态点云通常被组织成帧,其中不同的帧在不同的时间被捕获。
6.3d点云数据是对象或场景的表面的基本上离散的样本。为了用点样本完全表示真实世界,在实践中,需要大量的点。例如,典型的vr沉浸式场景包含数以百万计的点,而点云地图通常包含数以亿计的点。因此,这种大规模点云的处理在计算上是昂贵的,特别是对于具有有限计算能力的消费设备,例如智能电话、平板电脑和汽车导航系统。
7.从感测模态获得的原始点云数据可能是稀疏的且有噪声的,并且需要首先被处理以用于下游任务,诸如概括、分割、压缩、分类等。为了促进这些下游任务,执行有效点云抽象的方法和装置对于提供新方式来将原始点云表示为显式(几何基元)和隐式(抽象码字)特征的组合是必要的。
3.
技术实现要素:
8.以下呈现本发明原理的简化概述,以便提供对本发明原理的一些方面的基本理解。本发明内容不是本发明原理的广泛概述。不旨在识别本发明原理的关键或重要元素。以下发明内容仅以简化形式呈现本发明原理的一些方面,作为下面提供的更详细描述的前言。
9.本发明原理涉及一种用于通过初始化与查询形状和查询参数集合相关联的基元集合来自适应地抽象点云的方法。对于每个基元,使用与基元相关联的查询参数集合和查
询形状访问局部点集合。对于每个局部点集合,使用第一神经网络确定描述符向量,该描述符向量包括用于基元更新的子向量和用于局部描述符的子向量。基于用于每个局部点集合的描述符向量来更新基元集合。
10.本发明原理还涉及一种包括被配置为实现上述方法的步骤的与存储器相关联的处理器的设备。
11.本发明原理还涉及一种用于通过基于基元确定点云的空间中的采样分布来从基元集合重构点云的方法。使用第一神经网络,基于局部描述符确定分布参数。根据分布参数确定基元的点。使用第二神经网络基于全局描述符对基元集合和所生成的点进行移位和粘接。
12.本发明原理还涉及一种包括被配置为实现上述方法的步骤的与存储器相关联的处理器的设备。
13.本发明原理也涉及一种组合上述设备的编码器。编码器被配置为对设备的神经网络进行端到端训练。
4.附图说明
14.在阅读以下描述之后,将更好地理解本公开,并且将出现其他特定特征和优点,该描述参考附图,其中:
15.图1示出根据本发明原理的非限制性实施方案的用于执行自适应点云抽象以用于后续机器任务的方法;
16.图2示出编码器架构的第一实施方案,其中基元被随机地初始化;
17.图3示出编码器架构的第二非限制性实施方案;
18.图4示出根据本发明原理的编码器架构的第四实施方案;
19.图5示出编码器架构的非限制性第五实施方案;
20.图6示出编码器架构的非限制性第六实施方案;
21.图7示出解码器架构的非限制性第一实施方案;
22.图8示出解码器架构的非限制性第二实施方案;并且
23.图9示出根据本发明原理的非限制性实施方案的可被配置为实现关于图1描述的方法的设备的示例性架构。
5.具体实施方式
24.下文将参考附图更全面地描述本发明原理,在该附图中示出了本发明原理的示例。然而,本发明原理可以许多替代形式体现,并且不应被解释为限制于本文阐述的示例。因此,虽然本发明原理易受各种修改和替代形式的影响,但是其具体示例通过附图中的示例示出,并且本文将详细描述。然而,应当理解,不存在将本发明原理限制为所公开的特定形式的意图,但是相反,本公开用于涵盖落入由权利要求书限定的本发明原理的实质和范围内的所有修改、等同物和替代方案。
25.本文使用的术语仅出于描述特定示例的目的,并且不旨在限制本发明原理。如本文所用,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另有明确说明。将会进一步理解,当用于本说明书时,术语“包括”和/或“包含”指定存在所述特征、整数、步
骤、操作、元件和/或分量,但不排除一个或多个其他特征、整数、步骤、操作、元件、分量和/或其组的存在或添加。此外,当元件被称为“响应”或“连接”到另一元件时,它可以直接响应或连接到另一元件,或者可以存在中间元件。相反,当元件被称为“直接响应”或“直接连接”到其他元件时,不存在中间元件。如本文所用,术语“和/或”包括列出的相关联项中的一者或多者的任何和所有组合,并且可以缩写为“/”。
26.应当理解,尽管在本文中可使用术语第一、第二等来描述各种元件,但是这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一元件区分开。例如,在不脱离本发明原理的教导内容的情况下,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件。
27.尽管一些图示包括通信路径上的箭头以显示主通信方向,但是应理解,通信可以在与所描绘箭头相反的方向上发生。
28.关于其中每个框表示电路元件、模块或代码部分的框图和操作流程图描述了一些示例,该代码部分包括用于实现指定逻辑功能的一个或多个可执行指令。还应当指出的是,在其他具体实施中,框中标注的功能可能不按标注的顺序出现。例如,连续显示的两个框实际上可基本上同时执行,或者这些框有时可根据所涉及的功能以相反的顺序执行。
29.本文中的“根据一个示例”或“在一个示例中”的参考意味着结合示例描述的特定特征、结构或特性可以包括在本发明原理的至少一个具体实施中。说明书中各个地方的“根据一个示例”或“在一个示例中”的短语的出现不一定全部参考同一示例,也不一定是与其他示例相互排斥的单独的或替代的示例。
30.在权利要求书中出现的附图标号仅通过说明的方式,并且对权利要求书的范围没有限制作用。虽然未明确描述,但本示例和变型可以任何组合或子组合采用。
31.3d点云数据是对象或场景的表面的基本上离散的样本。为了用点样本完全表示真实世界,在实践中,需要大量的点。因此,这种大规模点云的处理在计算上是昂贵的,特别是对于具有有限计算能力的消费设备,例如智能电话、平板电脑和汽车导航系统。
32.对点云的任何种类的处理或推断的一个重要方面是具有有效的存储方法。为了以可负担的计算成本存储和处理输入点云,一种解决方案是首先对其进行降采样,其中被降采样的点云概括输入点云的几何形状,同时具有少得多的点。被降采样的点云然后被馈送到后续机器任务以供进一步利用。另一种方法是通过点云抽象来概括点云数据,其中具有数以百万计的点的原始点云由少量基元表示,这些基元提供点云中局部区域的几何概要并且对于机器和人而言易于解释。然而,取决于下游任务的种类,通过抽象来保留所需的所要求的细节水平可能显著变化。因此,具有一种自适应点云抽象方法是有益的,该方法是任务感知的并且能成功地适应于所要求的细节水平和所要求的概括种类。
33.从感测模态获得的原始点云数据可能是稀疏的且有噪声的,并且可能需要首先被处理以用于下游任务,诸如概括、分割、压缩、分类等。为了促进这些下游任务,公开了执行有效点云抽象以提供新方式来将原始点云表示为显式(几何基元)和隐式(抽象码字)特征的组合的方法和装置。
34.点云抽象包括通过几何基元诸如面片(受限流形)、体积形状(立方体、球体等)、或稀疏网格来概括原始点云。关于基于深度学习的方法,两个主要策略涉及监督和无监督点云抽象(pca)。监督pca是指这样的设置,其中训练过程假设访问关于基元的地面真实信息
farthest point strategy for progressive image sampling,”ieee trans.on image processing,vol.6,no.9,第1306-1315页,1997中所描述的),以均匀地分布质心并且分布在点云的不同局部区域中。
40.图4示出根据本发明原理的编码器架构的第四实施方案。这个实施方案计算对基元参数的校正,以将基元质心移动到更好的点,并提供基元的更好的整体形状,而不是像前面的实施方案中那样全部生成新的网络参数。为了实现这一点,将局部p-net的输出添加到基元参数202,并且这个求和输出401充当对被初始化的基元参数的校正。
41.图5示出编码器架构的非限制性第五实施方案。第四实施方案的基元参数校正过程将基元401从左向右移位,从而校正它们的形状。这个校正过程可能通过反馈回路501以循环方式重复多次,该反馈回路将局部p-net的输出连接到其输入,并通过球查询过程构建新的局部点集合而再次开始。这个架构提供精细化策略,而不需要任何附加的神经网络模块,因此,需要训练的网络的参数的数量保持相同。
42.图6示出根据本公开的编码器架构的非限制性第六实施方案。所有上述实施方案提供了精细化基元参数的方式。然而,重构的质量也取决于包括在球查询过程中的点。因此,在精细化基元的同时更新查询范围也是有益的。为了实现这一点,从局部p-net生成附加输出向量601,其充当对于为每个基元202进行的球查询的(单独的)查询范围更新。
43.具有神经网络的模块化架构通常被认为是有益的,每个模块被保留用于特定任务。在这种动机下,编码器架构的第七实施方案保留局部p-net架构用于仅提取特征(局部码字作为隐式特征以及基元参数的校正作为显式特征),并且使用单独的神经网络(本文中称为m-net)来计算用于每个基元的球查询的查询更新。
44.图7示出根据本公开的解码器架构的非限制性第一实施方案。解码器执行从基元701以及局部码字702和全局码字703的点云重构的任务,以生成与原始点云紧密拟合的点云,同时保留尽可能多的细节。给定c个基元参数和码字,执行采样(例如,随机采样)以生成k个与每个基元704相关联的点(对于流形基元在基元表面上,并且对于体积基元在体积内)。然后,所生成的点和基元参数被馈送到神经网络模块中,该神经网络模块将基元粘接在一起(并且对相关联的点进行移位)以根据全局码字生成向量705,以匹配全局拓扑并且用于全局均一性。
45.图8示出根据本公开的解码器架构的非限制性第二实施方案。为了实现每个基元捕获的信息的多样性以及为了减少基元所概括的区域之间的重叠,这个实施方案的架构包括计算和惩罚基元之间的亲和矩阵801的附加模块。对于流形基元的情况,这个亲和矩阵801被逐项计算为所有基元的法向量之间的成对内积。对于体积基元,亲和性被计算为所有体积基元之间的成对体积重叠。
46.在一个变型中,不是重构点云,而是为每个对象生成代表性基元。这可以通过首先使用体积基元、然后控制基元的数量使得每个体积基元仅包围一个对象的点云子集来实现。可通过以分层级方式生成基元或通过采用合并/拆分机制来控制基元的数量。这个变型中的整体机制也可被调整以实现部分分割,而不是对象分割。
47.在一个实施方案中,基元生成方法初始化包括各种类型的基于流形的基元或体积基元的组合的基元集合,并且通过所提出的编码器架构对它们进行精细化。
48.在另一实施方案中,基元生成方法在第一阶段初始化初始基元集合,并且通过编
码器架构精细化初始基元集合,直到满足预定条件。在几次循环迭代之后,该方法初始化附加基元,附加到现有基元集合,并且精细化更大的经更新的基元集合以获取在点云上的更好拟合。必要时重复该过程。
49.在另一实施方案中,一种方法基于某一预定义准则,(1)将基元分拆成相同种类的两个更小基元并且更新基元集合以将新基元附加到该集合并且移除较旧基元,或(2)将相同种类的两个基元合并成一个更大基元并且通过移除较旧基元且添加较新基元来更新基元集合。然后,在必要时,通过继续经由所提出的编码器架构对基元进行若干次精细化处理来继续该方法。
50.图9示出可被配置为实现关于图1描述的方法的设备30的示例性架构。图2至图6的编码器和/或图7和图8的解码器可实施这个架构。或者,根据本发明原理的编码器和/或解码器的每个模块可以是根据图9的架构的设备,其例如经由其总线31和/或经由i/o接口36连接在一起。
51.设备30包括通过数据和地址总线31连接在一起的以下元件:
52.·
微处理器32(或cpu),该微处理器是例如dsp(或数字信号处理器);
53.·
rom(或只读存储器)33;
54.·
ram(或随机存取存储器)34;
55.·
存储接口35;
56.·
i/o接口36,该i/o接口用于从应用程序接收要传输的数据;和
57.·
电源,例如电池(未示出)。
58.根据一个示例,电源在设备外部。在每个提到的存储器中,说明书中使用的词语“寄存器”可以对应于小容量的区域(一些位)或非常大的区域(例如,整个程序或大量接收或解码的数据)。rom 33至少包括程序和参数。rom 33可以根据本发明原理存储用于执行技术的算法和指令。当接通时,cpu 32上载ram中的程序并执行对应指令。
59.ram 34包括寄存器中的由cpu 32执行并在设备30的接通之后上载的程序、寄存器中的输入数据、寄存器中的方法的不同状态中的中间数据以及用于在寄存器中执行方法的其他变量。
60.本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法或设备讨论),讨论的特征的具体实施也可以其他形式(例如,程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如例如处理器)中实施,该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“pda”)以及便于最终用户之间信息通信的其他设备。
61.根据本公开的示例,设备30属于包括以下项的集合:
62.·
移动设备;
63.·
通信设备;
64.·
游戏设备;
65.·
平板电脑(或平板计算机);
66.·
膝上型电脑;
67.·
静止图片或摄像机,例如配备有深度传感器;
68.·
静止图片或摄像机的托架;
69.·
编码芯片;
70.·
服务器(例如广播服务器、视频点播服务器或web服务器)。
71.本文描述的各种过程和特征的具体实施可以体现于各种不同的设备或应用程序中,特别是例如与数据编码、数据解码、视图生成、纹理处理和图像以及相关纹理信息和/或深度信息的其他处理相关联的设备或应用程序。此类设备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上型电脑、个人计算机、蜂窝电话、pda和其他通信设备。应当清楚的是,设备可以是移动的,甚至安装在移动车辆中。
72.另外,方法可以由处理器执行的指令来实现,并且此类指令(和/或由具体实施产生的数据值)可以存储在处理器可读介质上,诸如例如集成电路、软件载体或其他存储设备,诸如例如硬盘、紧凑型磁盘(“cd”)、光盘(诸如例如,dvd,通常称为数字通用光盘或数字视频光盘)、随机存取存储器(“ram”)或只读存储器(“rom”)。指令可以形成在处理器可读介质上有形地体现的应用程序。指令可以是例如硬件、固件、软件或组合。指令可以在例如操作系统、单独应用程序或两者的组合中发现。因此,处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(诸如存储设备)的设备。此外,除了或代替指令,处理器可读介质可以存储由具体实施产生的数据值。
73.对于本领域的技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,信号可以被格式化为作为数据携带用于写入或阅读所描述的实施方案的语法的规则,或作为数据携带由所描述的实施方案写入的实际语法值的数据。此类信号可格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的,信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。
74.已描述了多个具体实施。但应理解的是,可以作出许多修改。例如,可以组合、补充、修改或移除不同具体实施的元件以产生其他具体实施。另外,普通技术人员将理解,其他结构和过程可以被替换为所公开的那些,并且所得具体实施将以至少基本上相同的方式执行至少基本上相同的功能,以实现与所公开的具体实施至少基本相同的结果。因此,本技术考虑了这些和其他具体实施。
技术特征:
1.一种用于自适应地抽象点云的方法,所述方法包括:初始化与查询形状和查询参数集合相关联的基元集合;对于每个基元,使用与所述基元相关联的所述查询参数集合和所述查询形状访问局部点集合;对于每个局部点集合,使用第一神经网络确定描述符向量,所述描述符向量包括用于基元更新的子向量和用于局部描述符的子向量;以及基于用于每个局部点集合的所述描述符向量来更新所述基元集合。2.根据权利要求1所述的方法,其中使用全局描述符作为输入以用于确定用于所述局部描述符的所述子向量,使用第二神经网络确定所述全局描述符。3.根据权利要求1所述的方法,其中通过对所述点云进行最远点采样来初始化所述基元集合。4.根据权利要求1所述的方法,其中使用用于所述基元更新的所述子向量来执行对所述基元集合的更新。5.根据权利要求1所述的方法,其中通过初始化至少两个不同的查询形状来初始化至少两种类型的基元,并且其中使用所述至少两个不同的查询形状来学习所述点云的基元的组合。6.一种包括与存储器相关联的处理器的设备,其中所述处理器被配置为:初始化与查询形状和查询参数集合相关联的基元集合;对于每个基元,使用与所述基元相关联的所述查询参数集合和所述查询形状访问局部点集合;对于每个局部点集合,使用第一神经网络确定描述符向量,所述描述符向量包括用于基元更新的子向量和用于局部描述符的子向量;以及基于用于每个局部点集合的所述描述符向量来更新所述基元集合。7.根据权利要求6所述的设备,其中使用全局描述符作为输入以用于确定用于所述局部描述符的所述子向量,使用第二神经网络确定所述全局描述符。8.根据权利要求6所述的设备,其中所述处理器被配置为通过对所述点云进行最远点采样来初始化基元集合。9.根据权利要求6所述的设备,其中所述处理器被配置为使用用于所述基元更新的所述子向量来更新所述基元集合。10.根据权利要求6所述的设备,其中所述处理器被配置为通过初始化至少两个不同的查询形状来初始化至少两种类型的基元,并且使用所述至少两个不同的查询形状来学习所述点云的基元的组合。11.一种用于从包括局部描述符和全局描述符的基元集合重构点云的方法,所述方法包括:基于所述基元确定所述点云的空间中的采样分布;使用第一神经网络基于所述局部描述符确定分布参数;根据所述分布参数生成所述基元的点;以及使用第二神经网络基于所述全局描述符对所述基元集合和所生成的点进行移位和粘接。
12.根据权利要求11所述的方法,还包括:将所述基元之间的亲和矩阵计算为相应基元的法向量的成对内积。13.一种包括与存储器相关联的处理器的设备,所述处理器被配置为对于包括局部描述符和全局描述符的基元的集合:基于所述基元确定所述点云的空间中的采样分布;使用第一神经网络基于所述局部描述符确定分布参数;根据所述分布参数生成所述基元的点;以及使用第二神经网络基于所述全局描述符对所述基元集合和所采样的点进行移位和粘接。14.根据权利要求13所述的设备,其中所述处理器被进一步配置为:将所述基元之间的亲和矩阵计算为相应基元的法向量的成对内积。15.一种组合根据权利要求6所述的设备和根据权利要求13所述的设备的编码器,所述编码器被配置为对所述设备的神经网络进行端到端训练。
技术总结
一种用于自适应地抽象点云的方法包括初始化与查询形状和查询参数集合相关联的基元集合。对于每个基元,使用与所述基元相关联的所述查询参数集合和所述查询形状访问局部点集合。对于每个局部点集合,使用第一神经网络确定描述符向量,该描述符向量包括用于基元更新的子向量和用于局部描述符的子向量。基于用于每个局部点集合的描述符向量来更新基元集合。合。合。
技术研发人员:王若愚 M
受保护的技术使用者:交互数字专利控股公司
技术研发日:2021.11.12
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
