三维点云处理模型和语义分割模型的训练方法和相关设备与流程
未命名
08-13
阅读:98
评论:0
1.本发明涉及三维点云技术领域,特别涉及一种三维点云处理模型和语义分割模型的训练方法和相关设备。
背景技术:
2.三维点云是指由激光雷达、深度相机等扫描设备获取的空间三维点信息,一般包含空间三维位置信息、颜色信息和强度信息等。三维点云语义分割是指对点云中的每个点都赋予特定的语义标签,是场景理解的关键步骤,在机器人、增强现实和自动驾驶等许多领域都有广泛的应用。因此,三维点云语义分割一直是计算机视觉领域的研究热点。
3.在相关技术中,基于场景分类监督信号的弱监督点云语义分割方法通常采用点云类别激活图的思想来生成每个点的伪标签,这种方式根据点云数据生成伪标签。
技术实现要素:
4.经过分析后发现,基于点云类别激活图生成伪标签的方式仅考虑了点云数据这一个模态,而生成的伪标签不准确又会使得三维点云的语义分割结果不准确。
5.本发明实施例所要解决的一个技术问题是:如何提高三维点云数据的标注准确性。
6.根据本发明一些实施例的第一个方面,提供一种三维点云处理模型的训练方法,包括:利用三维点云处理模型对三维点云数据进行处理,以获取三维点云数据中点的信息;获取二维图像数据中像素的信息,其中,二维图像数据和三维点云数据覆盖相同的区域;利用点的信息以及像素的信息,确定三维点云数据和二维图像数据的对齐约束损失;利用三维点云处理模型预测的、三维点云数据中点的分类信息以及预先标记的场景分类信息,确定三维点云处理模型的分类损失;利用对齐约束损失和分类损失,训练三维点云处理模型。
7.在一些实施例中,点的信息包括点的分类信息、特征信息中的至少一种;像素的信息包括像素的分类信息、特征信息中的至少一种。
8.在一些实施例中,利用点的信息以及像素的信息,确定三维点云数据和二维图像数据的对齐约束损失包括:利用点的信息以及像素的信息,确定三维点云数据和二维图像数据的匹配程度;根据匹配程度,确定对齐约束损失。
9.在一些实施例中,匹配程度包括:点与像素的特征匹配程度、三维点云数据与二维图像数据的全局特征匹配程度、点与像素的语义匹配程度中的至少一种。
10.在一些实施例中,点与像素的特征匹配程度根据点和相应像素之间的相似度确定。
11.在一些实施例中,在匹配程度包括点与像素的特征匹配程度的情况下,根据匹配程度,确定对齐约束损失包括:将点的特征、和像素的特征映射到同一维度,分别获得每个点的第一点云特征和每个像素的第一像素特征;随机获取第一数量的点以及相应的像素;对于第一数量的点中的每一个,利用点的第一点云特征与相应像素的第一像素特征的相似
度、以及点的第一点云特征与每个像素的第一像素特征的相似度的总和,确定点与相应像素的对比学习损失;根据第一数量的点中的每一个的对比学习损失的总和,确定对齐约束损失。
12.在一些实施例中,对于第一数量的点中的每一个:点与相应像素的对比学习损失,和点的第一点云特征与相应像素的第一像素特征的相似度成负相关关系、和点的第一点云特征与每个像素的第一像素特征的相似度的总和成正相关关系。
13.在一些实施例中,全局特征匹配程度根据三维点云数据中任意两个点之间的相似度、以及二维图像数据中任意两个像素之间的相似度确定。
14.在一些实施例中,在匹配程度包括全局特征匹配程度的情况下,根据匹配程度,确定对齐约束损失包括:将点的特征、和像素的特征映射到同一维度,分别获得每个点的第二点云特征和每个像素的第二像素特征;随机获取第二数量的点以及相应的像素;对于第二数量的点中的任意两个点,确定两个点的第二点云特征之间的第一相似性信息、以及第二数量的像素中两个相应像素的第二像素特征之间的第二相似性信息,并根据第一相似性信息和第二相似性信息之间的差距确定两个点对应的相似性损失;根据三维点云数据中的点的相似性损失的总和,确定对齐约束损失。
15.在一些实施例中,第一相似性信息和第二相似性信息为相似度矩阵。
16.在一些实施例中,语义匹配程度根据每个点的第一分类信息、以及每个像素的第二分类信息确定。
17.在一些实施例中,其中,第二分类信息通过利用二维图像处理模型对每个像素进行处理获得,并且在匹配程度包括语义匹配程度的情况下,根据匹配程度,确定对齐约束损失包括:将三维点云数据映射到与二维图像数据相同的维度;利用二维图像处理模型,对映射后的三维点云数据进行处理,获得每个点的第三分类信息;利用第二分类信息和第三分类信息确定语义匹配损失,并根据语义匹配损失确定对齐约束损失。
18.在一些实施例中,对齐约束损失与第二分类信息成正相关关系、与第三分类信息成负相关关系。
19.在一些实施例中,获取二维图像数据的信息包括:利用二维图像处理模型对二维图像数据进行处理,获得二维图像数据的信息。
20.在一些实施例中,利用三维点云处理模型预测的、三维点云数据中点的分类信息以及预先标记的场景分类信息,确定三维点云处理模型的分类损失包括:根据三维点云处理模型预测的、三维点云数据中点的分类信息以及预先标记的场景分类信息,确定第一分类损失;根据二维图像处理模型预测的、二维图像数据中像素的分类信息以及场景分类信息,确定第二分类损失;根据第一分类损失和第二分类损失,确定三维点云处理模型的分类损失。
21.在一些实施例中,根据三维点云处理模型预测的、三维点云数据的分类信息的池化处理结果以及场景分类信息,确定第一分类损失;根据二维图像处理模型预测的、二维图像数据中像素的分类信息以及场景分类信息,确定第二分类损失。
22.在一些实施例中,利用对齐约束损失和分类损失的加权结果,训练三维点云处理模型。
23.在一些实施例中,三维点云处理模型利用三维残差网络实现。
24.在一些实施例中,二维图像处理模型利用二维残差网络实现。
25.根据本发明一些实施例的第二个方面,提供一种语义分割模型的训练方法,包括:利用三维点云处理模型预测待处理的三维点云数据中的分类信息,其中,三维点云处理模型是利用前述任意一种三维点云处理模型的训练方法训练的;根据分类信息生成待处理的三维点云数据中的点的伪标签;利用伪标签,训练三维点云的语义分割模型。
26.根据本发明一些实施例的第三个方面,提供一种三维点云处理模型的训练装置,包括:第一信息获取模块,被配置为利用三维点云处理模型对三维点云数据进行处理,以获取三维点云数据中点的信息;第二信息获取模块,被配置为获取二维图像数据中像素的信息,其中,二维图像数据和三维点云数据覆盖相同的区域;对齐约束损失确定模块,被配置为利用点的信息以及像素的信息,确定三维点云数据和二维图像数据的对齐约束损失;分类损失确定模块,被配置为利用三维点云处理模型预测的、三维点云数据中点的分类信息以及预先标记的场景分类信息,确定三维点云处理模型的分类损失;三维点云处理模型训练模块,被配置为利用对齐约束损失和分类损失,训练三维点云处理模型。
27.根据本发明一些实施例的第四个方面,提供一种三维点云处理模型的训练装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种三维点云处理模型的训练方法。
28.根据本发明一些实施例的第五个方面,提供一种语义分割模型的训练系统,包括:前述任意一种三维点云处理模型的训练装置;预测模块,被配置为利用三维点云处理模型预测待处理的三维点云数据中的分类信息;生成模块,被配置为根据分类信息生成待处理的三维点云数据中的点的伪标签;语义分割模型训练模块,被配置为利用伪标签,训练三维点云的语义分割模型。
29.根据本发明一些实施例的第六个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任意一种三维点云处理模型的训练方法。
30.上述发明中的一些实施例具有如下优点或有益效果:本发明的实施例在训练三维点云处理模型的过程中,参考了三维点云数据和二维图像数据的对齐约束损失,从而将二维图像引入到三维点云处理模型的训练过程中,实现了二维图像对三维点云的跨模态引导,提升了模型训练的准确性。
31.通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
32.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
33.图1示出了根据本发明一些实施例的处理模型的训练方法的流程示意图。
34.图2示出了根据本发明一些实施例的对齐约束损失确定方法的流程示意图。
35.图3示出了根据本发明另一些实施例的对齐约束损失确定方法的流程示意图。
36.图4示出了根据本发明又一些实施例的对齐约束损失确定方法的流程示意图。
37.图5示出了根据本发明一些实施例的分类损失确定方法的流程示意图。
38.图6示出了根据本发明一些实施例的三维点云的语义分割模型的训练方法的流程示意图。
39.图7示出了根据本发明一些实施例的三维点云处理模型的训练装置的结构示意图。
40.图8示出了根据本发明一些实施例的语义分割模型的训练系统的结构示意图。
41.图9示出了根据本发明另一些实施例的三维点云处理模型的训练装置的结构示意图。
42.图10示出了根据本发明又一些实施例的三维点云处理模型的训练装置的结构示意图。
具体实施方式
43.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
44.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
45.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
46.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
47.在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
48.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
49.图1示出了根据本发明一些实施例的处理模型的训练方法的流程示意图。如图1所示,该实施例的处理模型的训练方法包括步骤s102~s110。
50.在步骤s102中,利用三维点云处理模型对三维点云数据进行处理,以获取三维点云数据中点的信息。
51.三维点云数据包括若干点的数据,每个点的数据可以包括位置信息和颜色信息。在一些实施例中,三维点云数据以表示,其中n表示点的数量,6表示6个维度(3维颜色信息以及3维位置信息)。
52.三维点云处理模型用于对三维点云数据中的每个点进行分类。例如,可以输出每个点属于每种类别的概率,然后根据概率阈值来确定该点所属的一个或多个类。
53.三维点云处理模型还可以输出每个点的特征。例如,可以将三维点云处理模型的中间计算结果输出,该输出表示点的特征。
54.在一些实施例中,三维点云数据中点的信息包括三维点云数据中的点的分类信
息、特征信息中的至少一种。
55.在一些实施例中,三维点云处理模型利用三维残差网络实现。三维点云处理模型可以同时输出三维点云数据的逐点特征图和分类预测概率其中n表示点的数量,l表示三维点云点特征的维度,c表示类别数。
56.在步骤s104中,获取二维图像数据中像素的信息,其中,二维图像数据和三维点云数据覆盖相同的区域。
57.二维图像数据包括若干像素的数据,每个像素的数据可以包括颜色信息,当然也可以采用其他方式表示像素。在一些实施例中,二维图像数据以表示,其中h
×
w表示图像的长乘以宽,3表示三个颜色通道(例如红、绿、蓝通道)。
58.由于采集设备的差异,在部分情况下,三维点云数据和二维图像数据所覆盖的区域可能不完全一致。但是,二者覆盖的区域存在交集。
59.在一些实施例中,二维图像数据中像素的信息包括像素的分类信息、特征信息中的至少一种。二维图像数据的信息类型可以与三维点云数据的信息类型对应,例如,二者都为特征信息、都为分类信息或者都同时包括特征信息和分类信息。从而,可以从特征角度、语义角度描述三维点云数据和二维图像数据。
60.在一些实施例中,利用二维图像处理模型对二维图像数据进行处理,获得二维图像数据的信息。从而,可以提高信息获取的效率。根据需要,二维图像处理模型也可以与三维点云处理模型共同训练,从而从整体上提高预测的准确率。
61.在一些实施例中,二维图像处理模型利用二维残差网络实现。同时输出二维图像的逐像素特征图和分类预测概率和分类预测概率其中h
×
w表示图像的长乘以宽、即像素数量,d表示二维图像像素特征的维度,c表示语义分割的类别个数。
62.在步骤s106中,利用点的信息以及像素的信息,确定三维点云数据和二维图像数据的对齐约束损失。
63.对齐约束是指将三维点云数据和二维图像数据对齐的约束。在一些实施例中,可以基于点和像素的特征进行约束、也可以基于点和像素的语义进行约束。此外,还可以基于三维点云和二维图像的全局属性(例如全局特征)进行约束。
64.在一些实施例中,利用点的信息以及像素的信息,确定三维点云数据和二维图像数据的匹配程度;根据匹配程度,确定对齐约束损失。基于三维点云数据和二维图像数据的匹配程度确定对齐约束损失、并进行训练,可以使得三维点云处理模型将三维点云数据和二维图像数据进行对齐,例如,将相似的点和像素拉近、将不相似的点和像素拉远,或者尽量使得二者在对应位置上具有相同的语义。
65.在一些实施例中,三维点云数据和二维图像数据之间的匹配程度包括:三维点云数据中的点与二维图像数据中的像素的特征匹配程度、三维点云数据与二维图像数据的全局特征匹配程度、三维点云数据中的点与二维图像数据中的像素的语义匹配程度中的至少一种。后文将示例性地描述这三种约束的确定方式的实施例。根据需要,本领域技术人员还可以使用其他方式确定匹配程度。
66.在步骤s108中,利用三维点云处理模型预测的、三维点云数据中点分类信息以及预先标记的场景分类信息,确定三维点云处理模型的分类损失。即,预测值和标记值的差距
越大,则分类损失越大。
67.场景分类信息是描述整个场景的分类结果的信息,例如,某个场景中包括桌子和椅子,则其分类信息可以包括“桌子”“椅子”对应的信息。也就是说,在本发明的实施例中,在对三维点云处理模型进行训练之前不需要逐点标注三维点云数据,而是对其进行整体标注。
68.由于预测的分类信息是逐点信息,为了将其与场景分类信息对应,可以通过池化处理获得对整个场景的预测结果,并进一步计算分类损失。从而,能够节约预先标注的工作量,从整体上提高了训练效率。
69.在一些实施例中,分类损失基于交叉熵损失函数确定。根据需要,也可以采用其他方式计算分类损失,这里不再赘述。
70.在步骤s110中,利用对齐约束损失和分类损失,训练三维点云处理模型。
71.在一些实施例中,利用对齐约束损失和分类损失的加权结果,训练三维点云处理模型。在对齐约束损失包括多个种类的情况,或者分类损失包括多个种类的情况,每个种类也可以对应有预设的权重。
72.在一些实施例中,在使用了二维图像处理模型得到二维图像数据的信息的情况下,还可以利用二维图像数据的分类损失训练二维图像处理模型。从而,使得二维图像处理模型能够给出更准确的预测结果。
73.本发明的实施例在训练三维点云处理模型的过程中,参考了三维点云数据和二维图像数据的对齐约束损失,从而将二维图像引入到三维点云处理模型的训练过程中,实现了二维图像对三维点云的跨模态引导,提升了模型训练的准确性。
74.下面分别示例性地描述基于三种匹配程度确定对齐约束的方式。
75.在一些实施例中,点与像素的特征匹配程度根据点和相应像素之间的相似度确定。下面参考图2描述对齐约束损失确定方法的实施例。
76.图2示出了根据本发明一些实施例的对齐约束损失确定方法的流程示意图。如图2所示,该实施例的对齐约束损失确定方法包括步骤s202~s208。
77.在步骤s202中,将点的特征、和像素的特征映射到同一维度,分别获得每个点的第一点云特征和每个像素的第一像素特征。
78.例如,将点的特征和像素的特征都处理成一个新的e维数据。点和像素映射可以分别通过两个全连接层网络实现。
79.在步骤s204中,随机获取第一数量的点以及相应的像素。
80.相应的点和像素可以预先通过特征匹配等手段确定。例如,当场景中包括一个桌角时,三维点云数据中桌角对应的点、以及二维图像数据中桌角对应的像素就是相应的点和像素。
81.在步骤s206中,对于第一数量的点中的每一个,利用点的第一点云特征与相应像素的第一像素特征的相似度、以及点的第一点云特征与每个像素的第一像素特征的相似度的总和,确定点与相应像素的对比学习损失。
82.为了便于描述,设相应的点和像素具有相同的标识,即第i个点和第i个像素对应。则对于第i个点,利用第i个点的第一点云特征与第i个像素的第一像素特征的相似度、以及第i个点的第一点云特征与第1、2
……
nc(表示第一数量)个像素中每个像素的第一像素特
征的相似度的总和,确定第i个点和第i个像素的对比学习损失。
83.在一些实施例中,点与相应像素的对比学习损失,和该点的第一点云特征与相应像素的第一像素特征的相似度成负相关关系、和该点的第一点云特征与每个像素的第一像素特征的相似度的总和成正相关关系。
84.在步骤s208中,根据第一数量的点中的每一个的对比学习损失的总和,确定对齐约束损失。对齐约束损失与对比学习损失的总和成正相关关系。
85.设对比学习损失的总和为“点到像素对比损失”。在一些实施例中,点到像素对比损失根据公式(1)确定。
[0086][0087]
其中,为三维点云数据中点的映射后的特征,为二维图像数据中像素的映射后的特征,nc为点和像素的数量,τ为调节参数,i和k为点和像素的标识。该损失函数的目的是增大点与其对应的像素(正样例)之间的特征相似度,同时缩小与其非对应的像素(负样例)之间的相似度。而调节参数控制的是该损失函数对困难负样例(相似度较高的负样例)的关注程度。调节参数越大,关注度越低;调节参数越小,关注度越高。在具体应用中,可以通过实验来选择合适的调节参数。
[0088]
通过上述实施例,对应的像素的特征和点的特征被拉近、不对应的特征被拉远,实现了将点的特征对齐到图像的特征的目的。
[0089]
在一些实施例中,全局特征匹配程度根据三维点云数据中任意两个点之间的相似度、以及二维图像数据中任意两个像素之间的相似度确定。下面参考图3描述对齐约束损失确定方法的实施例。
[0090]
图3示出了根据本发明另一些实施例的对齐约束损失确定方法的流程示意图。如图3所示,该实施例的对齐约束损失确定方法包括步骤s302~s308。
[0091]
在步骤s302中,将点的特征、和像素的特征映射到同一维度,分别获得每个点的第二点云特征和每个像素的第二像素特征。
[0092]
例如,将点的特征和像素的特征都处理成一个新的f维数据。点和像素映射可以分别通过两个全连接层网络实现。步骤s302可以是步骤s202,也可以是在步骤s202以外进行的额外的处理。即,e和f可以相等、也可以不相等,步骤s302使用的全连接层网络可以与步骤s202使用的全连接层网络相同、也可以不同。
[0093]
在步骤s304中,随机获取第二数量的点以及相应的像素。第二数量与第一数量可以相同、也可以不同。
[0094]
在步骤s306中,对于第二数量的点中的任意两个点,确定这两个点的第二点云特征之间的第一相似性信息、以及第二数量的像素中两个相应像素的第二像素特征之间的第二相似性信息,并根据第一相似性信息和第二相似性信息之间的差距确定这两个点对应的相似性损失。
[0095]
在一些实施例中,第一相似性信息和第二相似性信息为相似度矩阵。相似性矩阵描述了任意两个点或任意两个像素之间的相似性,能够被看作是一种全局结构信息。
[0096]
在步骤s308中,根据三维点云数据中的点的相似性损失的总和,确定对齐约束损
失。
[0097]
设相似性损失的总和为“全局结构相似性损失”。在一些实施例中,全局结构相似性损失根据公式(2)-(4)确定。
[0098][0099][0100][0101]
其中,为三维点云数据中点的特征,为二维图像数据中像素的特征,a
3d
(i,j)为第一相似性信息,a
2d
(i,j)为第二相似性信息,na为点和像素的数量,i、j和k为点和像素的标识。
[0102]
通过上述实施例,三维点云的处理模型能够学习到图像特征的全局结构信息,从而实现三维点云和二维图像的全局结构层面的对齐。
[0103]
在一些实施例中,语义匹配程度根据每个点的第一分类信息、以及每个像素的第二分类信息确定。每个点的第一分类信息可以通过三维点云的处理模型的输出确定,每个像素的第二分类信息可以通过二维图像的处理模型的输出确定。下面参考图4描述对齐约束损失确定方法的实施例。
[0104]
图4示出了根据本发明又一些实施例的对齐约束损失确定方法的流程示意图。如图4所示,该实施例的对齐约束损失确定方法包括步骤s402~s406。
[0105]
在步骤s402中,将三维点云数据映射到与二维图像数据相同的维度。
[0106]
在步骤s404中,利用二维图像处理模型,对映射后的三维点云数据进行处理,获得每个点的第三分类信息。
[0107]
在步骤s406中,利用第二分类信息和第三分类信息确定语义匹配损失,并根据语义匹配损失对齐约束损失。
[0108]
在一些实施例中,对齐约束损失与第二分类信息成正相关关系、与第三分类信息成负相关关系。
[0109]
在一些实施例中,语义匹配损失根据公式(5)确定。
[0110][0111]
其中,n表示点的数量,c表示类别数量,m
2d
(i,c)表示二维图像处理模型对二维图像数据中像素的预测结果,表示二维图像处理模型对映射后的三维点云数据中点的预测结果。
[0112]
通过上述实施例,三维点云处理模型能够学习到图像特征的语义信息,从而实现语义层面的对齐。
[0113]
在利用二维图像处理模型获得二维图像数据的信息时,在确定分类损失时,还可以考虑二维图像处理模型的分类损失。下面参考图5描述本发明分类损失确定方法的实施
例。
[0114]
图5示出了根据本发明一些实施例的分类损失确定方法的流程示意图。如图5所示,该实施例的分类损失确定方法包括步骤s502~s506。
[0115]
在步骤s502中,根据三维点云处理模型预测的、三维点云数据中点的分类信息以及预先标记的场景分类信息,确定第一分类损失。
[0116]
在步骤s504中,根据二维图像处理模型预测的、二维图像数据中像素的分类信息以及场景分类信息,确定第二分类损失。
[0117]
由于三维点云数据和二维图像数据覆盖同一区域、即针对同一场景,因此二者可以共享预先标记的场景分类信息。
[0118]
在步骤s506中,根据第一分类损失和第二分类损失,确定三维点云处理模型的分类损失。
[0119]
在一些实施例中,分类信息为分类概率。分类损失包括根据全局平均池化后的、三维点云数据分类信息以及场景分类信息确定的第一分类损失、和根据全局平均池化后的分类信息以及场景分类信息确定的第二分类损失。
[0120]
例如,可以通过公式(6)和(7)计算池化后的分类信息,其中,z
3d
表示池化后的、三维点云处理模型预测的分类信息,m
3d
(n)表示池化前的、三维点云处理模型预测的分类信息,z
2d
表示池化后的、二维图像处理模型预测的分类信息,m
2d
(h,w)表示池化前的、二维图像处理模型预测的分类信息,n表示三维点云中点的数量h和w分别表示二维图像的长和宽。
[0121][0122][0123]
然后,可以通过公式(8)和(9)计算第一分类损失和第二分类损失其中,c表示类别数量,c表示类别标识,yc表示场景的多类别分类标签,σ表示sigmoid激活函数。
[0124][0125][0126]
通过上述实施例,能够在计算分类损失时,在考虑三维点云处理模型的分类准确率以外,还考虑二维图像处理模型的分类准确率,从而考虑了预测结果中受到二维图像处理模型的影响,进一步提高了三维点云处理模型的训练效果。
[0127]
在完成了三维点云处理模型的训练后,可以将其应用于三维点云的语义分割模型的训练。下面参考图6描述三维点云的语义分割模型的训练方法的实施例。
[0128]
图6示出了根据本发明一些实施例的三维点云的语义分割模型的训练方法的流程示意图。如图6所示,该实施例的训练方法包括步骤s602~s606。
[0129]
在步骤s602中,利用三维点云处理模型预测待处理的三维点云数据中的分类信息。
[0130]
该三维点云处理模型是利用前述任意一个实施例中的方法训练的。
[0131]
在步骤s604中,根据分类信息生成待处理的三维点云数据中的点的伪标签。每个
伪标签表示点的类别。
[0132]
在步骤s606中,利用伪标签,训练三维点云的语义分割模型。即,将三维点云处理模型的预测结果作为训练数据的标记信息,进一步利用训练数据训练语义分割模型。
[0133]
在一些实施例中,在生成伪标签类别时,对于输入的点云首先通过三维点云处理模型得到每个点的分类概率然后对于每个点在c个类别中选择的预测概率最大的类别作为伪标签,得到逐点的伪标签再将其作为监督信号训练语义分割模型。
[0134]
在一些实施例中,采用交叉熵损失训练基于三维残差网络的三维u-net分割模型。根据需要,也可以训练其他类型的语义分割网络,或者,将训练后的三维点云处理模型应用到其他三维点云弱监督学习任务中。
[0135]
下面参考图7描述三维点云处理模型的训练装置的实施例。
[0136]
图7示出了根据本发明一些实施例的三维点云处理模型的训练装置的结构示意图。如图7所示,该实施例的三维点云处理模型的训练装置700包括:第一信息获取模块7100,被配置为利用三维点云处理模型对三维点云数据进行处理,以获取三维点云数据中点的信息;第二信息获取模块7200,被配置为获取二维图像数据中像素的信息,其中,二维图像数据和三维点云数据覆盖相同的区域;对齐约束损失确定模块7300,被配置为利用点的信息以及像素的信息,确定三维点云数据和二维图像数据的对齐约束损失;分类损失确定模块7400,被配置为利用三维点云处理模型预测的、三维点云数据中点的分类信息以及预先标记的场景分类信息,确定三维点云处理模型的分类损失;三维点云处理模型训练模块7500,被配置为利用对齐约束损失和分类损失,训练三维点云处理模型。
[0137]
在一些实施例中,点的信息包括点的分类信息、特征信息中的至少一种;像素的信息包括像素的分类信息、特征信息中的至少一种。
[0138]
在一些实施例中,对齐约束损失确定模块7300进一步被配置为利用点的信息以及像素的信息,确定三维点云数据和二维图像数据的匹配程度;根据匹配程度,确定对齐约束损失。
[0139]
在一些实施例中,匹配程度包括:点与像素的特征匹配程度、三维点云数据与二维图像数据的全局特征匹配程度、点与像素的语义匹配程度中的至少一种。
[0140]
在一些实施例中,点与像素的特征匹配程度根据点和相应像素之间的相似度确定。
[0141]
在一些实施例中,对齐约束损失确定模块7300进一步被配置为在匹配程度包括点与像素的特征匹配程度的情况下:将点的特征、和像素的特征映射到同一维度,分别获得每个点的第一点云特征和每个像素的第一像素特征;随机获取第一数量的点以及相应的像素;对于第一数量的点中的每一个,利用点的第一点云特征与相应像素的第一像素特征的相似度、以及点的第一点云特征与每个像素的第一像素特征的相似度的总和,确定点与相应像素的对比学习损失;根据第一数量的点中的每一个的对比学习损失的总和,确定对齐约束损失。
[0142]
在一些实施例中,对于第一数量的点中的每一个:点与相应像素的对比学习损失,和点的第一点云特征与相应像素的第一像素特征的相似度成负相关关系、和点的第一点云
特征与每个像素的第一像素特征的相似度的总和成正相关关系。
[0143]
在一些实施例中,全局特征匹配程度根据三维点云数据中任意两个点之间的相似度、以及二维图像数据中任意两个像素之间的相似度确定。
[0144]
在一些实施例中,对齐约束损失确定模块7300进一步被配置为在匹配程度包括全局特征匹配程度的情况下:将点的特征、和像素的特征映射到同一维度,分别获得每个点的第二点云特征和每个像素的第二像素特征;随机获取第二数量的点以及相应的像素;对于第二数量的点中的任意两个点,确定两个点的第二点云特征之间的第一相似性信息、以及第二数量的像素中两个相应像素的第二像素特征之间的第二相似性信息,并根据第一相似性信息和第二相似性信息之间的差距确定两个点对应的相似性损失;根据三维点云数据中的点的相似性损失的总和,确定对齐约束损失。
[0145]
在一些实施例中,第一相似性信息和第二相似性信息为相似度矩阵。
[0146]
在一些实施例中,语义匹配程度根据每个点的第一分类信息、以及每个像素的第二分类信息确定。
[0147]
在一些实施例中,其中,第二分类信息通过利用二维图像处理模型对每个像素进行处理获得,并且对齐约束损失确定模块7300进一步被配置为在匹配程度包括语义匹配程度的情况下:将三维点云数据映射到与二维图像数据相同的维度;利用二维图像处理模型,对映射后的三维点云数据进行处理,获得每个点的第三分类信息;利用第二分类信息和第三分类信息确定语义匹配损失,并根据语义匹配损失确定对齐约束损失。
[0148]
在一些实施例中,对齐约束损失与第二分类信息成正相关关系、与第三分类信息成负相关关系。
[0149]
在一些实施例中,第二信息获取模块7200进一步被配置为利用二维图像处理模型对二维图像数据进行处理,获得二维图像数据的信息。
[0150]
在一些实施例中,分类损失确定模块7400进一步被配置为根据三维点云处理模型预测的、三维点云数据中点的分类信息以及预先标记的场景分类信息,确定第一分类损失;根据二维图像处理模型预测的、二维图像数据中像素的分类信息以及场景分类信息,确定第二分类损失;根据第一分类损失和第二分类损失,确定三维点云处理模型的分类损失。
[0151]
在一些实施例中,分类损失确定模块7400进一步被配置为根据三维点云处理模型预测的、三维点云数据的分类信息的池化处理结果以及场景分类信息,确定第一分类损失;根据二维图像处理模型预测的、二维图像数据中像素的分类信息以及场景分类信息,确定第二分类损失。
[0152]
在一些实施例中,训练装置700还包括:二维图像处理模型训练模块7600,被配置为利用对齐约束损失和分类损失,训练二维图像处理模型。
[0153]
在一些实施例中,三维点云处理模型训练模块7500进一步被配置为利用对齐约束损失和分类损失的加权结果,训练三维点云处理模型。
[0154]
在一些实施例中,三维点云处理模型利用三维残差网络实现。
[0155]
在一些实施例中,二维图像处理模型利用二维残差网络实现。
[0156]
下面参考图8描述语义分割模型的训练系统的实施例。
[0157]
图8示出了根据本发明一些实施例的语义分割模型的训练系统的结构示意图。如图8所示,该实施例的语义分割模型的训练系统80包括:三维点云处理模型的训练装置810,
其具体实施方式可以参考本发明任一实施例;预测模块820,被配置为利用三维点云处理模型预测待处理的三维点云数据中的分类信息;生成模块830,被配置为根据分类信息生成待处理的三维点云数据中的点的伪标签;语义分割模型训练模块840,被配置为利用伪标签,训练三维点云的语义分割模型。
[0158]
图9示出了根据本发明另一些实施例的三维点云处理模型的训练装置的结构示意图。如图9所示,该实施例的三维点云处理模型的训练装置90包括:存储器910以及耦接至该存储器910的处理器920,处理器920被配置为基于存储在存储器910中的指令,执行前述任意一个实施例中的三维点云处理模型的训练方法。
[0159]
其中,存储器910例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(boot loader)以及其他程序等。
[0160]
图10示出了根据本发明又一些实施例的三维点云处理模型的训练装置的结构示意图。如图10所示,该实施例的三维点云处理模型的训练装置100包括:存储器1010以及处理器1020,还可以包括输入输出接口1030、网络接口1040、存储接口1050等。这些接口1030,1040,1050以及存储器1010和处理器1020之间例如可以通过总线1060连接。其中,输入输出接口1030为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口1040为各种联网设备提供连接接口。存储接口1050为sd卡、u盘等外置存储设备提供连接接口。
[0161]
本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种三维点云处理模型的训练方法。
[0162]
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0163]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0164]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0165]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0166]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和
原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种三维点云处理模型的训练方法,包括:利用三维点云处理模型对所述三维点云数据进行处理,以获取所述三维点云数据中点的信息;获取二维图像数据中像素的信息,其中,所述二维图像数据和所述三维点云数据覆盖相同的区域;利用所述点的信息以及所述像素的信息,确定所述三维点云数据和所述二维图像数据的对齐约束损失;利用所述三维点云处理模型预测的、所述三维点云数据中点的分类信息以及预先标记的场景分类信息,确定所述三维点云处理模型的分类损失;利用所述对齐约束损失和所述分类损失,训练所述三维点云处理模型。2.根据权利要求1所述的训练方法,其中:所述点的信息包括所述点的分类信息、特征信息中的至少一种;所述像素的信息包括所述像素的分类信息、特征信息中的至少一种。3.根据权利要求1或2所述的训练方法,其中,所述利用所述点的信息以及所述像素的信息,确定所述三维点云数据和所述二维图像数据的对齐约束损失包括:利用所述点的信息以及所述像素的信息,确定所述三维点云数据和所述二维图像数据的匹配程度;根据所述匹配程度,确定所述对齐约束损失。4.根据权利要求3所述的训练方法,其中,所述匹配程度包括:所述点与所述像素的特征匹配程度、所述三维点云数据与所述二维图像数据的全局特征匹配程度、所述点与所述像素的语义匹配程度中的至少一种。5.根据权利要求4所述的训练方法,其中,所述点与所述像素的特征匹配程度根据点和相应像素之间的相似度确定。6.根据权利要求5所述的训练方法,其中,在所述匹配程度包括所述点与所述像素的特征匹配程度的情况下,所述根据所述匹配程度,确定所述对齐约束损失包括:将所述点的特征、和所述像素的特征映射到同一维度,分别获得每个点的第一点云特征和每个像素的第一像素特征;随机获取第一数量的点以及相应的像素;对于第一数量的点中的每一个,利用所述点的第一点云特征与相应像素的第一像素特征的相似度、以及所述点的第一点云特征与每个像素的第一像素特征的相似度的总和,确定所述点与相应像素的对比学习损失;根据第一数量的点中的每一个的对比学习损失的总和,确定所述对齐约束损失。7.根据权利要求6所述的训练方法,其中,对于第一数量的点中的每一个:所述点与相应像素的对比学习损失,和所述点的第一点云特征与相应像素的第一像素特征的相似度成负相关关系、和所述点的第一点云特征与每个像素的第一像素特征的相似度的总和成正相关关系。8.根据权利要求4所述的训练方法,其中,所述全局特征匹配程度根据所述三维点云数据中任意两个点之间的相似度、以及所述二维图像数据中任意两个像素之间的相似度确定。
9.根据权利要求8所述的训练方法,其中,在所述匹配程度包括所述全局特征匹配程度的情况下,所述根据所述匹配程度,确定所述对齐约束损失包括:将所述点的特征、和所述像素的特征映射到同一维度,分别获得每个点的第二点云特征和每个像素的第二像素特征;随机获取第二数量的点以及相应的像素;对于第二数量的点中的任意两个点,确定所述两个点的第二点云特征之间的第一相似性信息、以及第二数量的像素中两个相应像素的第二像素特征之间的第二相似性信息,并根据所述第一相似性信息和所述第二相似性信息之间的差距确定所述两个点对应的相似性损失;根据所述三维点云数据中的点的相似性损失的总和,确定所述对齐约束损失。10.根据权利要求9所述的训练方法,其中,所述第一相似性信息和第二相似性信息为相似度矩阵。11.根据权利要求4所述的训练方法,其中,所述语义匹配程度根据每个点的第一分类信息、以及每个像素的第二分类信息确定。12.根据权利要求11所述的训练方法,其中,所述第二分类信息通过利用二维图像处理模型对每个像素进行处理获得,并且在所述匹配程度包括所述语义匹配程度的情况下,所述根据所述匹配程度,确定所述对齐约束损失包括:将所述三维点云数据映射到与所述二维图像数据相同的维度;利用二维图像处理模型,对映射后的三维点云数据进行处理,获得每个点的第三分类信息;利用所述第二分类信息和所述第三分类信息确定语义匹配损失,并根据所述语义匹配损失确定所述对齐约束损失。13.根据权利要求12所述的训练方法,其中,所述对齐约束损失与所述第二分类信息成正相关关系、与所述第三分类信息成负相关关系。14.根据权利要求1或2所述的训练方法,其中,所述获取二维图像数据的信息包括:利用二维图像处理模型对所述二维图像数据进行处理,获得所述二维图像数据的信息。15.根据权利要求14所述的训练方法,其中,所述利用所述三维点云处理模型预测的、所述三维点云数据中点的分类信息以及预先标记的场景分类信息,确定所述三维点云处理模型的分类损失包括:根据所述三维点云处理模型预测的、所述三维点云数据中点的分类信息以及预先标记的场景分类信息,确定第一分类损失;根据所述二维图像处理模型预测的、所述二维图像数据中像素的分类信息以及所述场景分类信息,确定第二分类损失;根据所述第一分类损失和所述第二分类损失,确定所述三维点云处理模型的分类损失。16.根据权利要求15所述的训练方法,其中:根据所述三维点云处理模型预测的、所述三维点云数据的分类信息的池化处理结果以及所述场景分类信息,确定第一分类损失;根据所述二维图像处理模型预测的、所述二维图
像数据中像素的分类信息以及所述场景分类信息,确定第二分类损失。17.根据权利要求1或2所述的训练方法,其中,利用所述对齐约束损失和所述分类损失的加权结果,训练所述三维点云处理模型。18.根据权利要求1或2所述的训练方法,其中,所述三维点云处理模型利用三维残差网络实现。19.根据权利要求14所述的训练方法,其中,所述二维图像处理模型利用二维残差网络实现。20.一种语义分割模型的训练方法,包括:利用三维点云处理模型预测待处理的三维点云数据中的分类信息,其中,所述三维点云处理模型是利用权利要求1~19中任一项的三维点云处理模型的训练方法训练的;根据所述分类信息生成所述待处理的三维点云数据中的点的伪标签;利用所述伪标签,训练三维点云的语义分割模型。21.一种三维点云处理模型的训练装置,包括:第一信息获取模块,被配置为利用三维点云处理模型对所述三维点云数据进行处理,以获取所述三维点云数据中点的信息;第二信息获取模块,被配置为获取二维图像数据中像素的信息,其中,所述二维图像数据和所述三维点云数据覆盖相同的区域;对齐约束损失确定模块,被配置为利用所述点的信息以及所述像素的信息,确定所述三维点云数据和所述二维图像数据的对齐约束损失;分类损失确定模块,被配置为利用所述三维点云处理模型预测的、所述三维点云数据中点的分类信息以及预先标记的场景分类信息,确定所述三维点云处理模型的分类损失;三维点云处理模型训练模块,被配置为利用所述对齐约束损失和所述分类损失,训练所述三维点云处理模型。22.一种三维点云处理模型的训练装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1~19中任一项所述的三维点云处理模型的训练方法。23.一种语义分割模型的训练系统,包括:权利要求21或22所述的三维点云处理模型的训练装置;预测模块,被配置为利用三维点云处理模型预测待处理的三维点云数据中的分类信息;生成模块,被配置为根据所述分类信息生成所述待处理的三维点云数据中的点的伪标签;语义分割模型训练模块,被配置为利用所述伪标签,训练三维点云的语义分割模型。24.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1~19中任一项所述的三维点云处理模型的训练方法。
技术总结
本发明公开了一种三维点云处理模型和语义分割模型的训练方法和相关设备,涉及三维点云技术领域。三维点云处理模型的训练方法包括:利用三维点云处理模型对三维点云数据进行处理,以获取三维点云数据中点的信息;获取二维图像数据中像素的信息,其中,二维图像数据和三维点云数据覆盖相同的区域;利用点的信息以及像素的信息,确定三维点云数据和二维图像数据的对齐约束损失;利用三维点云处理模型预测的、三维点云数据中点的分类信息以及预先标记的场景分类信息,确定三维点云处理模型的分类损失;利用对齐约束损失和分类损失,训练三维点云处理模型。本发明的实施例实现了二维图像对三维点云的跨模态引导,提升了模型训练的准确性。准确性。准确性。
技术研发人员:赵杉杉 段伦豪
受保护的技术使用者:京东科技信息技术有限公司
技术研发日:2023.05.09
技术公布日:2023/8/9
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:基于改进洛伦兹混沌和新约瑟夫的小波融合多图像加密方法 下一篇:一种锚固组件
