空间语义占据标签生成方法、装置、电子设备及存储介质与流程
未命名
07-20
阅读:218
评论:0
1.本发明涉及计算机技术领域,尤其涉及一种空间语义占据标签生成方法、装置、电子设备及存储介质。
背景技术:
2.通常,自主驾驶感知的方法可以采用体素表示法描述周围环境的三维空间结构,以实现语义场景理解,辅助自动驾驶系统对其附近的表面和物体有细粒度的了解。
3.相关技术中,采用体素表示法描述三维场景时,需要标注员基于周围环境的点云数据进行语义信息的人工标注。然而,相关技术中点云数据标注方式的得到的标签的稠密性有待提升。
技术实现要素:
4.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明提出一种空间语义占据标签生成方法、装置、电子设备及存储介质。
5.本发明提供一种空间语义占据标签生成方法,其特征在于,所述方法包括:
6.获取车辆运行环境对应的环境点云数据和环境图像;其中,所述环境点云数据对应有初始稀疏标签;所述初始稀疏标签用于描述所述车辆运行环境中的对象的类别信息;
7.基于所述环境点云数据和所述环境图像对所述车辆运行环境中的对象进行类别预测,得到预测类别数据,作为所述环境点云数据对应的伪标签;
8.通过所述伪标签对所述初始稀疏标签进行稠密处理,得到所述车辆运行环境对应的空间语义占据标签。
9.在其中一个实施例中,所述基于所述环境点云数据和所述环境图像对所述车辆运行环境中的对象进行类别预测,得到预测类别数据,包括:
10.根据所述环境点云数据进行卷积处理,得到所述环境点云数据对应的三维点云特征;
11.根据所述环境图像进行特征提取和投影,得到所述环境图像对应的三维图像特征;
12.基于所述三维点云特征和所述三维图像特征对所述车辆运行环境中的对象进行类别预测,得到所述预测类别数据。
13.在其中一个实施例中,所述根据所述环境点云数据进行卷积处理,得到所述环境点云数据对应的三维点云特征,包括:
14.对所述环境点云数据进行体素化处理,得到环境体素数据;
15.通过三维稀疏卷积对所述环境体素数据进行特征提取,得到所述三维点云特征。
16.在其中一个实施例中,所述根据所述环境图像进行特征提取和投影,得到所述环境图像对应的三维图像特征,包括:
17.对所述环境图像进行特征提取,得到所述环境图像的二维图像特征;
18.根据所述二维图像特征对应的二维深度图、拍摄所述环境图像的拍摄设备的内外参数,将所述二维图像特征投影到三维空间,得到所述三维图像特征。
19.在其中一个实施例中,所述基于所述三维点云特征和所述三维图像特征对所述车辆运行环境中的对象进行类别预测,得到所述预测类别数据,包括:
20.对所述三维点云特征和所述三维图像特征进行拼接,得到三维拼接特征;
21.对所述三维拼接特征进行卷积处理,得到对应的三维融合特征;
22.基于所述三维融合特征对所述车辆运行环境中的对象进行类别预测,得到所述预测类别数据。
23.在其中一个实施例中,所述通过所述伪标签对所述初始稀疏标签进行稠密处理,得到所述车辆运行环境对应的空间语义占据标签,包括:
24.通过所述伪标签对所述初始稀疏标签进行补充处理,得到所述环境点云数据对应的稠密后的待筛选标签;
25.根据投影到所述环境图像中的待筛选标签,确定被保留的待筛选标签;
26.基于被保留的待筛选标签,确定所述空间语义占据标签。
27.在其中一个实施例中,所述根据投影到所述环境图像中的待筛选标签,确定被保留的待筛选标签,包括:
28.响应于对任一类别的待筛选标签的选择操作,将选择的所述任一类别的待筛选标签投影到所述环境图像;
29.在接收到针对所述任一类别的待筛选标签的保留操作的情况下,确定所述任一类别的待筛选标签为被保留的待筛选标签。
30.在其中一个实施例中,所述环境点云数据对应有所述车辆运行环境中的对象的三维标注框和对象语义信息;所述初始稀疏标签的生成方式,包括:
31.根据所述三维标注框和所述对象语义信息在所述环境点云数据中确定动态点云数据和静态点云数据;
32.基于所述静态点云数据进行投影操作,得到融合后的静态点云数据;
33.根据所述三维标注框的位置信息对所述动态点云数据进行融合处理,得到融合后的动态点云数据;
34.对所述融合后的静态点云数据和所述融合后的动态点云数据进行叠加,得到叠加点云数据;
35.对所述叠加点云数据进行体素化操作,得到环境点云数据对应的初始稀疏标签。
36.在其中一个实施例中,所述预测类别数据是通过目标对象分类模型进行预测得到的;所述对象分类模型的训练过程包括:
37.获取环境点云数据样本集合;其中,所述环境点云数据样本集合包括若干环境点云数据样本,所述环境点云数据样本对应有初始稀疏标签以及环境图像样本;
38.将所述环境点云数据样本和所述环境图像样本输入至对象分类模型进行类别预测,得到所述环境点云数据样本对应的类别数据;
39.根据所述环境点云数据样本对应的类别数据以及初始稀疏标签对所述对象分类模型进行更新,以得到所述目标对象分类模型。
40.本发明提供一种空间语义占据标签生成装置,所述装置包括:
41.数据获取模块,用于获取车辆运行环境对应的环境点云数据和环境图像;其中,所述环境点云数据对应有初始稀疏标签;所述初始稀疏标签用于描述所述车辆运行环境中的对象的类别信息;
42.类别预测模块,用于基于所述环境点云数据和所述环境图像对所述车辆运行环境中的对象进行类别预测,得到预测类别数据,作为所述环境点云数据对应的伪标签;
43.稠密处理模块,用于通过所述伪标签对所述初始稀疏标签进行稠密处理,得到所述车辆运行环境对应的空间语义占据标签。
44.本发明提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一实施方式中所述的方法的步骤。
45.本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一实施方式中所述的方法的步骤。
46.上述空间语义占据标签生成方法,通过获取车辆运行环境对应的环境点云数据和环境图像;基于所述环境点云数据和所述环境图像对所述车辆运行环境中的对象进行类别预测,得到所述环境点云数据对应的伪标签,通过所述伪标签对环境点云数据对应的初始稀疏标签进行稠密处理,得到所述车辆运行环境对应的空间语义占据标签。通过伪标签对环境点云数据对应的初始稀疏标签进行稠密处理,以减少初始稀疏标签的稀疏性,得到更稠密更准确的空间语义占据标签。
47.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
48.图1a为本说明书实施方式提供的通过鸟瞰图表示法描述场景的平面图。
49.图1b为本说明书实施方式提供的通过体素表示法描述场景的三维空间结构。
50.图1c为本说明书实施方式提供的初始稀疏标签标注过程的流程示意图。
51.图2a为本说明书实施方式提供的空间语义占据标签生成方法的流程示意图。
52.图2b为本说明书实施方式提供的可视化处理后的初始稀疏标签。
53.图2c为本说明书实施方式提供的可视化处理后的空间语义占据标签。
54.图3a为本说明书实施方式提供的空间语义占据标签生成方法的流程示意图;
55.图3b为本说明书实施方式提供的对象分类模型的结构示意图。
56.图4为本说明书实施方式提供的空间语义占据标签生成方法的流程示意图。
57.图5为本说明书实施方式提供的空间语义占据标签生成方法的流程示意图。
58.图6为本说明书实施方式提供的空间语义占据标签生成方法的流程示意图。
59.图7a为本说明书实施方式提供的空间语义占据标签生成方法的流程示意图。
60.图7b为本说明书实施方式提供的待筛选标签投影到环境图像的示意图。
61.图7c为本说明书实施方式提供的待筛选标签投影到环境图像的示意图。
62.图7d为本说明书实施方式提供的待筛选标签投影到环境图像的示意图。
63.图7e为本说明书实施方式提供的空间语义占据标注结果示意图。
64.图7f为本说明书实施方式提供的在环境图像中需要标定的对象类别和颜色信息。
65.图7g为本说明书实施方式提供的保留人行道类别的伪标签和初始标签的示意图。
66.图8为本说明书实施方式提供的初始稀疏标签的生成方式的流程示意图。
67.图9为本说明书实施方式提供的对象分类模型的训练方式的流程示意图。
68.图10为本说明书实施方式提供的空间语义占据标签生成装置的结构示意图。
69.图11为本说明书实施方式提供的电子设备的结构示意图。
具体实施方式
70.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
71.相关技术中,自动驾驶系统通过感知模块感知周围环境,自主驾驶感知的方法可以采用鸟瞰图表示法。请参阅图1a,通过鸟瞰图表示法描述场景的平面信息。显而易见的是,虽然鸟瞰图表示法的效率比较高,但是鸟瞰图呈现的是单一平面,难以描述周围环境中的三维结构。
72.另外,自主驾驶感知的方法还可以体素表示法描述周围环境。请参阅图1b,通过体素表示法描述场景的三维空间结构。体素表示法能够为自动驾驶感知算法提供更加精细准确的路面结构、行人、车辆的等空间信息。
73.请参阅图1c,针对自动驾驶场景,可以采用semantickitti数据集(adataset for semantic scene understanding of lidar sequences,用于对lidar序列进行语义场景理解的数据集)以体素表示法描述三维场景的评测基准。具体过程包括以下步骤:
74.s102、输入的多帧点云确定为静止点云和动态点云。
75.具体地,由人工标注员将输入的多帧点云确定为静止点云(路面树木等)和动态点云(车、行人等)。
76.s104、将静止点云进行多帧融合。
77.具体地,假设现有n帧连续点云,标号为1~n,那么利用外参矩阵将点云2~n帧投影到第一帧的世界坐标系下。
78.s106、将动态点云进行多帧融合。
79.具体地,对于动态点云,由人工标定员确定1~n帧中每个物体的点云,然后逐步融合每个物体的点云。
80.s108、标注点云的语义信息。
81.具体地,在多帧融合的点云中,让人工标注员标注点云的语义信息(即物体的类别)。
82.s110、体素化处理标注后的点云。
83.具体地,点云的初始结构是(m,4),其中,m是点云数量,4等于点云的3维坐标和1维语义信息。体素化处理后得到的小方块的结构是(h,w,d,1),即(h,w,d)是立方体结构的长宽高,立方结构内的每个小方格都保留1维的语义信息。小方格内的语义信息可能是物体类别,也可能是“空”,即没有物体占据该小方格所在的空间。该立方体体素结构以及立方体体素结构对应的语义信息,可以生成对应的初始标签。需要说明的是,有该初始标签具有一定的稀疏性,也可以称为初始稀疏标签。
84.对上述初始稀疏标签的标注过程进行分析,可以发现,一方面,semantickitti数据集标注了22个片段,约9000帧,这对于大规模训练神经网络来说,模型训练需要更大量的标注。另一方面,上述标注策略依赖于点云的融合,比如外参投影或人工对齐,但是由于点云本身是稀疏的,这样会造成大量的空洞区域,比如一个空间区域原本是被物体占据的,但是由于点云没有扫射到该空间区域,所以该空间区域被误判为“空”,即初始稀疏标签有待稠密处理以提升标签准确性。
85.基于此,本说明书实施方式提供一种通过伪标签对环境点云数据对应的初始稀疏标签进行稠密处理的方式,以对环境点云数据的标注。具体地,获取车辆运行环境对应的环境点云数据和环境图像;基于环境点云数据和环境图像对车辆运行环境中的对象进行类别预测,得到环境点云数据对应的伪标签,通过伪标签对环境点云数据对应的初始稀疏标签进行稠密处理,得到车辆运行环境对应的空间语义占据标签。不仅可以减少标注员的标注工作,提升标注效率,而且可以减少初始稀疏标签的稀疏性,得到更稠密更准确的空间语义占据标签。
86.需要说明的是,本说明书实施方式中提及的车辆运行环境可以是车辆的360
°
环视环境,可以是车辆的前方视野环境,也可以是车辆尾部的环境,还可以是车辆周围指定区域(比如驾驶盲区)的环境,本说明书实施方式对此不做限定。车辆或者其他电子设备可以通过其包含的组件(包括硬件和软件),来实施该空间语义占据标签生成方法。
87.请参阅图2a,本说明书实施方式提供一种空间语义占据标签生成方法,该空间语义占据标签生成方法可以包括以下步骤:
88.s210、获取车辆运行环境对应的环境点云数据和环境图像。
89.其中,车辆运行环境可以是车辆驾驶时所处的周围环境,车辆运行环境的对象可以包括道路地面、行人、绿植、其他车辆等中至少一种。环境点云数据对应有初始稀疏标签。初始稀疏标签用于描述车辆运行环境中的对象的类别信息。
90.具体地,在一些实施方式中,车辆可以配置有感知模块,感知模块的传感器可以包括有摄像头(camera)、激光雷达(lidar)、毫米波雷达(radar)中的至少一个。通过摄像头可以获取到车辆运行环境对应的环境图像。通过激光雷达可以获取到车辆运行环境对应的环境点云数据。容易理解的是,环境图像对应二维空间,环境点云数据对应三维空间。在一些实施方式中,可以从一些公开的数据集中获取车辆运行环境对应的环境点云数据和环境图像,比如panoptic nuscenes数据集(a large-scale benchmark for lidar panoptic segmentation and tracking,一种用于lidar全景分割和跟踪的大规模基准)。panoptic nuscenes数据集提供的训练集和测试集有850个场景片段,共35000帧,每一帧对应标注有语义信息,以及每个对象对应有3d标注框。
91.s220、基于环境点云数据和环境图像对车辆运行环境中的对象进行类别预测,得到预测类别数据,作为环境点云数据对应的伪标签。
92.在一些情况下,由于环境点云数据的稀疏性,对环境点云数据进行标注对应产生的初始稀疏标签也具有一定稀疏性,因此,为了提升标签的准确性,需要对环境点云数据对应的初始稀疏标签进行稠密化,在稠密处理之前,需要确定用于稠密处理初始稀疏标签的伪标签。
93.具体地,在一些实施方式中,由于车辆运行环境中的对象的特征蕴含在车辆运行
环境对应的环境点云数据和环境图像。因此,一方面,可以对车辆运行环境对应的环境点云数据进行特征提取,并基于提取得到的特征进行类别预测,得到对应的第一预测数据。另一方面,也可以基于车辆运行环境对应的环境图像进行类别预测,得到对应的第二预测数据。最后,综合考虑第一预测数据和第二预测数据,可以根据对应的置信度或者预设处理规则进行加权处理,得到能够作为伪标签的预测类别数据。
94.在又一些实施方式中,由于车辆运行环境对应的环境点云数据是三维数据,因此对车辆运行环境对应的环境点云数据进行特征提取可以得到三维数据特征。而车辆运行环境对应的环境图像是二维数据,因此可以考虑将二维数据转换为对应的三维空间数据,对转换得到的三维空间数据进行特征提取同样可以得到三维数据特征。将环境点云数据对应的三维数据特征、环境图像对应的三维数据特征进行融合,并基于融合后的三维数据特征进行预测,得到能够作为伪标签的预测类别数据。
95.s230、通过伪标签对初始稀疏标签进行稠密处理,得到车辆运行环境对应的空间语义占据标签。
96.在一些情况下,请参阅图2b,图2b展示的是可视化处理后的初始稀疏标签。可视化的初始稀疏标签具有一些空洞202,可见初始稀疏标签具有一定的稀疏性,需要利用伪标签对初始稀疏标签进行稠密处理。因此,伪标签对初始稀疏标签进行补充,处理后的初始稀疏标签即为空间语义占据标签,实现对初始稀疏标签的稠密化。请参阅图2c,图2c展示的是可视化处理后的空间语义占据标签,可见,伪标签已经填补了初始稀疏标签中的空洞。
97.具体地,通过对车辆运行环境中的对象进行类别预测,得到环境点云数据对应的伪标签。针对车辆运行环境中的任一类别的对象,该任一类别的对象对应有伪标签和初始稀疏标签,可以利用该任一类别的对象对应的伪标签对该初始稀疏标签中的空洞进行填充,以对初始稀疏标签进行稠密处理,得到车辆运行环境对应的空间语义占据标签。
98.示例性地,关于体素化处理后得到的立方体结构中的方格,其对应有一维的语义信息,且语义信息可以是对象类别,也可以是空。针对立方体结构中的任一方格,对应初始化标签可以是对象类别或者空,对应伪标签也可以是对象类别或者空。伪标签对应有置信度,保留置信度超过预设置信度阈值的伪标签对初始稀疏标签进行稠密处理,预设置信度阈值可以结合实际情况设置,比如可以设置为0.8。示例性地说明伪标签对初始稀疏标签稠密处理的方式。针对任一方格,若任一方格对应初始化标签时为空,而对应伪标签时为对象类别a,则确定该任一方格对应对象类别a;若任一方格对应初始化标签时为对象类别a,而对应伪标签时为对象类别b,则确定该任一方格对应对象类别a;若任一方格对应初始化标签时为对象类别a,而对应伪标签时为空,则确定该任一方格对应对象类别a。
99.需要说明的是,在一些情况下,由于伪标签是通过机器学习算法进行预测得到的,伪标签会存在一定的噪声,因此当任一方格对应初始化标签的对象类别与该任一方格对应伪标签的对象类别不同,且任一方格对应初始化标签的对象类别不为空时,以该任一方格对应初始化标签的对象类别为准,不对其进行更改。当任一方格对应初始化标签的对象类别为空时,为了对初始化标签对应的空洞进行填充,则利用该任一方格对应伪标签的对象类别填充,实现对该任一方格对应的空洞的占据。
100.上述空间语义占据标签生成方法中,通过获取车辆运行环境对应的环境点云数据和环境图像;基于环境点云数据和环境图像对车辆运行环境中的对象进行类别预测,得到
环境点云数据对应的伪标签,通过伪标签对环境点云数据对应的初始稀疏标签进行稠密处理,得到车辆运行环境对应的空间语义占据标签。不仅可以减少标注员的标注工作,提升标注效率,而且可以减少初始稀疏标签的稀疏性,得到更稠密更准确的空间语义占据标签。
101.在一些实施方式中,请参阅图3a,基于环境点云数据和环境图像对车辆运行环境中的对象进行类别预测,得到预测类别数据,可以包括以下步骤:
102.s310、根据环境点云数据进行三维卷积处理,得到环境点云数据对应的三维点云特征。
103.其中,卷积处理用于从环境点云数据中提取车辆运行环境对应的有用特征。具体地,可以利用三维卷积核对环境点云数据进行稀疏卷积处理,以提取到环境点云数据对应的三维点云特征;也可以利用三维卷积核对环境点云数据进行稠密卷积处理,以提取到环境点云数据对应的三维点云特征;还可以对环境点云数据进行体素化处理,对体素化后的环境点云数据进行卷积处理,以提取到环境点云数据对应的三维点云特征。
104.s320、根据环境图像进行特征提取和投影,得到环境图像对应的三维图像特征。
105.具体地,由于环境图像是二维图像,缺少深度信息,为了从环境图像中提取到对应的三维图像特征,因此,首先从环境图像中进行特征提取,并对提取到的图像特征投影到三维空间中,得到环境图像对应的三维图像特征。
106.s330、基于三维点云特征和三维图像特征对车辆运行环境中的对象进行类别预测,得到预测类别数据。
107.具体地,对三维点云特征和三维图像特征进行融合,得到融合后的三维特征,基于融合后的三维特征对车辆运行环境中的对象进行类别预测,得到能够作为伪标签的预测类别数据。
108.示例性地,通过对象分类模型对环境点云数据和车辆环视图像进行类别预测。其中,车辆环视图像可以是对车辆360度进行图像采集得到的环境图像。请参阅图3b,图3b示意性地示出对象分类模型的模型结构。对象分类模型包括第一分支302、第二分支304、与第一分支302和第二分支304分别连接的特征融合模块306、与特征融合模块306连接的三维卷积模块308、与三维卷积模块308连接的分类器310。其中,第一分支302包括体素化模块、稀疏卷积模块,第二分支304包括特征提取模块、特征投影模块。第一分支302的卷积模块以及第二分支304特征投影模块分别与特征融合模块306连接。
109.请继续参阅图3b,输入环境点云数据(n,3)至对象分类模型中,通过体素化模块对环境点云数据(n,3)进行体素化处理,得到环境体素数据(512,512,40,c1),通过稀疏卷积模块对环境体素数据(512,512,40,c1)进行卷积处理,得到对应的三维体素特征(128,128,10,c2)。请继续参阅图3b,输入车辆环视图像(6,h,w,3)至对象分类模型中,通过特征提取模块对车辆环视图像(6,h,w,3)进行二维特征处理,得到环视图像特征(6,h/8,w/8,3),通过特征投影模块对环视图像特征进行投影处理,得到对应的三维图像特征(128,128,10,c2)。
110.请继续参阅图3b,将三维体素特征(128,128,10,c2)和三维图像特征(128,128,10,c2)传输至特征融合模块306进行特征融合,得到融合后体素特征(128,128,10,2*c2)。通过三维卷积模块308对融合后体素特征(128,128,10,2*c2)进行特征提取,得到体素特征(128,128,10,c4)。将体素特征(128,128,10,c4)输入至分类器中,得到预测类别数据(128,
128,10,17)。可以理解的是,分类器本质为3d卷积,通过分类器将特征维度压缩为17,17可以理解为需要分类的类别数量。
111.上述实施方式中,通过融合环境点云数据对应的三维点云特征以及环境图像对应的三维图像特征,并基于融合后的三维特征对车辆运行环境中的对象进行类别预测,得到预测类别数据,为填充初始化标签准备数据基础。
112.在一些实施方式中,请参阅图4,根据环境点云数据进行卷积处理,得到环境点云数据对应的三维点云特征,可以包括以下步骤:
113.s410、对环境点云数据进行体素化处理,得到环境体素数据。
114.s420、通过三维稀疏卷积对环境体素数据进行特征提取,得到三维点云特征。
115.具体地,可以结合环境点云数据对应的三维坐标,将环境点云数据划分至若干三维矩阵形式的体素块,以对点云数据进行过滤,实现环境点云数据的预处理,并保持环境点云数据的完整性。通过对环境点云数据进行体素化处理,得到环境体素数据。利用三维稀疏卷积对环境体素数据进行卷积操作,得到三维体素特征,作为环境点云数据对应的三维点云特征。
116.上述实施方式中,通过对环境点云数据进行体素化处理,得到环境体素数据,实现对环境点云数据的预处理,并进一步地对环境体素数据进行卷积处理,得到能够准确描述环境点云数据的三维点云特征。
117.在一些实施方式中,请参阅图5,根据环境图像进行特征提取和投影,得到环境图像对应的三维图像特征,可以包括以下步骤:
118.s510、对环境图像进行特征提取,得到环境图像的二维图像特征。
119.s520、根据二维图像特征对应的二维深度图、拍摄环境图像的拍摄设备的内外参数,将二维图像特征投影到三维空间,得到三维图像特征。
120.其中,通过拍摄设备对车辆周围环境的至少部分进行拍摄,得到环境图像。环境图像中的每个像素点可以理解成车辆周围环境空间中某点到拍摄设备中心的一条射线,仅利用图像不能确定任一像素点具体来自射线上哪个位置,即环境图像丢失深度信息,所以需要恢复环境图像的深度信息。对环境图像进行特征提取和深度估计,得到环境图像的二维图像特征以及二维图像特征对应的二维深度图。示例性地,可以通过lss(lss:lift,splat,shoot)算法恢复环境图像中的深度信息,得到二维图像特征对应的二维深度图。
121.进一步地,可以预先对拍摄设备进行标定,得到拍摄设备的内外参数。根据二维深度图和拍摄设备的内外参数将二维图像特征投影到三维空间(3d空间)中,得到三维图像特征。
122.上述实施方式中,通过基于环境图像得到环境图像对应的三维图像特征,使得环境点云数据和环境图像的特征数据维度一致,可以实现环境点云数据和环境图像的特征融合,利于提升伪标签的准确性,提高伪标签对初始稀疏标签的稠密化结果。
123.在一些实施方式中,请参阅图6,基于三维点云特征和三维图像特征对车辆运行环境中的对象进行类别预测,得到预测类别数据,可以包括以下步骤:
124.s610、对三维点云特征和三维图像特征进行拼接,得到三维拼接特征。
125.s620、对三维拼接特征进行卷积处理,得到对应的三维融合特征。
126.s630、基于三维融合特征对车辆运行环境中的对象进行类别预测,得到预测类别
数据。
127.如前文,通过基于环境点云数据进行卷积处理,已经得到环境点云数据对应的三维点云特征(h,w,d,c1),通过基于环境图像进行特征提取和投影,已经得到环境图像对应的三维图像特征(h,w,d,c2),为了提升伪标签的准确性,将环境点云数据对应的三维点云特征(h,w,d,c1)与环境图像对应的三维图像特征(h,w,d,c2)进行特征融合。具体地,将三维点云特征(h,w,d,c1)和三维图像特征(h,w,d,c2)在特征层面上进行拼接,得到三维融合特征(h,w,d,c1+c2)。利用三维卷积核对三维融合特征(h,w,d,c1+c2)进行融合特征的提取,并基于提取到的融合特征输入至分类器进行类别预测,得到预测类别数据(h,w,d,n+1)。其中,n为车辆周围环境对象的类别数量,1对应为“空”的标签。
128.上述实施方式中,通过环境点云数据和环境图像的特征融合提升伪标签的准确性,进一步地提高伪标签对初始稀疏标签的稠密化结果。
129.在一些实施方式中,请参阅图7a,通过伪标签对初始稀疏标签进行稠密处理,得到车辆运行环境对应的空间语义占据标签,可以包括以下步骤:
130.s710、通过伪标签对初始稀疏标签进行补充处理,得到环境点云数据对应的稠密后的待筛选标签。
131.s720、根据投影到环境图像中的待筛选标签,确定被保留的待筛选标签。
132.s730、基于被保留的待筛选标签,确定空间语义占据标签。
133.在一些情况下,由于伪标签是基于环境点云数据和环境图像进行预测得到的,会存在一些噪声,因此利用伪标签对初始稀疏标签进行稠密处理,得到的空间语义占据标签需要进一步地优化。
134.具体地,通过融合伪标签对初始稀疏标签,可以得到更加稠密的待筛选标签。为了提升空间语义占据标签的准确性,需要对待筛选标签进一步筛选。因此,请参阅图7b、图7c、图7d,将待筛选标签投影到环境图像中,基于投影情况在待筛选标签中确定准确的标签,即可被保留,得到被保留的待筛选标签。将最终被保留的待筛选标签作为空间语义占据标签。示例性地,请参阅图7e,图7e所示为空间语义占据标注结果示意图。
135.需要说明的是,可以采用不同的颜色在环境图像中表示不同的对象类别。示例性地,不同对象类别采用不同的rgb值进行表示。环境图像中存在的对象类别包括噪声、障碍物、自行车、公交车、小车、建筑、摩托车、行人、交通路障、拖车、卡车、可行驶区域、其他平面、人行道、地形、人造物、绿植中的至少一个。示例性地,请参阅图7f,图7f所示为在环境图像中需要标定的对象类别和颜色信息。
136.上述实施方式中,通过对环境点云数据对应的稠密后的待筛选标签进行筛选,保留下来准确的标签,以确定空间语义占据标签。在对初始稀疏标签稠密化的基础上,进一步地提升标签的准确性,为自动驾驶感知算法提供更加精细准确的路面结构、行人、车辆等空间信息。
137.在一些实施方式中,根据投影到环境图像中的待筛选标签,确定被保留的待筛选标签,包括:响应于对任一类别的待筛选标签的选择操作,将选择的任一类别的待筛选标签投影到环境图像;在接收到针对任一类别的待筛选标签的保留操作的情况下,确定任一类别的待筛选标签为被保留的待筛选标签。
138.为了减少人工标注的工作量,本实施方式中可以逐类别判断待筛选标签是否需要
保留或者删除。具体地,针对任一类别的待筛选标签,标注操作界面上可以显示不同对象类别,以及在不同对象类别的对应位置处设置有是否显示控件。示例性地,若任一对象类别的是否显示控件处于不可显示状态,响应于对是否显示控件的点击操作,则选择该任一对象类别的待筛选标签为需要投影到环境图像的筛选标签,将选择的该任一类别的待筛选标签投影到环境图像,若该任一类别的待筛选标签质量满足预设质量要求,则保留该任一类别的待筛选标签。示例性地,请参阅图7g,图7g所示为保留人行道类别的伪标签和初始标签。
139.上述实施方式中,通过逐个将单个类别的待筛选标签投影至环视图像上,实现对标签的可视化辅助标定,直观地展示待筛选标签,便于标注员审核展示的待筛选标签,以确定是否保留展示的待筛选标签,降低了标注工作的难度,提升了标注效率。
140.在一些实施方式中,环境点云数据对应有车辆运行环境中的对象的三维标注框和对象语义信息;请参阅图8,初始稀疏标签的生成方式,可以包括以下步骤:
141.s810、根据三维标注框和对象语义信息在环境点云数据中确定动态点云数据和静态点云数据。
142.s820、基于静态点云数据进行投影操作,得到融合后的静态点云数据。
143.s830、根据三维标注框的位置信息对动态点云数据进行融合处理,得到融合后的动态点云数据。
144.s840、对融合后的静态点云数据和融合后的动态点云数据进行叠加,得到叠加点云数据。
145.s850、对叠加点云数据进行体素化操作,得到环境点云数据对应的初始稀疏标签。
146.具体地,panoptic nuscenes数据集包括有多帧环境点云数据。每一帧环境点云数据对应标注有对象语义信息,以及每个对象对应有3d标注框。对象语义信息可以描述车辆运行环境中的对象的类别。由于不同类别的对象具有不同的运动状态,因此可以根据对象语义信息判断车辆运行环境中的对象对应的点云数据为静态点云数据或者动态点云数据。进一步的,也可以根据三维标注框的位置信息确定车辆运行环境中的对象处于静止状态或者运动状态。比如,类别为自行车、公交车、小车、摩托车、行人、拖车、卡车中任一对象的点云数据为动态点云数据。类别为建筑、交通路障、可行驶区域、其他平面、人行道、人造物、绿植中任一对象的点云数据为静态点云数据。针对多帧静态点云数据,可以按照点云的外参将除当前帧之外的其它帧静态点云数据分别投影到当前帧,进行多帧静态点云数据的融合,得到融合后的静态点云数据。针对多帧动态点云数据,按照三维标注框的位置信息进行多帧动态点云数据的融合,得到融合后的动态点云数据。或者说,把动态点云数据分别投影到对应的3d标注框内并进行融合。进一步地,融合后的静态点云数据和融合后的动态点云数据进行叠加,得到叠加点云数据。最后对叠加点云数据进行体素化操作,得到环境点云数据对应的初始稀疏标签。
147.上述实施方式中,通过生成环境点云数据对应的初始稀疏标签,为最终生成空间语义占据标签提供数据准备。
148.在一些实施方式中,预测类别数据是通过目标分类模型进行预测得到的。请参阅图9,对象分类模型的训练过程可以包括以下步骤:
149.s910、获取环境点云数据样本集合。
150.其中,环境点云数据样本集合包括若干环境点云数据样本,环境点云数据样本对
应有初始稀疏标签以及环境图像样本。具体地,可以从一些公开的数据集中,获取车辆运行环境对应的环境点云数据和环境图像,以构建环境点云数据样本集合。也可以通过感知设备对车辆运行环境进行数据采集,得到对应的环境点云数据和环境图像,以构建环境点云数据样本集合。
151.s920、将环境点云数据样本和环境图像样本输入至对象分类模型进行类别预测,得到环境点云数据样本对应的类别数据。
152.其中,对象分类模型包括第一分支、第二分支、与第一分支和第二分支分别连接的特征融合模块、与特征融合模块连接的三维卷积模块、与三维卷积模块连接的分类器。
153.具体地,通过第一分支对环境图像样本进行特征提取和投影,得到环境图像样本对应的三维图像特征。通过第二分支对环境点云数据样本进行三维卷积处理,得到环境点云数据样本对应的三维点云特征。通过特征融合模块对环境图像样本对应的三维图像特征、环境点云数据样本对应的三维点云特征进行特征融合,得到融合后体素特征,将融合后体素特征输入至分类器中,得到环境点云数据样本对应的类别数据。
154.s930、根据环境点云数据样本对应的类别数据以及初始稀疏标签对对象分类模型进行更新,以得到目标对象分类模型。
155.具体地,根据环境点云数据样本对应的类别数据以及初始稀疏标签确定损失数据,根据损失数据对对象分类模型进行参数更新,得到更新后的对象分类模型。在得到更新后的对象分类模型重复执行模型训练过程,直至满足模型停止条件,以得到目标对象分类模型。
156.在一些实施方式中,本说明书实施方式提供一种空间语义占据标签生成方法,该空间语义占据标签生成方法可以包括以下步骤:
157.s1002、获取车辆运行环境对应的环境点云数据和环境图像。
158.其中,环境点云数据对应有车辆运行环境中的对象的三维标注框和对象语义信息。
159.s1004、根据三维标注框和对象语义信息在环境点云数据中确定动态点云数据和静态点云数据。
160.s1006、基于静态点云数据进行投影操作,得到融合后的静态点云数据。
161.s1008、根据三维标注框的位置信息对动态点云数据进行融合处理,得到融合后的动态点云数据。
162.s1010、对融合后的静态点云数据和融合后的动态点云数据进行叠加,得到叠加点云数据。
163.s1012、对叠加点云数据进行体素化操作,得到环境点云数据对应的初始稀疏标签。
164.其中,初始稀疏标签用于描述车辆运行环境中的对象的类别信息。
165.s1014、根据环境点云数据进行卷积处理,得到环境点云数据对应的三维点云特征。
166.具体地,对环境点云数据进行体素化处理,得到环境体素数据;通过三维稀疏卷积对环境体素数据进行特征提取,得到三维点云特征。
167.s1016、根据环境图像进行特征提取和投影,得到环境图像对应的三维图像特征。
168.具体地,对环境图像进行特征提取,得到环境图像的二维图像特征;根据二维图像特征对应的二维深度图、拍摄环境图像的拍摄设备的内外参数,将二维图像特征投影到三维空间,得到三维图像特征。
169.s1018、基于三维点云特征和三维图像特征对车辆运行环境中的对象进行类别预测,得到预测类别数据,作为环境点云数据对应的伪标签。
170.具体地,对三维点云特征和三维图像特征进行拼接,得到三维拼接特征;对三维拼接特征进行卷积处理,得到对应的三维融合特征;基于三维融合特征对车辆运行环境中的对象进行类别预测,得到预测类别数据。
171.s1020、通过伪标签对初始稀疏标签进行补充处理,得到环境点云数据对应的稠密后的待筛选标签。
172.s1022、响应于对任一类别的待筛选标签的选择操作,将选择的任一类别的待筛选标签投影到环境图像。
173.s1024、在接收到针对任一类别的待筛选标签的保留操作的情况下,确定任一类别的待筛选标签为被保留的待筛选标签。
174.s1026、基于被保留的待筛选标签,确定空间语义占据标签。
175.请参阅图10,本说明书实施方式提供一种空间语义占据标签生成装置1000,该空间语义占据标签生成装置1000包括数据获取模块1010、类别预测模块1020、稠密处理模块1030。
176.数据获取模块1010,用于获取车辆运行环境对应的环境点云数据和环境图像;其中,所述环境点云数据对应有初始稀疏标签;所述初始稀疏标签用于描述所述车辆运行环境中的对象的类别信息;
177.类别预测模块1020,用于基于所述环境点云数据和所述环境图像对所述车辆运行环境中的对象进行类别预测,得到预测类别数据,作为所述环境点云数据对应的伪标签;
178.稠密处理模块1030,用于通过所述伪标签对所述初始稀疏标签进行稠密处理,得到所述车辆运行环境对应的空间语义占据标签。
179.关于空间语义占据标签生成装置的具体限定可以参见上文中对于空间语义占据标签生成方法的限定,在此不再赘述。上述空间语义占据标签生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
180.在一些实施方式中,提供了一种电子设备,该电子设备可以是终端,其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种空间语义占据标签生成方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球
或触控板,还可以是外接的键盘、触控板或鼠标等。
181.本领域技术人员可以理解,图11中示出的结构,仅仅是与本说明书所公开方案相关的部分结构的框图,并不构成对本说明书所公开方案所应用于其上的电子设备的限定,具体地,电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
182.在一些实施方式中,提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述实施方式中的方法步骤。
183.在一些实施方式中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施方式中的方法步骤。
184.在一些实施方式中,还提供一种计算机程序产品,所述计算机程序产品中包括指令,上述指令可由电子设备的处理器执行时实现上述实施方式中的方法步骤。
185.本领域普通技术人员可以理解实现上述实施方式方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施方式的流程。其中,本说明所提供的各实施方式中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
186.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
187.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
188.在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
189.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
技术特征:
1.一种空间语义占据标签生成方法,其特征在于,所述方法包括:获取车辆运行环境对应的环境点云数据和环境图像;其中,所述环境点云数据对应有初始稀疏标签;所述初始稀疏标签用于描述所述车辆运行环境中的对象的类别信息;基于所述环境点云数据和所述环境图像对所述车辆运行环境中的对象进行类别预测,得到预测类别数据,作为所述环境点云数据对应的伪标签;通过所述伪标签对所述初始稀疏标签进行稠密处理,得到所述车辆运行环境对应的空间语义占据标签。2.根据权利要求1所述的方法,其特征在于,所述基于所述环境点云数据和所述环境图像对所述车辆运行环境中的对象进行类别预测,得到预测类别数据,包括:根据所述环境点云数据进行卷积处理,得到所述环境点云数据对应的三维点云特征;根据所述环境图像进行特征提取和投影,得到所述环境图像对应的三维图像特征;基于所述三维点云特征和所述三维图像特征对所述车辆运行环境中的对象进行类别预测,得到所述预测类别数据。3.根据权利要求2所述的方法,其特征在于,所述根据所述环境点云数据进行卷积处理,得到所述环境点云数据对应的三维点云特征,包括:对所述环境点云数据进行体素化处理,得到环境体素数据;通过三维稀疏卷积对所述环境体素数据进行特征提取,得到所述三维点云特征。4.根据权利要求2所述的方法,其特征在于,所述根据所述环境图像进行特征提取和投影,得到所述环境图像对应的三维图像特征,包括:对所述环境图像进行特征提取,得到所述环境图像的二维图像特征;根据所述二维图像特征对应的二维深度图、拍摄所述环境图像的拍摄设备的内外参数,将所述二维图像特征投影到三维空间,得到所述三维图像特征。5.根据权利要求2所述的方法,其特征在于,所述基于所述三维点云特征和所述三维图像特征对所述车辆运行环境中的对象进行类别预测,得到所述预测类别数据,包括:对所述三维点云特征和所述三维图像特征进行拼接,得到三维拼接特征;对所述三维拼接特征进行卷积处理,得到对应的三维融合特征;基于所述三维融合特征对所述车辆运行环境中的对象进行类别预测,得到所述预测类别数据。6.根据权利要求1至5任一项所述的方法,其特征在于,所述通过所述伪标签对所述初始稀疏标签进行稠密处理,得到所述车辆运行环境对应的空间语义占据标签,包括:通过所述伪标签对所述初始稀疏标签进行补充处理,得到所述环境点云数据对应的稠密后的待筛选标签;根据投影到所述环境图像中的待筛选标签,确定被保留的待筛选标签;基于被保留的待筛选标签,确定所述空间语义占据标签。7.根据权利要求6所述的方法,其特征在于,所述根据投影到所述环境图像中的待筛选标签,确定被保留的待筛选标签,包括:响应于对任一类别的待筛选标签的选择操作,将选择的所述任一类别的待筛选标签投影到所述环境图像;在接收到针对所述任一类别的待筛选标签的保留操作的情况下,确定所述任一类别的
待筛选标签为被保留的待筛选标签。8.根据权利要求1所述的方法,其特征在于,所述环境点云数据对应有所述车辆运行环境中的对象的三维标注框和对象语义信息;所述初始稀疏标签的生成方式,包括:根据所述三维标注框和所述对象语义信息在所述环境点云数据中确定动态点云数据和静态点云数据;基于所述静态点云数据进行投影操作,得到融合后的静态点云数据;根据所述三维标注框的位置信息对所述动态点云数据进行融合处理,得到融合后的动态点云数据;对所述融合后的静态点云数据和所述融合后的动态点云数据进行叠加,得到叠加点云数据;对所述叠加点云数据进行体素化操作,得到环境点云数据对应的初始稀疏标签。9.根据权利要求1所述的方法,其特征在于,所述预测类别数据是通过目标对象分类模型进行预测得到的;所述对象分类模型的训练过程包括:获取环境点云数据样本集合;其中,所述环境点云数据样本集合包括若干环境点云数据样本,所述环境点云数据样本对应有初始稀疏标签以及环境图像样本;将所述环境点云数据样本和所述环境图像样本输入至对象分类模型进行类别预测,得到所述环境点云数据样本对应的类别数据;根据所述环境点云数据样本对应的类别数据以及初始稀疏标签对所述对象分类模型进行更新,以得到所述目标对象分类模型。10.一种空间语义占据标签生成装置,其特征在于,所述装置包括:数据获取模块,用于获取车辆运行环境对应的环境点云数据和环境图像;其中,所述环境点云数据对应有初始稀疏标签;所述初始稀疏标签用于描述所述车辆运行环境中的对象的类别信息;类别预测模块,用于基于所述环境点云数据和所述环境图像对所述车辆运行环境中的对象进行类别预测,得到预测类别数据,作为所述环境点云数据对应的伪标签;稠密处理模块,用于通过所述伪标签对所述初始稀疏标签进行稠密处理,得到所述车辆运行环境对应的空间语义占据标签。11.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
技术总结
本发明公开了一种空间语义占据标签生成方法、装置、电子设备及存储介质,通过获取车辆运行环境对应的环境点云数据和环境图像;基于所述环境点云数据和所述环境图像对所述车辆运行环境中的对象进行类别预测,得到所述环境点云数据对应的伪标签,通过所述伪标签对环境点云数据对应的初始稀疏标签进行稠密处理,得到所述车辆运行环境对应的空间语义占据标签。通过伪标签对环境点云数据对应的初始稀疏标签进行稠密处理,以减少初始稀疏标签的稀疏性,得到更稠密更准确的空间语义占据标签。得到更稠密更准确的空间语义占据标签。得到更稠密更准确的空间语义占据标签。
技术研发人员:王啸峰 徐文博 朱政 张云鹏 都大龙 叶云 黄冠
受保护的技术使用者:北京鉴智科技有限公司
技术研发日:2023.03.09
技术公布日:2023/7/19
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
