一种目标自动标注方法、装置和车辆与流程
未命名
07-23
阅读:103
评论:0
1.本发明涉及自动驾驶技术领域,尤其涉及一种目标自动标注方法、装置和车辆。
背景技术:
2.随着人工智能的发展,自动驾驶技术成为最热门的发展方向。激光三维(3-dimensional,3d)目标检测模块是自动驾驶技术的核心模块。激光3d目标检测模块是将激光雷达拍摄的三维点云输入到神经网络(neural network,nn)模型,让nn模型对三维点云的目标进行标注,以实现检测出三维点云的各个目标。nn模型对三维点云标注的准确性直接影响着自动驾驶技术的安全性。如何高效、低成本地提高nn模型对三维点云标注的准确性是目前亟需解决的问题。
技术实现要素:
3.为了解决上述的问题,本技术的实施例中提供了一种目标自动标注方法,利用多模态mvf算法对三维点云和普通图像进行融合,得到的三维点云的目标的检测框更为准确。在得到三维点云的各个目标的检测框的属性信息后,再对各个属性信息进行校正,进一步提高三维点云的目标的检测框的准确性。另外,本技术还提供了与该规则重组的方法对应的装置和车辆。
4.为此,本技术的实施例中采用如下技术方案:
5.第一方面,本技术提供一种目标自动标注方法,包括:获取至少一个激光雷达的三维点云和至少一个摄像头的图像;将所述至少一个激光雷达的三维点云与所述至少一个摄像头的图像输入至多模态多视图融合模型,得到三维点云的各个目标的检测框;所述多模态多视图融合模型用于将同一时刻的图像的特征叠加在三维点云的目标特征、并对叠加后的三维点云进行标注得到目标的检测框;所述检测框是指标注出三维点云中的目标的框。
6.在该实施方式中,多模态mvf模型将普通图像的特征融合在三维点云,可以弥补三维点云缺少的纹理和色彩,让三维点云的各个目标的特征更加凸显,并提高三维点云的各个目标的检测框的准确性。同时,相比较mvf模型,多模态mvf模型的网络参数量更大,获取的三维点云的目标特征更准确。
7.在一种实施方式中,所述将所述至少一个激光雷达的三维点云与所述至少一个摄像头的图像输入至多模态多视图融合模型,得到三维点云的各个目标的检测框,具体包括:对所述至少一个激光雷达的三维点云与所述至少一个摄像头的图像的视角进行旋转和/或平移操作。
8.在该实施方式中,多模态mvf模型对激光雷达获取三维点云的视角和摄像头获取普通图像的视角进行旋转、平移等操作,让多模态mvf模型对激光雷达获取三维点云的视角和摄像头获取普通图像的视角处于同一个位置。多模态mvf模型让视角相同位置的普通图像的特征叠加在三维点云,可以避免普通图像的特征与三维点云错位,造成三维点云的各个目标混乱。
9.在一种实施方式中,所述将所述至少一个激光雷达的三维点云与所述至少一个摄像头的图像输入至多模态多视图融合模型,得到三维点云的各个目标的检测框,具体包括:将所述至少一个激光雷达的三维点云分别划分成多个子三维点云;将同一时刻的相同位置的图像的特征分别叠加在子三维点云的目标特征;对叠加后的各个子三维点云进行标注,得到所述三维点云的各个目标的检测框。
10.在该实施方式中,多模态mvf模型可以将三维点云划分成多个子三维点云,然后将不同的子三维点云分区到不同的检测器,让各个检测器只针对具体区域进行检测,提升了单个区域检测器的专一性。分区检测的方式可以变成更大的网络,可以减小voxel大小、增大特征图、以及增大网络参数,从而以提高检测框的准确性。
11.在一种实施方式中,目标的检测框的属性信息包括giou,所述giou表示检测框与地面实况框的重合度大小,所述方法还包括:检测同一个位置的目标的检测框的数量是否大于1;响应于所述同一个位置的目标的检测框的数量大于1,将giou数值最大的目标的检测框作为所述同一个位置的目标的检测框。
12.在该实施方式中,多模态mvf模型划分的子三维点云在三维点云的位置重叠时,可能在相同位置输出多个目标,出现重叠现象。多模态mvf模型输出的检测框的属性信息还包括giou。多模态mvf模型基于同一个位置的多个检测框的giou,取giou较大的3d检测框作为真实检测框,并输出该检测框,实现除去重复的目标。
13.在一种实施方式中,目标的检测框的属性信息包括目标的尺寸,所述方法还包括:对所述三维点云的各个目标的检测框的尺寸的长边、宽边和高度增大。
14.在该实施方式中,多模态mvf模型对三维点云的各个目标的检测框的尺寸的长边、宽边和高度增大,避免检测框没有全部包括目标的全部三维点云。如果多模态mvf模型从检测框中抠取出目标的三维点云时,目标的三维点云会缺失,导致车辆自动标注目标的准确性降低。
15.在一种实施方式中,目标的检测框的属性信息包括目标的朝向,所述方法还包括:将多个帧的三维点云的各个目标的检测框进行拼接,得到所述各个目标的运动轨迹;利用朝向优化网络,校正所述各个目标的运动轨迹的不同帧的目标的朝向。
16.在该实施方式中,多模态mvf模型将多个帧的三维点云的同一目标的检测框拼接的运动轨迹,再对各个多模态mvf模型检测框的朝向进行平滑处理,校正变化大的检测框的朝向,让同一目标的检测框拼接的运动轨迹更为平滑。
17.在一种实施方式中,所述方法还包括:将多个帧的三维点云的各个目标的检测框进行拼接,得到所述各个目标的运动轨迹;将所述各个目标的运动轨迹的不同帧的检测框设置为相同尺寸。
18.在该实施方式中,多模态mvf模型将多个帧的三维点云的同一目标的检测框拼接成运动轨迹,再将多个检测框的尺寸设置为相同的尺寸,使同一目标在所有帧都有相同尺寸,让同一目标的检测框拼接的运动轨迹更为平滑。
19.在一种实施方式中,所述将所述各个目标的运动轨迹的不同帧的检测框设置为相同尺寸,包括:获取车道线信息,所述车道线信息指示车辆所处的道路的车道线;检测目标是否处在所述车辆的相邻的设定数量的车道中;响应于所述目标处在所述车辆的相邻的设定数量的车道中,将所述目标的运动轨迹的不同帧的检测框的最大尺寸作为所述目标的运
动轨迹的不同帧的检测框的尺寸;响应于所述目标不处在所述车辆的相邻的设定数量的车道中,将所述目标的运动轨迹的不同帧的检测框投影在所述目标的运动轨迹上的最大长度作为所述目标的运动轨迹的不同帧的检测框的尺寸。
20.在一种实施方式中,所述方法还包括:响应于所述目标的运动轨迹的不同帧的检测框的尺寸大于设定尺寸,将所述目标的运动轨迹的不同帧的检测框的尺寸设置为所述设定尺寸。
21.在该实施方式中,多模态mvf模型得到的检测框的尺寸可能过大,导致目标的运动轨迹的各个检测框的三维点云比较大,增加了处理器的工作量。多模态mvf模型可以预先设定一个目标的运动轨迹的各个检测框的预设尺寸,将检测框的尺寸限制在预设尺寸内,避免占用处理过多的计算资源。
22.在一种实施方式中,目标的检测框的属性信息包括目标的中心位置,所述方法还包括:将多个帧的三维点云的各个目标的检测框进行拼接,得到所述各个目标的运动轨迹;利用中心点优化网络,校正所述各个目标的运动轨迹的不同帧的目标的中心位置。
23.在该实施方式中,多模态mvf模型将多个帧的三维点云的同一目标的检测框拼接的运动轨迹,再对各个多模态mvf模型检测框的中心位置进行平滑处理,校正变化大的检测框的中心位置,让同一目标的检测框拼接的运动轨迹更为平滑。
24.在一种实施方式中,所述方法还包括:将车道线信息输入至多模态多视图融合模型,得到基于车道线的三维点云的各个目标的检测框;目标的检测框的属性信息包括置信度,所述置信度为检测框是真实目标的可能性;响应于所述基于车道线的三维点云的各个目标的检测框的置信度大于设定阈值,输出置信度大于所述设定阈值的三维点云的目标的检测框。
25.在该实施方式中,多模态mvf模型基于三维点云、普通图像和车道线信息,得到的各个目标的检测框的置信度更高,让低置信度的目标可以认定为真实目标,避免车辆漏检目标。
26.第二方面,本技术提供一种目标自动标注装置,包括:收发单元,用于获取至少一个激光雷达的三维点云和至少一个摄像头的图像;处理单元,用于将所述至少一个激光雷达的三维点云与所述至少一个摄像头的图像输入至多模态多视图融合模型,得到三维点云的各个目标的检测框;所述多模态多视图融合模型用于将同一时刻的图像的特征叠加在三维点云的目标特征、并对叠加后的三维点云进行标注得到目标的检测框;所述检测框是指标注出三维点云中的目标的框。
27.在一种实施方式中,所述处理单元,还用于对所述至少一个激光雷达的三维点云与所述至少一个摄像头的图像的视角进行旋转和/或平移操作。
28.在一种实施方式中,所述处理单元,还用于将所述至少一个激光雷达的三维点云分别划分成多个子三维点云;将同一时刻的相同位置的图像的特征分别叠加在子三维点云的目标特征;对叠加后的各个子三维点云进行标注,得到所述三维点云的各个目标的检测框。
29.在一种实施方式中,目标的检测框的属性信息包括giou,所述giou表示检测框与地面实况框的重合度大小,所述处理单元,还用于检测同一个位置的目标的检测框的数量是否大于1;响应于所述同一个位置的目标的检测框的数量大于1,将giou数值最大的目标
的检测框作为所述同一个位置的目标的检测框。
30.在一种实施方式中,目标的检测框的属性信息包括目标的尺寸,所述处理单元,还用于对所述三维点云的各个目标的检测框的尺寸的长边、宽边和高度增大。
31.在一种实施方式中,目标的检测框的属性信息包括目标的朝向,所述处理单元,还用于将多个帧的三维点云的各个目标的检测框进行拼接,得到所述各个目标的运动轨迹;利用朝向优化网络,校正所述各个目标的运动轨迹的不同帧的目标的朝向。
32.在一种实施方式中,所述处理单元,还用于将多个帧的三维点云的各个目标的检测框进行拼接,得到所述各个目标的运动轨迹;将所述各个目标的运动轨迹的不同帧的检测框设置为相同尺寸。
33.在一种实施方式中,所述处理单元,具体用于获取车道线信息,所述车道线信息指示车辆所处的道路的车道线;检测目标是否处在所述车辆的相邻的设定数量的车道中;响应于所述目标处在所述车辆的相邻的设定数量的车道中,将所述目标的运动轨迹的不同帧的检测框的最大尺寸作为所述目标的运动轨迹的不同帧的检测框的尺寸;响应于所述目标不处在所述车辆的相邻的设定数量的车道中,将所述目标的运动轨迹的不同帧的检测框投影在所述目标的运动轨迹上的最大长度作为所述目标的运动轨迹的不同帧的检测框的尺寸。
34.在一种实施方式中,所述处理单元,还用于响应于所述目标的运动轨迹的不同帧的检测框的尺寸大于设定尺寸,将所述目标的运动轨迹的不同帧的检测框的尺寸设置为所述设定尺寸。
35.在一种实施方式中,目标的检测框的属性信息包括目标的中心位置,所述处理单元,还用于将多个帧的三维点云的各个目标的检测框进行拼接,得到所述各个目标的运动轨迹;利用中心点优化网络,校正所述各个目标的运动轨迹的不同帧的目标的中心位置。
36.在一种实施方式中,所述处理单元,还用于将车道线信息输入至多模态多视图融合模型,得到基于车道线的三维点云的各个目标的检测框;目标的检测框的属性信息包括置信度,所述置信度为检测框是真实目标的可能性;响应于所述基于车道线的三维点云的各个目标的检测框的置信度大于设定阈值,输出置信度大于所述设定阈值的三维点云的目标的检测框。
37.第三方面,本技术提供一种车辆,包括:至少一个激光雷达,用于采集所述车辆周围环境的三维点云;至少一个摄像头,用于采集所述车辆周围环境的图像;处理器,与所述至少一个激光雷达和所述至少一个摄像头连接,执行如第一方面的各个可能实现的方法。
38.第四方面,本技术提供一种计算设备,包括:至少一个存储器,至少一个处理器,所述至少一个处理器用于执行所述至少一个存储器中存储的指令,以使得所述计算设备执行如第一方面的各个可能实现的方法。
39.第五方面,本技术提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序在计算机中执行时,令计算机执行如第一方面的各个可能实现的实施例。
40.第六方面,本技术提供一种计算机程序产品,所述计算机程序产品存储有指令,所述指令在由计算机执行时,使得所述计算机实现如第一方面的各个可能实现的实施例。
附图说明
41.下面对实施例或现有技术描述中所需使用的附图作简单地介绍。
42.图1为激光3d目标检测模块对目标进行标注的结果示意图;
43.图2为本技术实施例中提供的一种车辆的架构示意图;
44.图3为本技术实施例中提供的多模态mvf模型对目标进行自动标注的过程示意图
45.图4为本技术实施例中提供的三维点云划分出多个检测区域的示意图;
46.图5(a)为本技术实施例中提供的没有优化的同一个目标的运动轨迹的多个3d检测框的朝向的示意图;
47.图5(b)为本技术实施例中提供的优化后的同一个目标的运动轨迹的多个3d检测框的朝向的示意图;
48.图6为本技术实施例提供的同一目标的多个帧的3d检测框的尺寸优化流程示意图
49.图7为本技术实施例中提供的优化前后的同一个目标的运动轨迹的多个3d检测框的中心位置的示意图;
50.图8为本技术实施例中提供的一种目标自动标注装置的架构示意图。
具体实施方式
51.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。
52.本文中术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。本文中符号“/”表示关联对象是或者的关系,例如a/b表示a或者b。
53.本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一响应消息和第二响应消息等是用于区别不同的响应消息,而不是用于描述响应消息的特定顺序。
54.在本技术实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
55.在本技术实施例的描述中,除非另有说明,“多个”的含义是指两个或者两个以上,例如,多个处理单元是指两个或者两个以上的处理单元等;多个元件是指两个或者两个以上的元件等。
56.自动驾驶技术一般部署在车辆上。车辆上安装有激光雷达、相机等数据采集设备。车辆的处理器与数据采集设备建立通信连接,接收数据采集设备的信息,以获取三维点云、图像等。车辆的处理器运行激光3d目标检测模块,检测出车辆周围的车辆、行人等障碍物。
57.图1为激光3d目标检测模块对目标进行标注的结果示意图。如图1所示,立体框为激光3d目标检测模块对三维点云的目标进行标注的结果。激光3d目标检测模块用已有的3d标注数据训练nn模型,对需要标注的每一帧三维点云进行目标检测等一系列处理,得到每一帧三维点云的目标的3d检测框。3d检测框的属性信息包括有目标的中心位置(x,y,z)、目标的大小(l,w,h)、目标的朝向(heading)、目标的类别(car,truck,cyclist,pedestrian)和目标的关联身份标识号(identity document,id)。
58.激光3d目标检测模块训练nn模型的数据是基于特定的激光雷达、激光雷达固定于车辆的特定位置等参数。如果激光雷达的型号变化、激光雷电固定于车辆的位置变化等情况下,激光3d目标检测模块需要重新训练nn模型,以实现nn模型对变化后的激光雷达采集的三维点云进行标注。激光雷达固定于车辆的位置、朝向等参数容易发生变化,导致激光3d目标检测模块检测目标的准确性降低。
59.车辆的处理器对三维点云的目标进行标注的过程中,先由nn模型进行自动标注,然后将标注后的三维点云显示在车辆的显示屏上。用户可以基于自己观察到的车辆周围环境,对显示屏显示的3d检测框进行校正,以提高车辆的自动驾驶技术的安全性。如果车辆的处理器标注的准确性比较低,用户需要校正的目标比较多,导致用户对车辆的可靠性不信任。
60.为了提高现有自动驾驶技术的自动标注的准确性,本技术实施例提供了一种车辆、目标自动标注方法和装置。
61.图2为本技术实施例中提供的一种车辆的架构示意图。如图2所示,车辆200包括数据采集组件210、存储器220、处理器230和总线240。数据采集组件210、处理器220和处理器230分别通过总线240进行通信连接,进行数据传输。
62.数据采集组件210可以为激光雷达、摄像头、超声波雷达或其它设备,用于采集车辆200周围的环境数据和地面道路的数据。本技术中,数据采集组件210为激光雷达和摄像头。激光雷达用于采集车辆200周围环境的三维点云。摄像头用于采集车辆200周围环境的普通图像。车辆200包括有多个激光雷达和多个摄像头。多个激光雷达和多个摄像头分别固定于车辆200的不同位置。
63.存储器220可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,ram)等。存储器220也可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,rom)、快闪存储器、硬盘(hard disk drive,hdd)、固态硬盘(solid state drive,ssd)等。存储器201可以为云服务器,可以为包括上述各种存储器的组合。本技术中,存储器220可以作为缓存数据库,用于存储数据采集组件210采集的数据。存储器220用于存储处理器230运行的应用程序,让处理器230可以执行目标自动标注方法。存储器220用于存储处理器230处理的图像、三维点云、3d检测框的属性信息等数据。存储器220还可以具有其它功能,本技术在此不作限定。
64.处理器230可以是中央处理器(central processing unit,cpu)、微处理单元(microcontroller unit,mcu)、域控制器(domain controller,dc)或其它具有处理功能的器件,还可以为云服务器。处理器230用于通过总线240接收数据采集组件210的数据,执行目标自动标注方法。
65.本技术中,处理器230可以接收激光雷达的三维点云和摄像头的普通图像,并将激光雷达的三维点云和摄像头的普通图像输入到多模态多视图融合(multi-view fusion,mvf)模型,以获取三维点云的3d检测框的属性信息。检测框是指标注出三维点云中的目标的框。3d检测框是指标注出三维点云中的目标3d结构的框。
66.在一个实施例中,激光雷达为多个时,处理器230可以将多个激光雷达的三维点云拼接成一个完整的三维点云。
67.在一个实施例中,摄像头为多个时,处理器230可以将多个摄像头的普通图像拼接
成一个完整的普通图像。
68.mvf算法是利用不同视图间的差异性和互补性的信息进行融合,得到车辆200的周围环境的三维点云,并对三维点云的目标进行标注,获取三维点云的各个目标的3d检测框。多模态mvf算法是将其它类型图像的特征叠加在三维点云的目标特征,再对叠加后的三维点云进行标注,获取目标的3d检测框。
69.本技术中,处理器230可以接收激光雷达不断地发送的三维点云和摄像头不断地发送的普通图像,将三维点云和普通图像输入到多模态mvf模型。多模态mvf模型是指可以运行多模态mvf算法的模块。多模态mvf模型可以将同一时刻的一帧普通图像的特征叠加在一帧三维点云的目标特征,可以让三维点云的各个目标的特征更加凸显。
70.多模态mvf模型对叠加后的三维点云进行目标标注,获取三维点云的各个目标的3d检测框,并输出各个目标的3d检测框的属性信息。3d检测框是指三维点云上的目标所在的三维点云。多模态mvf模型输出的目标的3d检测框的属性信息不仅包括目标的中心位置(x,y,z)、目标的尺寸(l,w,h)、目标的朝向(heading)、目标的类型(car,truck,cyclist,pedestrian)和目标的id,还包括giou和置信度(score)。giou表示3d检测框与地面实况(ground truth,gt)框的重合度大小,是衡量3d检测框的质量的一个指标。giou数值越大,说明3d检测框与gt框的重合度越大。置信度(score)为检测框是真实目标的可能性,是存在性的一个衡量。
71.在一个实施例中,多模态mvf模型接收到普通图像后,可以利用图像特征提取算法提取普通图像的特征,以获取普通图像中的各个目标。
72.在一个实施例中,多模态mvf模型对激光雷达获取三维点云的视角和摄像头获取普通图像的视角进行旋转、平移等操作,让多模态mvf模型对激光雷达获取三维点云的视角和摄像头获取普通图像的视角处于同一个位置。多模态mvf模型让视角相同位置的普通图像的特征叠加在三维点云,可以避免普通图像的特征与三维点云错位,造成三维点云的各个目标混乱。
73.图3为本技术实施例中提供的多模态mvf模型对目标进行自动标注的过程示意图。如图3所示,处理器230将三维点云和普通图像输入到多模态mvf模型。多模态mvf模型的逐点特征提取(point-wise feature fetching)单元分别对三维点云和普通图像进行特征提取,以获取三维点云的目标特征和普通图像的特征。多模态mvf模型的多视角特征栅格化(multi-view voxelization)单元将三维点云的目标特征按照设定方式叠加成一个立体特征,以及将普通图像的特征按照设定方式叠加成一个立体特征。特征检测器(encoder)进一步将三维点云的目标特征与图像特征在鸟眼视角(bird’s eye view,bev)上叠加,形成多模态特征。多模态mvf模型的3d backbone在得到的多模态立体特征的基础上进一步提取适合于3d检测的特征。多模态mvf模型的区域生成网络(region proposal network,rpn)输出目标的标注,得到各个目标的3d检测框。多模态mvf模型的头部(head)单元、回归(regression)单元和giou单元可以提取3d检测框的各种属性信息。
74.相比较mvf模型,多模态mvf模型将普通图像的特征融合在三维点云,可以弥补三维点云缺少的纹理和色彩,让三维点云的各个目标的特征更加凸显,并提高三维点云的各个目标的置信度。同时,相比较mvf模型,多模态mvf模型的网络参数量更大,获取的三维点云的目标特征更准确。
75.多模态mvf模型的网络参数量增大后,处理器230检测三维点云的核心区域可能减小。三维点云的核心区域是指车辆周围设定距离内的区域。本技术中,处理器230可以基于多模态mvf模型,提出分区多模态mvf模型。分区多模态mvf模型可以将三维点云划分成多个检测区域,再分别对多个检测区域的子三维点云的目标进行自动标注。分区多模态mvf模型将三维点云划分成多个检测区域,不会减小处理器230检测的核心区域,甚至可能增大处理器230检测的核心区域。
76.在一个实施例中,处理器230可以将普通图像和三维点云输入到分区多模态mvf模型。分区多模态mvf模型检测三维点云的核心区域,可以按照设定规则将三维点云的关键范围划分成多个检测区域,得到多个子三维点云。分区多模态mvf模型将多个子三维点云分配到不同分区的检测器。检测器检测出子三维点云的特征,并基于子三维点云,获取相同位置的普通图像的特征。分区多模态mvf模型让相同位置的普通图像的特征叠加在子三维点云的特征,得到叠加后的子三维点云对应的多模态特征。分区多模态mvf模型对叠加后的子三维点云的多模态特征目标进行标注,以获取叠加后的子三维点云的3d检测框。分区多模态mvf模型依次对其它的叠加后的子三维点云的目标进行标注,获取其它叠加后的子三维点云的3d检测框,并输出所有的三维点云的3d检测框。
77.分区多模态mvf模型划分的多个子三维点云在三维点云可以相互部分重叠。如图4所示,分区多模态mvf模型将三维点云的关键范围划分成四个检测区域,得到四个子三维点云,分别为子三维点云1、子三维点云2、子三维点云3和子三维点云4。其中,子三维点云2的部分区域与子三维点云1的部分区域重叠。子三维点云2的部分区域与子三维点云3的部分区域重叠。子三维点云3的部分区域与子三维点云4的部分区域重叠。
78.分区多模态mvf模型划分的子三维点云在三维点云的位置重叠时,可能在相同位置输出多个目标,出现重叠现象。分区多模态mvf模型输出的3d检测框的属性信息还包括giou。分区多模态mvf模型基于同一个位置的多个3d检测框的giou,取giou较大的3d检测框作为真实3d检测框,并输出该3d检测框,实现除去重复的目标。
79.相比较多模态mvf模型,分区多模态mvf模型可以将三维点云划分成多个子三维点云,然后将不同的子三维点云分区到不同的检测器,让各个检测器只针对具体区域进行检测,提升了单个区域检测器的专一性。分区检测的方式可以变成更大的网络,可以减小voxel大小、增大特征图、以及增大网络参数,从而以提高3d检测框的准确性。
80.处理器230不断地接收激光雷达的三维点云和摄像头的普通图像,获取每一帧的三维点云的各个目标对应的3d检测框。处理器230可以利用一个基线的三维多目标跟踪(a baseline for 3d multi object tracking,3d abmot)算法对处理已得到的多个帧的各个目标对应的3d检测框进行跟踪,得到每个目标的运动轨迹。
81.本技术实施例中,处理器230可以获取车辆采集的三维点云和普通图像,并基于多模态mvf算法或分区多模态mvf算法对三维点云的目标特征和普通图像的特征进行叠加。多模态mvf算法或分区多模态mvf算法对叠加后的三维点云进行标记,得到的目标对应的3d检测框更为准确。
82.处理器230得到三维点云的3d检测框后,3d检测框的属性信息可能存在误差,例如目标的尺寸(l,w,h)可能存在偏差、目标的朝向(heading)可能存在偏差、不同帧的同一目标的尺寸(l,w,h)可能不相同、目标的中心位置(x,y,z)可能存在偏差、目标的类型(car,
truck,cyclist,pedestrian)识别错误、漏检目标等问题。处理器230可以基于各种类型的校正算法,对d检测框的各个属性信息进行矫正,以提高3d检测框的属性信息的准确性。
83.3d检测框的尺寸偏小、3d检测框的位置偏离目标的位置,3d检测框不能包括目标的全部三维点云。处理器230从3d检测框中抠取出目标的三维点云时,目标的三维点云会缺失,导致车辆200自动标注目标的准确性降低。
84.本技术中,处理器230可以对3d检测框的尺寸扩大,让3d检测框包含更多的三维点云,以确保3d检测框可以包含目标的所有的三维点云。在一个实施例中,处理器230扩大3d检测框的尺寸(l,w,h)时,对3d检测框的尺寸(l,w,h)乘以设定系数k,得到的检测框的尺寸为(k
×
l,k
×
w,k
×
h)。k为大于1的正数。优选地,k为等于1.5。
85.处理器230扩大3d检测框的尺寸后,可以识别出扩大后的3d检测框中的目标的三维点云,并从3d检测框中抠取出目标的三维点云。在一个实施例中,处理器230可以利用前景分割网络,获取扩大后的3d检测框内部的前景点,并从3d检测框中抠取出前景点。前景点为属于目标的三维点云。可选地,前景分割网络可以为point net,或其它网络。
86.处理器230获取多个帧的三维点云的3d检测框的属性信息后,可以将多个帧的三维点云的同一目标的3d检测框拼接在一起,以获取同一目标的3d检测框的运动轨迹。在一个实施例中,多个帧的三维点云的同一目标的3d检测框的朝向变化比较大,多个帧的三维点云的同一目标的3d检测框拼接后的运动轨迹可能不平滑。本技术中,处理器230将多个帧的三维点云的同一目标的3d检测框拼接的运动轨迹,再对各个3d检测框的朝向进行平滑处理,校正变化大的3d检测框的朝向,让同一目标的3d检测框拼接的运动轨迹更为平滑。
87.在一个实施例中,处理器230可以利用朝向优化网络,对多个帧的3d检测框的朝向进行优化,将变化比较大的3d检测框的朝向约束在目标朝向变化的趋势中。示例性地,处理器230将同一个目标的两个帧的3d检测框的朝向输入到朝向优化网络,朝向优化网络获取两个帧的3d检测框的朝向优化值loss,为:
[0088][0089]
其中,α表示角度分类loss权重,β表示角度残差loss权重,γ表示角度平滑loss权重,t表示当前帧,s表示所选的所有帧的最大跨度,lcls表示分类loss,lreg表示残差loss,lfit表示平滑loss。公式(1)的第一项为常用的角度回归multi-bin loss的角度分类,第二项为回归的朝向的残差loss,第三项为平滑约束项。第三项的朝向优化值loss,为:
[0090][0091]
其中,x和y为所有3d检测框的一个相同角点。f()为角点的三次拟合函数。平滑约束项用于拟合误差,衡量两个3d检测框的相同一个角点的平滑性。loss值越小,目标的运动轨迹越平滑。
[0092]
本技术中,处理器230将同一个目标的多个帧的目标的3d检测框拼接成目标的运动轨迹。如图5(a)所示,处理器230正常拼接的同一个目标的运动轨迹并不平滑。如图5(b)所示,处理器230对多个帧的目标的3d检测框的朝向进行校正后,同一个目标的运动轨迹比较平滑。由此可见,处理器230可以对目标的3d检测框的朝向一一进行校正,效果十分明显。
[0093]
处理器230将同一个目标的多个帧的3d检测框拼接在一起时,多个帧的3d检测框的尺寸可能不相同,会导致同一个目标在多个帧中的3d检测框的大小并不相同。实际的目
标标注中,必须要求相同目标在不同帧是具有相同的尺寸。本技术中,处理器230将多个帧的三维点云的同一目标的3d检测框拼接成运动轨迹,再将多个3d检测框的尺寸设置为相同的尺寸,使同一目标在所有帧都有相同尺寸。
[0094]
图6为本技术实施例提供的同一目标的多个帧的3d检测框的尺寸优化流程示意图。如图6所示,处理器230对同一目标的多个帧的3d检测框的尺寸进行优化的过程,具体如下:
[0095]
步骤s601,处理器230获取目标的运动轨迹和车道线信息。
[0096]
车道线信息是指车辆200所处的道路的车道线。本技术中,车辆200的存储器220存储有高精度地图。车辆200设置有定位模块。车辆200在行驶过程中,可以基于车辆200的位置和高精度地图,获取车辆200当前道路的设定范围内的车道线。
[0097]
在一个实施例中,处理器230获取车辆200当前道路的车道线后,对车道线的视角进行旋转、平移等操作,让多模态mvf模型对激光雷达获取三维点云的视角、摄像头获取普通图像的视角和车道线的视角处于同一个位置。
[0098]
步骤s602,处理器230检测目标是否在车辆200相邻的设定数量的车道中。当处理器230检测目标处在车辆200相邻的设定数量的车道中,执行步骤s603。当处理器230检测目标不处在车辆200相邻的设定数量的车道中,执行步骤s604。
[0099]
车辆200行驶在道路时,与车辆200距离较近的车辆、行人等障碍物会影响车辆200行驶策略。与车辆200距离较远的障碍物不会影响车辆200行驶策略,或者影响程度比较小。车辆200通过激光雷达获取三维点云时,与车辆200距离较近的障碍物在三维点云上显示清晰,与车辆200距离较远的障碍物在三维点云上显示不清晰或者不全面。有基于上述两个因素,车辆200只需要检测车辆200距离较近的目标。
[0100]
步骤s603,处理器230将目标的运动轨迹中多个3d检测框的最大尺寸作为目标的3d检测框的标准尺寸。
[0101]
步骤s604,处理器230基于目标的运动轨迹和目标的3d检测框的三维点云,确定出目标的3d检测框的有效尺寸。
[0102]
处理器230可以基于三维点云的多个目标的运动轨迹与车辆200当前道路的车道线,获取处在车辆200两侧设定数量的车道上的目标的运动轨迹。优选地,设定数量可以为两个车道。处理器230可以基于目标的运动轨迹的各个3d检测框的尺寸,将目标的运动轨迹的最大尺寸的3d检测框的尺寸作为标准尺寸。处理器230可以将目标的运动轨迹的各个3d检测框的尺寸设置标准尺寸。
[0103]
处理器230获取没有处在车辆200两侧设定数量的车辆上的目标的运动轨迹,并基于该目标在不同帧的3d检测框的三维点云,将不同帧的3d检测框的三维点云投影到目标的运动轨迹的对应检测框的边长的直线上,并将目标的运动轨迹的对应检测框的边长的直线上的最远距离的投影点之间距离作为有效尺寸。处理器230可以将目标的运动轨迹的各个3d检测框的尺寸设置有效尺寸。
[0104]
步骤s605,处理器230判断标准尺寸或有效尺寸是否大于设定尺寸。当处理器230确定标准尺寸或有效尺寸大于设定尺寸,执行步骤s606。当处理器230确定标准尺寸或有效尺寸不大于设定尺寸,执行步骤s607。
[0105]
步骤s606,处理器230将目标的运动轨迹的各个3d检测框的尺寸设置为设定尺寸。
[0106]
步骤s607,处理器230将目标的运动轨迹的各个3d检测框的尺寸设置为标准尺寸或有效尺寸。
[0107]
处理器230得到的标准尺寸和有效尺寸可能过大,导致目标的运动轨迹的各个3d检测框的三维点云比较大,增加了处理器230的工作量。处理器230可以预先设定一个目标的运动轨迹的各个3d检测框的预设尺寸。在一个实施例中,处理器230得到的标准尺寸大于预设尺寸,可以将处在车辆200两侧设定数量的车辆上的目标的运动轨迹的各个3d检测框的尺寸设置预设尺寸。在一个实施例中,处理器230得到的标准尺寸不大于预设尺寸,可以将处在车辆200两侧设定数量的车辆上的目标的运动轨迹的各个3d检测框的尺寸设置标准尺寸。
[0108]
在一个实施例中,处理器230得到的有效尺寸大于预设尺寸,可以将没有处在车辆200两侧设定数量的车辆上的目标的运动轨迹的各个3d检测框的尺寸设置预设尺寸。在一个实施例中,处理器230得到的有效尺寸不大于预设尺寸,可以将没有处在车辆200两侧设定数量的车辆上的目标的运动轨迹的各个3d检测框的尺寸设置有效尺寸。
[0109]
处理器230对目标进行自动标注时,3d检测框的中心位置可能出现误差。处理器230将同一个目标的多个帧的3d检测框拼接在一起,得到同一个目标的多个3d检测框拼接的运动轨迹可能不平滑。本技术中,处理器230将多个帧的三维点云的同一目标的3d检测框拼接的运动轨迹,再对各个3d检测框的中心位置进行平滑处理,校正变化大的3d检测框的中心位置,让同一目标的3d检测框拼接的运动轨迹更为平滑。
[0110]
在一个实施例中,处理器230可以利用中心点优化网络,对多个帧的3d检测框的中心位置进行优化,将变化较大的3d检测框的中心位置约束在目标中心点变化的趋势中。示例性地,处理器230将同一个目标的两个帧的3d检测框的中心位置输入到中心点优化网络,中心点优化网络获取两个帧的3d检测框的中心点优化值loss,为:
[0111][0112]
其中,α表示中心点回归loss的权重,β表示重点方差的权重,t表示当前帧,s表示所选的所有帧的最大跨度,c表示中心点。公式(3)的第一项为常规的中心点的回归中心点优化值loss,第二项为改进的加入平滑约束。δ2为连续帧的中心点距离的方差,具体为:
[0113]
δ2=var(c
i-c
i-1
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0114]
其中,var表示去取方差。
[0115]
本技术中,处理器230将同一个目标的多个帧的目标的3d检测框拼接成目标的运动轨迹。如图7所示的深色框,处理器230正常拼接的同一个目标的运动轨迹并不平滑。如图7所示的浅色框,处理器230对多个帧的目标的3d检测框的中心位置进行校正后,目标的运动轨迹比较平滑。由此可见,处理器230可以对目标的3d检测框的中心位置一一进行校正,效果十分明显。
[0116]
本技术实施例中,处理器230基于多模态mvf算法或分区多模态mvf算法得到三维点云的目标对应的3d检测框后,可以基于各个目标的3d检测框的属性信息,对3d检测框的尺寸进行合理的增大、各个目标的运行轨迹的不同帧的3d检测框的朝向进行平滑处理、统一各个目标的运行轨迹的不同帧的3d检测框的尺寸、各个目标的运行轨迹的不同帧的3d检测框的中心位置进行平滑处理等操作,以进一步提高车辆200自动检测三维点云的3d检测框的准确性。
[0117]
处理器230完成自动标注目标后,仍出现目标检测错误、目标漏检时,处理器230可以基于车道线信息和普通图像的二维(2-dimensional,2d)检测结果,可以消除目标检测错误和目标漏检的问题。
[0118]
在一个实施例中,处理器230可以基于普通图像的2d检测结果与车辆200当前道路的车道线信息,获取处在车辆200两侧设定数量的车道上的目标。处理器230基于车辆200两侧设定数量的车道的目标与三维点云的3d检测框对应的目标进行比对。处理器230确定车辆200两侧设定数量的车道的目标不在三维点云的3d检测框对应的目标,可以将该目标定义为真实目标,并在三维点云上增加该目标对应的3d检测框。
[0119]
处理器230利用多模态mvf模型或分区多模态mvf模型进行目标自动标注时,可以一并输入三维点云、普通图像和车道线信息。多模态mvf模型或分区多模态mvf模型额外接收车道线信息,可以提高目标的3d检测框的置信度。
[0120]
通常情况,处理器230可以基于目标的3d检测框的置信度,判断该目标是否为真实目标。当目标的3d检测框的置信度低于设定阈值时,处理器230认定该目标为假目标,并滤除该目标的3d检测框。当目标的3d检测框的置信度不低于设定阈值时,处理器230认定该目标为真实目标。本技术中,多模态mvf模型或分区多模态mvf模型提高各个目标的3d检测框的置信度后,让低置信度的目标认定为真实目标,可以避免车辆200漏检目标。
[0121]
图8为本技术实施例中提供的一种目标自动标注装置的架构示意图。如图8所示,目标自动标注装置800包括收发单元801和处理单元802。目标自动标注装置800具体执行过程如下:
[0122]
收发单元801用于获取至少一个激光雷达的三维点云和至少一个摄像头的图像;处理单元802用于将至少一个激光雷达的三维点云与至少一个摄像头的图像输入至多模态多视图融合模型,得到三维点云的各个目标的检测框。多模态多视图融合模型用于将同一时刻的图像的特征叠加在三维点云的目标特征、并对叠加后的三维点云进行标注得到目标的检测框。检测框是指标注出三维点云中的目标的框。
[0123]
在一种实施方式中,处理单元802还用于对至少一个激光雷达的三维点云与至少一个摄像头的图像的视角进行旋转和/或平移操作。
[0124]
在一种实施方式中,处理单元802还用于将至少一个激光雷达的三维点云分别划分成多个子三维点云;将同一时刻的相同位置的图像的特征分别叠加在子三维点云的目标特征;对叠加后的各个子三维点云进行标注,得到三维点云的各个目标的检测框。
[0125]
在一种实施方式中,目标的检测框的属性信息包括giou。giou表示检测框与地面实况框的重合度大小。处理单元802还用于检测同一个位置的目标的检测框的数量是否大于1;响应于同一个位置的目标的检测框的数量大于1,将giou数值最大的目标的检测框作为同一个位置的目标的检测框。
[0126]
在一种实施方式中,目标的检测框的属性信息包括目标的尺寸。处理单元802还用于对三维点云的各个目标的检测框的尺寸的长边、宽边和高度增大。
[0127]
在一种实施方式中,目标的检测框的属性信息包括目标的朝向。处理单元802还用于将多个帧的三维点云的各个目标的检测框进行拼接,得到各个目标的运动轨迹;利用朝向优化网络,校正各个目标的运动轨迹的不同帧的目标的朝向。
[0128]
在一种实施方式中,处理单元802还用于将多个帧的三维点云的各个目标的检测
框进行拼接,得到各个目标的运动轨迹;将各个目标的运动轨迹的不同帧的检测框设置为相同尺寸。
[0129]
在一种实施方式中,处理单元802具体用于获取车道线信息,车道线信息指示车辆所处的道路的车道线;检测目标是否处在车辆的相邻的设定数量的车道中;响应于目标处在车辆的相邻的设定数量的车道中,将目标的运动轨迹的不同帧的检测框的最大尺寸作为目标的运动轨迹的不同帧的检测框的尺寸;响应于目标不处在车辆的相邻的设定数量的车道中,将目标的运动轨迹的不同帧的检测框投影在目标的运动轨迹上的最大长度作为目标的运动轨迹的不同帧的检测框的尺寸。
[0130]
在一种实施方式中,处理单元802还用于响应于所述目标的运动轨迹的不同帧的检测框的尺寸大于设定尺寸,将所述目标的运动轨迹的不同帧的检测框的尺寸设置为所述设定尺寸。
[0131]
在一种实施方式中,目标的检测框的属性信息包括目标的中心位置。处理单元802还用于将多个帧的三维点云的各个目标的检测框进行拼接,得到各个目标的运动轨迹;利用中心点优化网络,校正各个目标的运动轨迹的不同帧的目标的中心位置。
[0132]
在一种实施方式中,处理单元802还用于将车道线信息输入至多模态多视图融合模型,得到基于车道线的三维点云的各个目标的检测框;目标的检测框的属性信息包括置信度,置信度为检测框是真实目标的可能性;响应于基于车道线的三维点云的各个目标的检测框的置信度大于设定阈值,输出置信度大于设定阈值的三维点云的目标的检测框。
[0133]
本发明提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序在计算机中执行时,令计算机执行上述任一项方法。
[0134]
本发明提供一种计算设备,包括存储器和处理器,该存储器中存储有可执行代码,该处理器执行该可执行代码时,实现上述任一项方法。
[0135]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术实施例的范围。
[0136]
此外,本技术实施例的各个方面或特征可以实现的方法、装置或使用标准编程和/或工程技术的制品。本技术中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如,计算机可读介质可以包括,但不限于:磁存储器件(例如,硬盘、软盘或磁带等),光盘(例如,压缩盘(compact disc,cd)、数字通用盘(digital versatile disc,dvd)等),智能卡和闪存器件(例如,可擦写可编程只读存储器(erasable programmable read-only memory,eprom)、卡、棒或钥匙驱动器等)。另外,本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可包括但不限于,无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。
[0137]
在上述实施例中,目标自动标注装置800可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程
序指令时,全部或部分地产生按照本技术实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如,ssd)等。
[0138]
应当理解的是,在本技术实施例的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0139]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0140]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0141]
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0142]
该功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者接入网设备等)执行本技术实施例各个实施例该方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0143]
以上该,仅为本技术实施例的具体实施方式,但本技术实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术实施例的保护范围之内。
技术特征:
1.一种目标自动标注方法,其特征在于,包括:获取至少一个激光雷达的三维点云和至少一个摄像头的图像;将所述至少一个激光雷达的三维点云与所述至少一个摄像头的图像输入至多模态多视图融合模型,得到三维点云的各个目标的检测框;所述多模态多视图融合模型用于将同一时刻的图像的特征叠加在三维点云的目标特征、并对叠加后的三维点云进行标注得到目标的检测框;所述检测框是指标注出三维点云中的目标的框。2.根据权利要求1所述的方法,其特征在于,所述将所述至少一个激光雷达的三维点云与所述至少一个摄像头的图像输入至多模态多视图融合模型,得到三维点云的各个目标的检测框,具体包括:对所述至少一个激光雷达的三维点云与所述至少一个摄像头的图像的视角进行旋转和/或平移操作。3.根据权利要求1或2所述的方法,其特征在于,所述将所述至少一个激光雷达的三维点云与所述至少一个摄像头的图像输入至多模态多视图融合模型,得到三维点云的各个目标的检测框,具体包括:将所述至少一个激光雷达的三维点云分别划分成多个子三维点云;将同一时刻的相同位置的图像的特征分别叠加在子三维点云的目标特征;对叠加后的各个子三维点云进行标注,得到所述三维点云的各个目标的检测框。4.根据权利要求3所述的方法,其特征在于,目标的检测框的属性信息包括giou,所述giou表示检测框与地面实况框的重合度大小,所述方法还包括:检测同一个位置的目标的检测框的数量是否大于1;响应于所述同一个位置的目标的检测框的数量大于1,将giou数值最大的目标的检测框作为所述同一个位置的目标的检测框。5.根据权利要求1-4任意一项所述的方法,其特征在于,目标的检测框的属性信息包括目标的尺寸,所述方法还包括:对所述三维点云的各个目标的检测框的尺寸的长边、宽边和高度增大。6.根据权利要求1-5任意一项所述的方法,其特征在于,目标的检测框的属性信息包括目标的朝向,所述方法还包括:将多个帧的三维点云的各个目标的检测框进行拼接,得到所述各个目标的运动轨迹;利用朝向优化网络,校正所述各个目标的运动轨迹的不同帧的目标的朝向。7.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:将多个帧的三维点云的各个目标的检测框进行拼接,得到所述各个目标的运动轨迹;将所述各个目标的运动轨迹的不同帧的检测框设置为相同尺寸。8.根据权利要求7所述的方法,其特征在于,所述将所述各个目标的运动轨迹的不同帧的检测框设置为相同尺寸,包括:获取车道线信息,所述车道线信息指示车辆所处的道路的车道线;检测目标是否处在所述车辆的相邻的设定数量的车道中;
响应于所述目标处在所述车辆的相邻的设定数量的车道中,将所述目标的运动轨迹的不同帧的检测框的最大尺寸作为所述目标的运动轨迹的不同帧的检测框的尺寸;响应于所述目标不处在所述车辆的相邻的设定数量的车道中,将所述目标的运动轨迹的不同帧的检测框投影在所述目标的运动轨迹上的最大长度作为所述目标的运动轨迹的不同帧的检测框的尺寸。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:响应于所述目标的运动轨迹的不同帧的检测框的尺寸大于设定尺寸,将所述目标的运动轨迹的不同帧的检测框的尺寸设置为所述设定尺寸。10.根据权利要求1-9任意一项所述的方法,其特征在于,目标的检测框的属性信息包括目标的中心位置,所述方法还包括:将多个帧的三维点云的各个目标的检测框进行拼接,得到所述各个目标的运动轨迹;利用中心点优化网络,校正所述各个目标的运动轨迹的不同帧的目标的中心位置。11.根据权利要求1-10任意一项所述的方法,其特征在于,所述方法还包括:将车道线信息输入至多模态多视图融合模型,得到基于车道线的三维点云的各个目标的检测框;目标的检测框的属性信息包括置信度,所述置信度为检测框是真实目标的可能性;响应于所述基于车道线的三维点云的各个目标的检测框的置信度大于设定阈值,输出置信度大于所述设定阈值的三维点云的目标的检测框。12.一种目标自动标注装置,其特征在于,包括:收发单元,用于获取至少一个激光雷达的三维点云和至少一个摄像头的图像;处理单元,用于将所述至少一个激光雷达的三维点云与所述至少一个摄像头的图像输入至多模态多视图融合模型,得到三维点云的各个目标的检测框;所述多模态多视图融合模型用于将同一时刻的图像的特征叠加在三维点云的目标特征、并对叠加后的三维点云进行标注得到目标的检测框;所述检测框是指标注出三维点云中的目标的框。13.根据权利要求12所述的装置,其特征在于,所述处理单元,还用于对所述至少一个激光雷达的三维点云与所述至少一个摄像头的图像的视角进行旋转和/或平移操作。14.根据权利要求12或13所述的装置,其特征在于,所述处理单元,还用于将所述至少一个激光雷达的三维点云分别划分成多个子三维点云;将同一时刻的相同位置的图像的特征分别叠加在子三维点云的目标特征;对叠加后的各个子三维点云进行标注,得到所述三维点云的各个目标的检测框。15.根据权利要求14所述的装置,其特征在于,目标的检测框的属性信息包括giou,所述giou表示检测框与地面实况框的重合度大小,所述处理单元,还用于检测同一个位置的目标的检测框的数量是否大于1;响应于所述同一个位置的目标的检测框的数量大于1,将giou数值最大的目标的检测框作为所述同一个位置的目标的检测框。16.根据权利要求12-15任意一项所述的装置,其特征在于,目标的检测框的属性信息包括目标的尺寸,所述处理单元,还用于对所述三维点云的各个目标的检测框的尺寸的长边、宽边和高
度增大。17.根据权利要求12-16任意一项所述的装置,其特征在于,目标的检测框的属性信息包括目标的朝向,所述处理单元,还用于将多个帧的三维点云的各个目标的检测框进行拼接,得到所述各个目标的运动轨迹;利用朝向优化网络,校正所述各个目标的运动轨迹的不同帧的目标的朝向。18.根据权利要求12-17任意一项所述的装置,其特征在于,所述处理单元,还用于将多个帧的三维点云的各个目标的检测框进行拼接,得到所述各个目标的运动轨迹;将所述各个目标的运动轨迹的不同帧的检测框设置为相同尺寸。19.根据权利要求18所述的装置,其特征在于,所述处理单元,具体用于获取车道线信息,所述车道线信息指示车辆所处的道路的车道线;检测目标是否处在所述车辆的相邻的设定数量的车道中;响应于所述目标处在所述车辆的相邻的设定数量的车道中,将所述目标的运动轨迹的不同帧的检测框的最大尺寸作为所述目标的运动轨迹的不同帧的检测框的尺寸;响应于所述目标不处在所述车辆的相邻的设定数量的车道中,将所述目标的运动轨迹的不同帧的检测框投影在所述目标的运动轨迹上的最大长度作为所述目标的运动轨迹的不同帧的检测框的尺寸。20.根据权利要求19所述的装置,其特征在于,所述处理单元,还用于响应于所述目标的运动轨迹的不同帧的检测框的尺寸大于设定尺寸,将所述目标的运动轨迹的不同帧的检测框的尺寸设置为所述设定尺寸。21.根据权利要求12-20任意一项所述的装置,其特征在于,目标的检测框的属性信息包括目标的中心位置,所述处理单元,还用于将多个帧的三维点云的各个目标的检测框进行拼接,得到所述各个目标的运动轨迹;利用中心点优化网络,校正所述各个目标的运动轨迹的不同帧的目标的中心位置。22.根据权利要求12-21任意一项所述的装置,其特征在于,所述处理单元,还用于将车道线信息输入至多模态多视图融合模型,得到基于车道线的三维点云的各个目标的检测框;目标的检测框的属性信息包括置信度,所述置信度为检测框是真实目标的可能性;响应于所述基于车道线的三维点云的各个目标的检测框的置信度大于设定阈值,输出置信度大于所述设定阈值的三维点云的目标的检测框。23.一种车辆,其特征在于,包括:至少一个激光雷达,用于采集所述车辆周围环境的三维点云;至少一个摄像头,用于采集所述车辆周围环境的图像;处理器,与所述至少一个激光雷达和所述至少一个摄像头连接,执行如权利要求1-11任意一项所述的方法。24.一种计算设备,其特征在于,包括:至少一个存储器,至少一个处理器,所述至少一个处理器用于执行所述至少一个存储器中存储的指令,以使得所述计算设备执行如权利要求1-11任意一项所述的方法。
技术总结
一种目标自动标注方法,获取至少一个激光雷达的三维点云和至少一个摄像头的图像,并将至少一个激光雷达的三维点云与至少一个摄像头的图像输入至多模态MVF模型,得到三维点云的各个目标的检测框。本申请中,多模态MVF算法利用不同类型的视图的差异性和互补性,将三维点云和普通图像融合,得到的三维点云的各个目标的检测框的属性信息更为准确。多模态MVF算法将同一时刻的普通图像的特征叠加在三维点云的目标特征,让三维点云的各个目标的特征更加凸显,获取的三维点云的目标特征更准确。获取的三维点云的目标特征更准确。获取的三维点云的目标特征更准确。
技术研发人员:李志刚 白宇材 郭景明 周小鹏 杨臻
受保护的技术使用者:华为技术有限公司
技术研发日:2023.03.10
技术公布日:2023/7/22
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
