一种离线三维物体检测方法及系统与流程

未命名 08-15 阅读：77 评论：0

1.本发明总的来说涉及三维物体检测技术领域。具体而言，本发明涉及一种离线三维物体检测方法及系统。

背景技术：

2.自动驾驶是指让汽车在没有人类干预的情况下，根据路况和目的地自主行驶的技术。为了实现这一目标，自动驾驶汽车需要能够感知周围的环境，识别出道路、车辆、行人、障碍物等物体，并根据它们的位置、速度、形状等信息做出合理的决策和控制。3d物体检测是指利用传感器(如相机、雷达、激光等)获取三维空间中物体的信息，如类别、位置、姿态、尺寸等。3d物体检测是自动驾驶感知的重要组成部分，它可以提供更丰富和准确的物体信息，有助于提高自动驾驶汽车的安全性和效率。
3.然而，在实际应用中，自动驾驶和3d物体检测面临着许多挑战和需求。一方面，由于道路环境复杂多变，物体种类繁多，物体间存在遮挡和交互等情况，3d物体检测需要具备高精度和鲁棒性。另一方面，由于自动驾驶汽车需要实时响应周围情况，3d物体检测需要具备高效率和低延迟。为了满足这些要求，自动驾驶感知模型需要不断地进行数据驱动的持续迭代。
4.现有的自动驾驶感知模型依赖数据驱动的持续迭代模式，为了提供足够多高质量的标注数据，昂贵的人工成本和缓慢的标注效率变得不容忽视。因此，离线3d物体检测算法通常遵循模块化的管道设计，利用来自传感器的整段序列数据(例如视频或序列点云数据)，致力于开发高质量的“自动标注”，旨在减少3d检测任务中点云标注的人力成本，促进自动驾驶感知模型性能发展。
5.随着技术的不断迭代发展，涌现出了许多专注于开发复杂的模块以更好地利用时序数据上下文特征的在线检测算法，这些算法大大优于此前的在线和离线3d检测算法，相较于这些算法，此前的离线3d检测算法的算法架构和模式太弱，无法学习长序列点云的复杂表征。然而，目前最先进的离线3d物体检测算法中仍存在下列问题阻碍其全部潜力：在线多目标跟踪器无法生成足够完整的目标轨迹；物体的运动状态对于以物体为中心的优化模型来说，提出了不可避免的如何利用长时序上下文表征的挑战。

技术实现要素：

6.为至少部分解决现有技术中的上述问题，本发明提出一种离线三维物体检测方法及系统，包括：
7.对物体的多帧点云序列进行物体检测以生成物体边界框；
8.对所述物体边界框进行离线物体跟踪以生成物体轨迹；
9.从所述物体轨迹中提取物体序列数据；
10.根据所述物体序列数据通过物体属性预测生成优化边界框，其中物体属性预测包括物体的几何形状预测、位置预测以及置信度预测；以及
11.将所述优化边界框传输回物体出现的坐标系中。
12.在本发明一个实施例中规定，对物体的点云序列进行物体检测以生成物体边界框包括下列步骤：
13.将点云序列输入中心点检测器中，其中所述点云序列包括多个五帧点云的组合；
14.在物体检测的第一阶段将所述点云序列转化为体素表示，并且生成候选初始边界框；以及
15.在物体检测的第二阶段对所述候选初始边界框进行微调，以预测物体的更加精准的边界框和置信度，其中在物体检测的第二阶段使用所述物体的点云密度信息进行原始点云特征以及体素特征融合；
16.其中在上述步骤中进行推理阶段数据增强以及多模型结果融合。
17.在本发明一个实施例中规定，对所述物体边界框进行离线物体跟踪以生成物体轨迹包括下列步骤：
18.根据所述物体边界框的置信度得分将物体边界框分为高分组边界框以及低分组边界框；
19.在离线物体跟踪的第一阶段生成第一轨迹，其中包括：
20.将已存在的物体轨迹与高分组边界框进行数据关联；
21.根据成功关联的边界框更新已存在的物体轨迹；以及
22.将未更新的物体轨迹与低分组边界框进行数据关联以生成第一轨迹，其中将未成功关联的物体边界框去除，其中所述第一轨迹的默认生命周期是无限长(即整个点云序列的长度)，在关联过程结束后，选择最后一次实际关联到物体边界框的时刻作为该物体最终的第一轨迹长度，去除后续持续的虚假关联；
23.在离线物体跟踪的第二阶段按照第一阶段的反向时间顺序生成第二轨迹；
24.通过位置相关的相似性分数将所述第一轨迹与第二轨迹关联；以及
25.将关联成功的第一轨迹以及第二轨迹融合以生成物体轨迹。
26.在本发明一个实施例中规定，从物体轨迹中提取出物体序列数据包括：
27.在三个维度上放大物体边界框的感兴趣区域；
28.提取出放大后的物体边界框所包围区域内的点云序列；以及
29.保存放大后的物体边界框所包围区域内的点云序列及其跟踪框序列以及置信度得分。
30.在本发明一个实施例中规定，物体的几何形状预测包括：
31.从物体序列中随机选择n1个不同视角的候选物体，对每个候选物体随机选择p1个点，使用第一编码器提取对应的特征，生成n1个几何查询向量;
32.将整个物体序列中每个物体的点云叠加在一起，从中随机选择p2个点，并且使用第二编码器生成全局点云稠密特征；
33.将几何查询向量输入多头自注意力层中，以编码样本之间的上下文关系以及特征依赖关系，提取几何信息；
34.将更新后的几何查询向量以及全局点云稠密特征送入到多头交叉注意力层，以推断每一个几何查询向量与全局稠密点云特征的差异，进而补充所需要视角的特征；以及
35.将更新后的几何查询向量输入到预测头，输出n1个几何预测结果，并且对n1个几何
预测结果进行平均以得到最终的几何预测结果。
36.在本发明一个实施例中规定，物体的位置预测包括：
37.对物体序列中的每个物体候选物体随机选择p3个点，使用第三编码器提取每个物体对应的特征，生成p3个位置查询向量；
38.使用第四编码器生成整个物体轨迹的点特征，其中整个物体轨迹的点特征作为交叉注意力机制计算中的键特征以及值特征；
39.将位置查询向量送入自注意力机制模块，以计算当前位置与其他位置之间的相对距离，其中在每个位置查询向量的位置附近使用一维掩码约束自注意力；
40.将局部的位置查询向量以及整个物体轨迹的点特征输入交叉注意力模块，以模拟局部到全局位置的上下文关系；以及
41.预测局部坐标系下每个真值中心与相应初始中心之间的偏移量以及航向角差异。
42.在本发明一个实施例中规定，物体的置信度预测包括：
43.在物体置信度预测的第一分支根据物体的跟踪框与真值框的重叠度将物体分为真阳例或者假阳例；以及
44.在物体置信度预测的第二分支预测一个物体在被优化后应具有的重叠度，并且将回归目标设置为真值框与经过几何、位置优化后的优化边界框之间的重叠度。
45.本发明还提出一种离线三维物体检测系统，包括：
46.物体检测模块，其被配置为对物体的多帧点云序列进行物体检测以生成物体边界框；
47.离线物体追踪跟踪模块，其被配置为对所述物体边界框进行离线物体跟踪以生成物体轨迹;
48.物体序列数据提取模块，其被配置为从所述物体轨迹中提取物体序列数据；
49.基于属性预测的物体优化模块，其被配置为根据所述物体序列数据通过物体属性预测生成优化边界框；以及
50.坐标转化模块，其被配置为将所述优化边界框传输回物体出现的每一帧的坐标系中。
51.本发明还提出一种离线三维物体检测系统一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时执行根据所述方法的步骤。
52.本发明还提出一种计算机系统，包括：
53.处理器，其被配置为执行机器可执行指令；以及
54.存储器，其上存储有机器可执行指令，所述机器可执行指令在被处理器执行时执行根据权所述方法的步骤。
55.本发明至少具有如下有益效果：本发明提出一种离线三维物体检测方法及系统，其可以生成准确、完整的物体追踪序列，并且可以充分考虑物体的几何属性、运动约束等特点，从而充分利用长时序点云的有效特征信息。本发明在应用于自动驾驶领域中时可以大大提升3d物体检测性能以及3d物体追踪性能，在现有的最大的自动驾驶公开数据集之一的waymo数据集上以85.15maph(l2)达到了最优的3d物体检测性能，以75.05m0ta(l2)达到了最优的3d物体追踪性能，两者都大幅超出了第二名的性能。使用本发明可以生成高质量的检测结果，其可以达到甚至超越人工标注的水平，可以替代人工标注进行其他在线模型训
练的真值标注，进而可以大幅降低人力成本在自动驾驶感知模型训练中的投入，促进感知模型性能发展。
附图说明
56.为进一步阐明本发明的各实施例中具有的及其它的优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。
57.图1示出了实现根据本发明的系统和/或方法的计算机系统。
58.图2示出了现有技术中一个离线3d物体检测算法的流程框架示意图。
59.图3示出了现有的3d检测算法与多目标跟踪算法结合生成的序列的示意图。
60.图4示出了基于滑动窗口的动态物体优化机制预测边界框的示意图。
61.图5示出了本发明一个实施例中一个离线三维物体检测方法的流程示意图。
62.图6示出了本发明一个实施例中一个离线三维物体检测方法的框架示意图。
63.图7示出了本发明一个实施例中在几何形状优化过程中对点及其初始边界框进行处理的示意图。
64.图8示出了本发明一个实施例中一个几何查询向量的处理流程示意图。
65.图9示出了本发明一个实施例中在位置优化过程中对点及其相应框的角的处理示意图。
66.图10示出了本发明一个实施例中一个位置查询向量的处理流程示意图。
具体实施方式
67.应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。在各附图中，给相同或功能相同的组件配备了相同的附图标记。
68.在本发明中，除非特别指出，“布置在
…
上”、“布置在
…
上方”以及“布置在
…
之上”并未排除二者之间存在中间物的情况。此外，“布置在
…
上或上方”仅仅表示两个部件之间的相对位置关系，而在一定情况下、如在颠倒产品方向后，也可以转换为“布置在
…
下或下方”，反之亦然。
69.在本发明中，各实施例仅仅旨在说明本发明的方案，而不应被理解为限制性的。
70.在本发明中，除非特别指出，量词“一个”、“一”并未排除多个元素的场景。
71.在此还应当指出，在本发明的实施例中，为清楚、简单起见，可能示出了仅仅一部分部件或组件，但是本领域的普通技术人员能够理解，在本发明的教导下，可根据具体场景需要添加所需的部件或组件。另外，除非另行说明，本发明的不同实施例中的特征可以相互组合。例如，可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征，所得到的实施例同样落入本技术的公开范围或记载范围。
72.在此还应当指出，在本发明的范围内，“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等，而是允许一定的合理误差，也就是说，所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推，在本发明中，表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。
73.另外，本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出，各方法步骤可以以不同顺序执行。
74.下面结合具体实施方式参考附图进一步阐述本发明。
75.图1示出了实现根据本发明的系统和/或方法的计算机系统。如非特殊说明，根据本发明的方法和/或系统可以在图1所示的计算机系统100中执行以实现本发明目的，或者本发明可以在多个根据本发明的计算机系统100中通过网络、如局域网或因特网分布式地实现。本发明的计算机系统100可以包括各种类型的计算机系统、例如手持式设备、膝上型计算机、个人数字助理(pda)、多处理器系统、基于微处理器或可编程消费者电子设备、网络pc、小型机、大型机、网络服务器、平板计算机等等。
76.如图1所示，计算机系统100包括处理器111、系统总线101、系统存储器102、视频适配器105、音频适配器107、硬盘驱动器接口109、光驱接口113、网络接口114、通用串行总线(usb)接口112。系统总线101可以是若干种总线结构类型的任一种，例如存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。系统总线101用于各个总线设备之间的通信。除了图1中所示的总线设备或接口以外，其它的总线设备或接口也是可设想的。系统存储器102包括只读存储器(rom)103和随机存取存储器(ram)104，其中rom 103例如可以存储用于在启动时实现信息传输的基本例程的基本输入/输出系统(bi0s)数据，而ram 104用于为系统提供存取速度较快的运行内存。计算机系统100还包括用于对硬盘110进行读写的硬盘驱动器109、用于对诸如cd-r0m之类的光介质进行读写光驱接口113等等。硬盘110例如可以存储有操作系统和应用程序。驱动器及其相关联的计算机可读介质为计算机系统100提供了计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。计算机系统100还可以包括用于图像处理和/或图像输出的视频适配器105，其用于连接显示器106等输出设备。计算机系统100还可以包括用于音频处理和/或音频输出的音频适配器107，其用于连接扬声器108等输出设备。此外，计算机系统100还可以包括用于网络连接的网络接口114，其中网络接口114可以通过诸如路由器115之类的网络装置连接到因特网116，其中所述连接可以是有线或无线的。另外，此外，计算机系统100还可以包括用于连接外围设备的通用串行总线接口(usb)112，其中所述外围设备例如包括键盘117、鼠标118以及其它外围设备、例如麦克风、摄像头等。
77.当本发明在图1所述的计算机系统100上实现时，可以生成准确、完整的物体追踪序列，并且可以充分考虑物体的几何属性、运动约束等特点，从而充分利用长时序点云的有效特征信息。在应用于自动驾驶领域中时可以大大提升3d物体检测性能以及3d物体追踪性能，并且可以生成高质量的检测结果，其可以达到甚至超越人工标注的水平，可以替代人工标注进行其他在线模型训练的真值标注，进而可以大幅降低人力成本在自动驾驶感知模型训练中的投入，促进感知模型性能发展。
78.此外，可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品，这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时，可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、cd-rom(紧致盘只读存储器)和磁光盘、rom(只读存储器)、ram(随机存取存储器)、eprom(可擦除可编程只读存储器)、eeprom(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介
质/机器可读介质。
79.此外，可以作为计算机程序产品下载各实施例，其中可以经由通信链路(例如，调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如，服务器)传输给请求计算机(例如，客户机)。因此，在此所使用的机器可读介质可以包括这样的载波，但这不是必需的。
80.在本发明中，根据本发明的系统的各模块可以使用软件、硬件、固件或其组合来实现。当模块使用软件来实现时，可以通过计算机程序流程来实现模块的功能，例如模块可以通过存储在存储设备(如硬盘、内存等)中的代码段(如c、c++等语言的代码段)来实现，其中当所述代码段被处理器执行时能够实现模块的相应功能。当模块使用硬件来实现时，可以通过设置相应硬件结构来实现模块的功能，例如通过对现场可编程逻辑门阵列(fpga)等可编程器件进行硬件编程来实现模块的功能，或者通过设计包括多个晶体管、电阻和电容等电子器件的专用集成电路(asic)来实现模块的功能。当模块使用固件来实现时，可以将模块的功能以程序代码形式写入设备的诸如eprom或eeprom之类的只读存储器中，并且当所述程序代码被处理器执行时能够实现模块的相应功能。另外，模块的某些功能可能需要由单独的硬件来实现或者通过与所述硬件协作来实现，例如检测功能通过相应传感器(如接近传感器、加速度传感器、陀螺仪等)来实现，信号发射功能通过相应通信设备(如蓝牙设备、红外通信设备、基带通信设备、wi-fi通信设备等)来实现，输出功能通过相应输出设备(如显示器、扬声器等)来实现，以此类推。
81.传统的离线3d物体检测算法通常基于模块化的设计来处理点云序列数据。图2示出了现有技术中一个离线3d物体检测算法的流程框架示意图，其中以waymo公司提出的3dal(charlesr.qi，yin zhou，mahyar najibi，pei sun，khoa vo，boyang deng，dragomir anguelov.offboard 3d object detection from point cloud sequences.in cvpr，june 2021)为例。如图2所示，现有的离线3d物体检测算法包括下列步骤：
82.由检测模块(3d object detection)将n帧连续的点云序列(point cloud sequence)作为输入，并输出每一帧所包含的3d物体边界框和对应的类别。
83.由多目标跟踪模块(3d multi-object tracking)将每一帧检测到的物体关联起来，形成一个物体序列并输出其对应的唯一物体id。对于每个物体序列，提取出其在原始点云帧中对应的物体点云，然后消除掉自车运动并拼接在一起。
84.由运动状态估计模块(track-based motion state classification)可以根据物体的轨迹特征确定物体的运动状态(静态或动态)。
85.由以物体为中心的自动标注模块(object-centric auto labeling)，根据运动状态估计模块预测出的运动状态来分别提取动态/静态物体的时序特征，以预测精确的边界框。优化后的3d边界框最终会通过姿态矩阵(pose)传输回该物体出现的每一帧的坐标系中。
86.虽然现有的在线3d检测算法性能已经达到了较高的水准，但其在与基于“先检测后追踪”规则的多目标跟踪算法相结合时，很容易产生严重的轨迹分段、id切换、错误关联等问题，而这将会阻碍生成一个物体所对应的完整的时序上下文特征。
87.图3示出了现有的3d检测算法与多目标跟踪算法结合生成的序列的示意图。如图3所示，第一行301示出了一个物体的真值序列。第二行302示出了轨迹分段的情况，由于id切
换的问题导致该物体被分裂成了3个序列，即t1、t2以及t3。第三行303示出了在物体序列t4的头部和尾部包括较多的误检片段(fp1、fp2)的情况。第四行304示出了不完整的序列t5的情况，序列t5在头部和尾部丢失了一些检测片段(m1、m2)。当这些存在问题的序列被输入到离线检测算法的运动状态估计模块以及自动标注模块时，将出现不合理的处理情况：t1序列中优化的更好的框无法更新传播到t2以及t3中(这是由于t1、t2以及t3的id不同，会被认为不是同一个物体)；t4序列中误检片段(fp1、fp2)的得分会变的更高，因此无法去除掉这些错误出现的框；t5序列中优化的更好的框也无法更新传播到那些未检测到边界框的位置上。
88.此外，基于运动状态分类的自动标注模型并没有完全使用物体时序特征的共性。物体时序特征的共性是指例如物体的尺寸大小随时间是保持一致的，通过从不同的角度捕捉数据，可以使物体的点云更加稠密，从而实现更精确的尺寸估计；并且物体轨迹与其形状大小无关，在连续时间内始终遵循运动学约束，这表现为轨迹的平滑性。
89.图4示出了基于滑动窗口的动态物体优化机制预测边界框的示意图。如图4所示，基于滑动窗口的动态物体优化机制未能使用完整的时序上下文信息(例如局部位置与全局轨迹之间的关系、物体几何形状的一致性等)。在401的示例中可以看到，对于这个运动物体，t1时刻相邻几帧点云的点非常稀疏导致预测的边界框的大小不够准确，t2时刻由于点云比较稠密所以输出了大小合适的框。而在402的示例中可以看到，通过把该物体的点云全部聚合在一起，即可为每一帧都预测出准确大小的边界框。
90.为了至少部分解决现有技术中的上述问题，本发明提出一种包括多帧3d检测算法和离线跟踪算法的上游算法模块，以确保目标跟踪的完整性和连续性，同时保持高召回率。此外，现有的基于滑动窗口的自动标注模型并没有完全使用物体时序特征的共性(例如物体的尺寸大小随时间是保持一致的；通过从不同的角度捕捉数据，我们可以使物体的点云更加稠密，从而实现更精确的尺寸估计；物体轨迹与其形状大小无关，在连续时间内始终遵循运动学约束，这表现为轨迹的平滑性)。而这些共性是本发明通过基于分解式回归预测方案来利用好长时序点云的基础，具体来说，在本发明中可以分别进行精细化几何尺寸、平滑轨迹位置以及更新置信度分数。
91.本发明提出的离线3d物体检测算法可以在上游模块中实现高召回率的物体检测和追踪，在下游模块中实现基于长时许特征的高精度优化。包括多帧3d检测算法和离线跟踪算法的上游算法模块，可以确保目标跟踪的完整性和连续性，同时保持高召回率的物体序列。接下来通过基于分解式回归预测的方法可以利用好长时序点云的特征，分别预测物体的精细化几何尺寸、平滑其运动轨迹位置、更新置信度分数。
92.图5示出了本发明一个实施例中一个离线三维物体检测方法的流程示意图。如图5所示，该方法包括下列步骤：
93.步骤501、对物体的多帧点云序列进行物体检测以生成物体边界框。
94.步骤502、对所述物体边界框进行离线物体跟踪以生成物体轨迹。
95.步骤503、从所述物体轨迹中提取物体序列数据。
96.步骤504、根据所述物体序列数据通过物体属性预测生成优化边界框。
97.步骤505、将所述优化边界框传输回物体出现的每一帧的坐标系中。
98.图6示出了本发明一个实施例中一个离线三维物体检测方法的框架示意图。如图6所示，首先通过上游的物体检测和离线跟踪模块生成准确完整的物体轨迹。
99.在物体检测过程中，使用现有的中心点(centerpoint)检测器作为基础检测器，centerpoint可以在两阶段中输出物体的边界框。第一阶段是生成候选初始边界框，第二阶段是根据中心点预测物体的边界框。具体来说，第一阶段将点云转换为体素表示，然后使用3d空洞卷积(3dsparseconvolution)和rpn提取特征，并使用稠密输出头(centerhead)生成候选边界框。第二阶段使用rol-head对每个候选边界框进行分类和回归，以预测物体更准确的边界框和置信度。由于centerpoint检测器无锚框设计的输出头会预测出稠密和冗余的物体边界框，为了尽可能提供准确的预测结果，本发明在以下方面对其进行了加强：以五帧点云的组合作为输入，在不出现性能衰减的前提下进行性能最大化；利用点云密度信息进行原始点云特征和体素特征融合的二阶段模块，对一阶段边界结果进行初步优化；使用推理阶段数据增强(tta)、多模型结果(不同的分辨率、网络结构和容量)融合等技术来提升模型对于复杂环境的适应能力。
100.在离线物体追踪的过程中，由于当检测算法关注边界框级别的性能时，现有的在线的基于“先检测后追踪”原则的多目标跟踪器总是会表现的很挣扎。为了应对大量冗余框的情况，本发明的多目标跟踪算法提出了通过两阶段数据关联策略来减少错误匹配的可能性，其中包括：
101.在第一阶段根据检测到的边界框的置信度得分将边界框分成高分组以及低分组。将之前已存在的物体轨迹与高分组进行数据关联，并且将成功关联的边界框用于更新现有的物体轨迹。将未更新的物体轨迹进一步与低分组相关联，其中将未成功关联的框去除。在本发明中允许物体的生命周期无限期地持续到点云序列终止，之后任何未得到更新的冗余框都将被删除，这有利于重新连接已经断掉的物体轨迹，并且可以有效减少id切换的问题。
102.在第二阶段按照反向时间顺序再次执行追踪算法以生成另一组轨迹。通过位置相关的相似性分数将第一组轨迹与第二组轨迹关联在一起。将匹配成功的轨迹通过wbf(weighted box fusion)策略融合。通过上述步骤可以进一步改善框丢失的问题，并且可以稳定物体的运动状态，这一过程被称为正逆序跟踪融合。此外，较短物体轨迹的框以及没有更新的冗余框会被直接合并到最终的输出中，而不再进行下游的优化。
103.对于生成的物体轨迹，需要对其进行物体序列数据提取，其中对于一个给定的物体轨迹(由唯一的物体id区分)，首先沿三个维度放大边界框的感兴趣区域(rol，region of interest)，这样可以补偿一定的上下文信息；然后提取出被这些放大后边界框所包围区域内的所有点云；最后将这些点云序列及其相应的跟踪框序列和置信度得分进行保存。
104.将上述提取出的物体序列数据输入基于属性预测的物体优化模块中以生成重建的框序列。
105.传统的以物体为中心的自动标注模型使用基于运动状态的策略来优化上游模块生成的边界框，这种方法不仅会向下传递错误的运动状态所带来的影响，而且忽略了物体之间潜在的特征相似性(例如，对于刚性物体，无论其运动状态如何，它的几何形状在连续时间段内不会发生显着变化；此外，物体的运动状态通常表现出一种规则的模式，并且相邻时刻保持较强的一致性)。基于上述发现，本发明将传统的边界框回归任务分解为三个不同的模块分别预测物体的几何形状、位置和置信度属性。
106.其中几何形状优化模型通过获取物体的多个视点，可以补充物体的外观和形状。首先进行一个局部坐标变换操作，将物体点云与不同位置的局部框坐标对齐，随后直接合
并来自不同帧的所有点云，从中例如可以随机抽取4096个点用于进一步处理。
107.图7示出了本发明一个实施例中在几何形状优化过程中对点及其初始边界框进行处理的示意图。如图7所示，其中对于每个点及其对应的初始边界框，使用点到面的方法来计算每个点到六个表面之间的投影距离，然后将这些距离拼接至每个点坐标，进而对初始边界框的信息进行更好的表征。
108.接下来从整个物体轨迹中随机选择t个样本，每个样本都有相应的256个随机选择的点。这些点之后不但拼接了到各自边界框的六个表面距离，同时也拼接了各自的置信度得分。然后，采用编码器为每个样本提取特征，用于初始化为几何查询向量(query)。然后可以使用另一个编码器提取4096个点的特征，作为全局点云稠密特征。
109.图8示出了本发明一个实施例中一个几何查询向量的处理流程示意图。如图8所示，其中将几何查询向量首先输入多头自注意力层中，以编码所选样本之间丰富的上下文关系和特征依赖关系，提炼各自的几何信息。将更新后的几何查询向量和全局点云稠密特征送入到多头交叉注意力层，来推断出每一个几何查询向量和全局稠密点云特征的差异，进而补充所需要视角的特征。并且为了更好的残差目标回归，可以将初始框的尺寸映射到与几何查询向量同一大小的维度，然后将初始框与几何查询向量相加。
110.位置优化模型在预测物体的位置的过程中，对于第j个物体可以从其追踪轨迹序列中随机选择一个框的位置作为新的局部坐标系，随后将其他所有的框转换到这个坐标系下，并且将相应的物体点云也转移到这个坐标系下。然后，为该物体序列中的每一帧随机选择固定数量的点云。
111.图9示出了本发明一个实施例中在位置优化过程中对点及其相应框的角的处理示意图。如图9所示，对于选中的每个点云，除了计算到框中心的距离外，还可以计算每个点与相应框的八个角之间的相对距离，这会产生一个27维的特征向量。最终的位置感知点云特征可以表示为点云原始的局部坐标、点云强度、距离特征的拼接向量。为了便于训练，所有物体的轨迹可以都用零填充到相同的长度。
112.对于物体的轨迹，可以使用与几何优化模型中的编码器相似的结构来生成其对应每一帧的位置查询向量(query)，其特征包括位置感知特征和对应的置信度分数。同时可以使用另一个编码器提取整个物体轨迹的点特征，作为注意力机制计算中的键(key)特征和值(value)特征。
113.图10示出了本发明一个实施例中一个位置查询向量的处理流程示意图。如图10所示，其中位置查询向量首先被送入自注意力机制模块，以计算当前位置与其他位置之间的相对距离。此外，可以在每个位置查询向量的位置附近应用一维的掩码来约束自注意力。随后，将局部位置查询向量和全局点轨迹键特征、值特征输入交叉注意力模块，以模拟局部到全局位置的上下文关系。最后，可以预测局部坐标系下每个真值中心与相应初始中心之间的偏移量以及航向角差异。
114.由于本发明的上游检测和离线跟踪模块被鼓励生成足够的物体轨迹，即使经过几何优化和位置优化模型的处理，这些轨迹仍然包含许多不正确的框。为了解决这个问题，本发明使用一种由两个分支组成的置信度优化模型来优化置信度分数。其中第一个分类分支类似于传统的第二阶段目标检测器，通过更新分数来确定真阳例(tp)或者假阳例(fp)，其中将负标签分配给与真值框对应的重叠度(iou，lntersection over union)低于阈值的跟
踪框，将高于阈值的跟踪框被视为正样本，将其他对分类目标没有贡献的框忽略。第二个分类分支可以预测一个物体在被优化后应该有多少重叠度，因此可以将回归目标设置为真值框与经过几何、位置优化后的优化框之间的重叠度。
115.在本发明中，可以首先使用与几何优化模型中相同的编码器网络来处理物体点云，将提取的点云特征由一个简单的多层感知机(mlp，multilayer perceptron)融合，然后输入上述的两个分支中预测各自的分数。在训练过程中，可以在每个时期(epoch)中以1：1的比例随机采样预先划分的正负目标轨迹，以实现更好的收敛性。最终的得分是两个分支的几何平均。
116.在本发明的一个实施例中，在现有最大的自动驾驶公开数据集之一的waymo数据集上进行充分的实验和验证。该数据集共包含1150个点云场景，其中798个用于模型训练，202个用于验证，150个用于测试。该数据集为每个场景提供20秒的点云数据，采样频率为10hz，并提供360度视野中4个物体类别的3d标注。在实验过程中，本实施例遵循带有官方指标的评估协议，即平均精度(ap)和航向角加权平均精度(aph)，并报告了level 1(l1)和level 2(l2)难度级别的结果。l1难度包括具有超过五个点云的物体，l2难度仅包括具有至少一个且不超过五个点云的3d物体标注。maph(l2)是waymo 3d检测挑战中排名的主要指标。
117.表1示出了本发明与现有最先进的检测方法的对比结果。如表1所示，本发明在waymo 3d检测挑战排行榜上取得了最好的成绩，具有85.15maph(l2)检测性能。在与处理长期连续点云(至少100帧)的方法之间的比较过程中，本发明(detzero)在vehicle类别上以5.93maph(l1)和9.51maph(l2)的优势超过3dal，在vehicle类别上超过int的maph为6.16(l1)和7.69(l2)，在pedestrian类别上的maph优势为7.65(l1)和9.09(l2)。可见本发明具有利用长时序连续点云进行离线感知的强大能力。此外，本发明与最先进的多模态融合3d检测器相比，也具有强大的性能优势，其中在vehicle类别上至少领先3.43(l1)和4.63(l2)maph，在pedestrian类别上至少领先2.93(l1)和3.54(l2)maph。从这些结果可以看出，本发明发掘出了点云序列的巨大潜力。
118.表1
[0119][0120]
表2示出了本发明与现有的最先进的3d检测方法在验证集上的内部模块之间的比较结果。如表2所示，本发明相比于其他基于单帧和多帧的方法，在vehicle和pedestrian类别上都有很大的优势。这是由于本发明的上游模块可以生成高质量物体轨迹，使得本发明的完整模型得到了显着的内部改进，其中在vehicle类别上至少领先6.49(l1)和7.68(l2)maph，在pedestrian类别上至少领先3.99(l1)和4.67(l2)maph。
[0121]
表2
[0122][0123]
表3示出了本发明与现有技术在waymo 3d追踪排行榜上的性能对比。如表3所示，本发明以9.97mota(l2)的领先优势居于第一位。
[0124]
表3
[0125][0126]
表4示出了本发明与人类标注能力进行对比的结果。如表4所示，其中按照3dal的实验设置来报告本文方案在5个选定的序列中的平均ap性能，使用常见的3d ap@0.7指标，相比于人类标注和3dal，本发明取得了3.79和4.87的收益，并且在更严格的3d ap@0.8指标中差距更大。通过忽略高度使用bev ap，本发明获得了与3d ap相似的优势。这是首次离线3d检测模型的性能优于人类标注。
[0127]
表4
[0128][0129]
本发明可以提供高质量的自动标注，代替人工标注进行在线3d检测模型训练。在本发明的另一实施例中进行了另一域内半监督学习实验。其中选择单阶段centerpoint作为学生模型，学生模型使用单帧点云作为输入，并且在训练期间不使用gt-paste数据增强。首先在waymo数据集训练集中随机选择10％的序列(79个)来训练整个算法框架。接下来，可以为训练集中其余90％的序列(719个)推理生成“自动标注”。之后，用不同的人类标注和“自动标注”组合训练学生模型。
[0130]
表5示出了使用本发明进行自动标注代替人工标注的结果。如表5所示，其中可以看到将人工标注减少到10％时，学生模型的性能在vehicle类别上降低了8.53ap和8.6aph，在pedestrian类别上降低了10.38ap和11.5aph(前两行)。当添加其他90％的自动标注时，vehicle上的性能增加了7.56ap和7.63aph，pedestrian的性能增加了11.79ap和12.36aph，
而且比100％人工标注性能更高。此外，当删除10％的人工标注(第三行)时，结果可以预见地略低于第四行，但仍然显示类别pedestrian上可以获得1.06ap和0.23aph的收益。可见本发明生成的“自动标注”可以用于训练在线模型。
[0131]
尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

技术特征：
1.一种离线三维物体检测方法，其特征在于，包括下列步骤：对物体的多帧点云序列进行物体检测以生成物体边界框；对所述物体边界框进行离线物体跟踪以生成物体轨迹；从所述物体轨迹中提取物体序列数据；根据所述物体序列数据通过物体属性预测生成优化边界框，其中物体属性预测包括物体的几何形状预测、位置预测以及置信度预测；以及将所述优化边界框传输回物体出现的坐标系中。2.根据权利要求1所述的离线三维物体检测方法，其特征在于，对物体的点云序列进行物体检测以生成物体边界框包括下列步骤：将点云序列输入中心点检测器中，其中所述点云序列包括多个五帧点云的组合；在物体检测的第一阶段将所述点云序列转化为体素表示，并且生成候选初始边界框：以及在物体检测的第二阶段对所述候选初始边界框进行微调，以预测物体的更加精准的边界框和置信度，其中在物体检测的第二阶段使用所述物体的点云密度信息进行原始点云特征以及体素特征融合；其中在上述步骤中进行推理阶段数据增强以及多模型结果融合。3.根据权利要求1所述的离线三维物体检测方法，其特征在于，对所述物体边界框进行离线物体跟踪以生成物体轨迹包括下列步骤：根据所述物体边界框的置信度得分将物体边界框分为高分组边界框以及低分组边界框；在离线物体跟踪的第一阶段生成第一轨迹，其中包括：将已存在的物体轨迹与高分组边界框进行数据关联；根据成功关联的边界框更新已存在的物体轨迹；以及将未更新的物体轨迹与低分组边界框进行数据关联以生成第一轨迹，其中将未成功关联的物体边界框去除，其中所述第一轨迹的默认生命周期是无限长，在关联过程结束后，选择最后一次实际关联到物体边界框的时刻作为该物体最终的第一轨迹长度，去除后续持续的虚假关联；在离线物体跟踪的第二阶段按照第一阶段的反向时间顺序生成第二轨迹；通过位置相关的相似性分数将所述第一轨迹与第二轨迹关联；以及将关联成功的第一轨迹以及第二轨迹融合以生成物体轨迹。4.根据权利要求1所述的离线三维物体检测方法，其特征在于，从物体轨迹中提取出物体序列数据包括：在三个维度上放大物体边界框的感兴趣区域；提取出放大后的物体边界框所包围区域内的点云序列；以及保存放大后的物体边界框所包围区域内的点云序列及其跟踪框序列以及置信度得分。5.根据权利要求1所述的离线三维物体检测方法，其特征在于，物体的几何形状预测包括：从物体序列中随机选择n1个不同视角的候选物体，对每个候选物体随机选择p1个点，使用第一编码器提取对应的特征，生成n1个几何查询向量；
将整个物体序列中每个物体的点云叠加在一起，从中随机选择p2个点，并且使用第二编码器生成全局点云稠密特征；将几何查询向量输入多头自注意力层中，以编码样本之间的上下文关系以及特征依赖关系，提取几何信息；将更新后的几何查询向量以及全局点云稠密特征送入到多头交叉注意力层，以推断每一个几何查询向量与全局稠密点云特征的差异，进而补充所需要视角的特征；以及将更新后的几何查询向量输入到预测头，输出n1个几何预测结果，并且对n1个几何预测结果进行平均以得到最终的几何预测结果。6.根据权利要求5所述的离线三维物体检测方法，其特征在于，物体的位置预测包括：对物体序列中的每个物体候选物体随机选择p3个点，使用第三编码器提取每个物体对应的特征，生成p3个位置查询向量；使用第四编码器生成整个物体轨迹的点特征，其中整个物体轨迹的点特征作为交叉注意力机制计算中的键特征以及值特征；将位置查询向量送入自注意力机制模块，以计算当前位置与其他位置之间的相对距离，其中在每个位置查询向量的位置附近使用一维掩码约束自注意力；将局部的位置查询向量以及整个物体轨迹的点特征输入交叉注意力模块，以模拟局部到全局位置的上下文关系；以及预测局部坐标系下每个真值中心与相应初始中心之间的偏移量以及航向角差异。7.根据权利要求6所述的离线三维物体检测方法，其特征在于，物体的置信度预测包括：在物体置信度预测的第一分支根据物体的跟踪框与真值框的重叠度将物体分为真阳例或者假阳例；以及在物体置信度预测的第二分支预测一个物体在被优化后应具有的重叠度，并且将回归目标设置为真值框与经过几何、位置优化后的优化边界框之间的重叠度。8.一种离线三维物体检测系统，其特征在于，包括：物体检测模块，其被配置为对物体的多帧点云序列进行物体检测以生成物体边界框；离线物体追踪跟踪模块，其被配置为对所述物体边界框进行离线物体跟踪以生成物体轨迹；物体序列数据提取模块，其被配置为从所述物体轨迹中提取物体序列数据；基于属性预测的物体优化模块，其被配置为根据所述物体序列数据通过物体属性预测生成优化边界框；以及坐标转化模块，其被配置为将所述优化边界框传输回物体出现的坐标系中。9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时执行根据权利要求1-7之一所述的方法的步骤。10.一种计算机系统，其特征在于，包括：处理器，其被配置为执行机器可执行指令；以及存储器，其上存储有机器可执行指令，所述机器可执行指令在被处理器执行时执行根据权利要求1-7之一所述的方法的步骤。

技术总结
本发明涉及三维物体检测技术领域，提出一种离线三维物体检测方法及系统。该方法包括：对物体的多帧点云序列进行物体检测以生成物体边界框；对物体边界框进行离线物体跟踪以生成物体轨迹；从物体轨迹中提取物体序列数据；根据物体序列数据通过物体属性预测生成优化边界框；以及将所述优化边界框传输回物体出现的坐标系中。本发明应用于自动驾驶领域中时可以大大提升3D物体检测性能以及3D物体追踪性能。并且可以生成高质量的检测结果，其可以达到甚至超越人工标注的水平，可以替代人工标注进行其他在线模型训练的真值标注，进而可以大幅降低人力成本在自动驾驶感知模型训练中的投入，促进感知模型性能发展。促进感知模型性能发展。促进感知模型性能发展。

技术研发人员：李怡康马涛杨雪梦周鸿斌李鑫李鸿升乔宇
受保护的技术使用者：上海人工智能创新中心
技术研发日：2023.06.09
技术公布日：2023/8/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种离线三维物体检测方法及系统与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种离线三维物体检测方法及系统与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表