一种基于时序帧主动学习的跨域目标检测方法及装置与流程

未命名 09-16 阅读：156 评论：0

1.本发明属于无人驾驶技术领域，特别涉及一种基于时序帧主动学习的跨域目标检测方法及装置。

背景技术：

2.3d目标检测技术是自动驾驶领域中发挥非常关键的作用，能够帮助自动驾驶的车辆感知周围的环境。到目前为止，最先进的基于lidar的3d目标检测方法通常在单个数据集中进行训练和评估，很少涉及到跨域数据集的研究。然而，在自动驾驶的许多现实场景中，由于不同厂商往往采用不同参数的激光雷达，并且不同城市的环境差异巨大，跨数据集的3d目标检测方案成为自动驾驶中亟待解决的问题。
3.主动域适应(active domain adaptation,ada)任务是一种从目标域中选择出具有代表力的子集数据，并进行人工标注的一种方法。在aada(参考jong-chyi su,yi-hsuan tsai,kihyuk sohn,buyu liu,subhransu maji,and manmohan chandraker.active adversarial domain adaptation.in proceedings of the ieee/cvf winter conference on applications of computer vision,pages 739
–
748,2020)、tqs(参考bo fu,zhangjie cao,jianmin wang,and mingsheng long.transferable query selection for active domain adaptation.in proceedings of the ieee/cvf conference on computer vision and pattern recognition,pages 7272
–
7281,2021)、clue(参考viraj prabhu,arjun chandrasekaran,kate saenko,and judy hoffman.active domain adaptation via clustering uncertainty-weighted embeddings.in proceedings of the ieee/cvf international conference on computer vision,pages8505
–
8514,2021)等2d自然图像场景中，ada方法已经得到了充分的探索。然而，在3d点云数据的研究中仍是空白。
4.一些研究者试图通过无监督域适应(unsupervised domain adaptation,uda)技术来解决这种跨数据集性能下降的问题。spg(参考qiangeng xu,yin zhou,weiyue wang,charles r qi,and dragomir anguelov.spg:unsupervised domain adaptation for 3d object detection via semantic point generation.in proceedings of the ieee/cvf international conference on computer vision,pages 15446
–
15456,2021)设计了一种语义点生成方法，并尝试恢复给定前景实例的缺失区域。st3d(参考jihan yang,shaoshuai shi,zhe wang,hongsheng li,and xiaojuan qi.st3d:self-training for unsupervised domain adaptation on 3d object detection.in proceedings of the ieee/cvf conference on computer vision and pattern recognition,pages 10368
–
10378,2021)设计了一个基于自监督训练的框架，将预先训练好的检测器从源域数据集适应到新的目标域数据集。lidar distillation(参考yi wei,zibu wei,yongming rao,jiaxin li,jie zhou,and jiwen lu.lidar distillation:bridging the beaminduced domain gap for 3d object detection.arxiv preprint arxiv:2203.14956,2022)利用从高线束激光雷达
数据中获得的可迁移知识来蒸馏低线束激光雷达数据。虽然这些uda检测方法在跨数据集任务中取得了成功，但它们与使用全量标注的监督学习之间仍有很大的检测精度差距。而为了验证基于2d图像的ada方法对3d点云的可扩展性，我们将现有的基于2d图像的ada方法(如tqs和clue)直接集成到许多典型的3d基线检测器中进行研究，但其在解决跨域数据集的差异方面并不能取得令人满意的结果。

技术实现要素：

5.本说明书实施例的目的是提供一种基于时序帧主动学习的跨域目标检测方法及装置。
6.为解决上述技术问题，本技术实施例通过以下方式实现的：
7.第一方面，本技术提供一种基于时序帧主动学习的跨域目标检测方法，该方法包括：
8.获取待检测目标域的时序点云信息，将时序点云信息分成单帧点云数据；
9.将单帧点云数据输入训练好的时序帧主动学习三维目标检测模型中，得到点云场景中每个物体的类别及标记框；
10.其中，时序帧主动学习三维目标检测模型采用带标注的时序帧数据集进行训练，带标注的时序帧数据集通过基于时空连续帧主动学习采样策略，从全量无标注的时序帧中返回最具价值的时序帧，对最具价值的时序帧进行标注得到。
11.在其中一个实施例中，基于时空连续帧主动学习采样策略从全量无标注的时序帧中返回最具价值的时序帧，包括：
12.获取若干无标注时序帧；
13.无标注时序帧输入多粒度时序域判别器，得到时序帧的域得分；
14.将时序帧的域得分进行降序排序，选取排序中前预设比例对应的时序帧作为最具价值的时序帧。
15.在其中一个实施例中，无标注时序帧输入多粒度时序域判别器，得到时序帧的域得分，包括：
16.无标注时序帧输入检测器，得到时序-场景级显著性描述特征图；
17.根据时序-场景级显著性描述特征图，得到时序帧的域得分。
18.在其中一个实施例中，无标注时序帧输入检测器，得到时序-场景级显著性描述特征图，包括：
19.无标注时序帧输入三维骨干网络，得到三维特征描述；
20.将三维特征描述映射到提取鸟瞰图特征，得到鸟瞰图特征映射；
21.将鸟瞰图特征映射输入二维骨干网络，得到二维特征描述；
22.将二维特征描述通过区域建议网络，得到目标得分；
23.根据目标得分，确定时序-场景级显著性描述特征图。
24.在其中一个实施例中，根据目标得分，确定时序-场景级显著性描述特征图，包括：
25.根据目标得分，确定熵得分；
26.采用一致性评价函数，确定相邻两个时序帧的二维特征描述的时序信息得分；
27.根据目标得分、熵得分、时序信息得分及二维特征描述，确定时序-场景级显著性
描述特征图。
28.在其中一个实施例中，采用最具价值的时序帧对检测器进行微调。
29.在其中一个实施例中，检测器的目标损失函数包括区域建议网络损失函数、优化损失函数和关键点分割损失函数。
30.第二方面，本技术提供一种基于时序帧主动学习的跨域目标检测装置，该装置包括：
31.获取模块，用于获取待检测目标域的时序点云信息，将时序点云信息分成单帧点云数据；
32.目标检测模块，用于将单帧点云数据输入训练好的时序帧主动学习三维目标检测模型中，得到点云场景中每个物体的类别及标记框；
33.其中，时序帧主动学习三维目标检测模型采用带标注的时序帧数据集进行训练，带标注的时序帧数据集通过基于时空连续帧主动学习采样策略，从全量无标注的时序帧中返回最具价值的时序帧，对最具价值的时序帧进行标注得到。
34.第三方面，本技术提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面的基于时序帧主动学习的跨域目标检测方法。
35.第四方面，本技术提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面的基于时序帧主动学习的跨域目标检测方法。
36.由以上本说明书实施例提供的技术方案可见，该方案：大幅降低了自动驾驶感知模型对于海量时序帧标注的需要。
附图说明
37.为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
38.图1为本技术提供的基于时序帧主动学习的跨域目标检测方法的流程示意图；
39.图2为本技术提供的基于时空连续帧主动学习采样策略的框架示意图；
40.图3为本技术提供的基于时序帧主动学习的跨域目标检测装置的结构示意图；
41.图4为本技术提供的电子设备的结构示意图。
具体实施方式
42.为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。
43.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本技术实施例。然而，本领域的技术人员应当清楚，在没有这些具体
细节的其它实施例中也可以实现本技术。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本技术的描述。
44.在不背离本技术的范围或精神的情况下，可对本技术说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本技术的说明书得到的其他实施方式对技术人员而言是显而易见得的。本技术说明书和实施例仅是示例性的。
45.关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。
46.基于lidar传感器的3d目标检测是实现l4级自动驾驶的关键的一环。然而，由于目前不同厂商所生产的不同版本的lidar参数差异较大，对目标场景的感知和描述经常发生动态变化，进一步导致厂商在更新lidar传感器方案时会产生较大的3d目标检测感知结果。为此，近期研究集中于探索一些关于跨数据集、跨域的3d目标检测方案。例如，st3d近年来广泛研究了无监督域自适应场景(unsupervised domain adaptation)下的跨传感器3d目标检测方案，提高了自动驾驶感知模型在处理不同场景、不同域、不同传感器方案时的鲁棒性。尽管这些无监督域自适应场景下的3d目标检测方案可以缓解3d目标检测器对于带有域差异的目标场景标注的要求，但其仍然与实际应用所需要的感知性能有较大差异。
47.现有的基于lidar的自动驾驶感知模型需要对海量数据进行标注才能实现可靠的感知性能，这会显著增加自动驾驶企业的研发成本。针对上述缺陷，本技术首次提出了基于时空连续帧主动学习采样策略，其瞄准从全量无标注的时序帧中用算法挑选出一部分最具价值的时序帧，随后标注团队将这一部分最具价值的时序帧进行人工标注，并将带标注的时序帧送入到3d感知模型中进行训练，我们发现其可以实现全量标注所有时序帧所能达到的性能。
48.现有数据标注缓解策略主要针对于2d自然图像场景，未能考虑3d自动驾驶场景下的逐序列标注的情景，因此目前的数据标注缓解策略难以对齐3d自动驾驶标注团队，导致采样结果与标注团队标注方案的不匹配问题。针对上述缺陷，本技术利用从目标得分、熵得分、时序信息得分三个角度来综合评价一个自动驾驶数据序列的重要程度，以此来进一步缓解不同传感器方案的数据差异，进而提升了3d自动驾驶感知模型在面临不同场景、不同域时的感知性能。
49.主动域适应目标检测任务的基本概念
50.给定一帧点云x∈rn×3，目标检测任务就是对场景中的每一个物体预测一个类别和三维框的信息，其中n是一帧点云包含的点数，点云里的每一个点包含该点在自车坐标系下的(x,y,z)坐标。现有方法通常使用卷积神经网络(convolution neural network，cnn)来做端到端(end-to-end)的预测。而域适应目标检测任务是指模型在源数据集上训练，并将性能迁移到目标数据集上。
51.本技术采用主动域适应(active domain adaptation,ada)的任务定义和方法来缓解自动驾驶场景下常见的传感器和数据差异。给定有标记的源域集ns表示源域数据总量；无标记的目标域集标注团队的标注预算b，其中b＜＜n
t
,n
t
表示标注团队对目标域数据进行全部标注的总体代价。根据标准的主动域适应任务设置，构建一个标记的目标数据集该数据集初始为空，在r轮采样过程中更新。在第k个采
样轮次中，当k《r时，从(表示d
t
除去的数据集)中选择一个子集并人工标记。那么将被更新为经过r轮采样过程，中的数据数量达到标注预算b的上限，即注意，与以往的ada方法不同，在本技术中，我们针对自动驾驶场景，采用时序帧级别的采样策略，即是以时序信息保存并且被更新为同样标注过程也是以时序进行的。
52.下面结合附图和实施例对本发明进一步详细说明。
53.参照图1，其示出了适用于本技术实施例提供的基于时序帧主动学习的跨域目标检测方法的流程示意图。
54.如图1所示，基于时序帧主动学习的跨域目标检测方法，可以包括：
55.s110、获取待检测目标域的时序点云信息，将时序点云信息分成单帧点云数据；
56.s120、将单帧点云数据输入训练好的时序帧主动学习三维目标检测模型中，得到点云场景中每个物体的类别及标记框；
57.其中，时序帧主动学习三维目标检测模型采用带标注的时序帧数据集进行训练，带标注的时序帧数据集通过基于时空连续帧主动学习采样策略，从全量无标注的时序帧中返回最具价值的时序帧，对最具价值的时序帧进行标注得到。
58.具体的，为了验证本技术方法的有效性，本技术使用常见的3d目标检测模型，即pv-rcnn作为时序帧主动学习三维目标检测模型的基线模型。pv-rcnn是一种典型的两阶段三维目标检测模型，融合了基于3d point(点)和基于3dvoxel(体素)的cnn的优点。
59.本技术实施例提出的基于时空连续帧主动学习采样策略，其瞄准从全量无标注的时序帧中用算法挑选出一部分最具价值的时序帧，而标注团队仅仅需要在我们算法输出的这一部分最具价值的时序帧上进行标注，大幅地降低了自动驾驶企业对于数据标注的依赖。
60.将最具价值的时序帧标注后对时序帧主动学习三维目标检测模型进行训练，经实验比对，可以发现其可以实现全量标注所有时序帧所能达到的性能。
61.一个实施例中，基于时空连续帧主动学习采样策略从全量无标注的时序帧中返回最具价值的时序帧，包括：
62.获取若干无标注时序帧；
63.无标注时序帧输入多粒度时序域判别器，得到时序帧的域得分；
64.将时序帧的域得分进行降序排序，选取排序中前预设比例对应的时序帧作为最具价值的时序帧。
65.其中，无标注时序帧输入多粒度时序域判别器，得到时序帧的域得分，包括：
66.无标注时序帧输入检测器，得到时序-场景级显著性描述特征图；
67.根据时序-场景级显著性描述特征图，得到时序帧的域得分。
68.其中，无标注时序帧输入检测器，得到时序-场景级显著性描述特征图，包括：
69.无标注时序帧输入三维骨干网络，得到三维特征描述；
70.将三维特征描述映射到提取鸟瞰图特征，得到鸟瞰图特征映射；
71.将鸟瞰图特征映射输入二维骨干网络，得到二维特征描述；
72.将二维特征描述通过区域建议网络，得到目标得分；
73.根据目标得分，确定时序-场景级显著性描述特征图。
74.其中，根据目标得分，确定时序-场景级显著性描述特征图，包括：
75.根据目标得分，确定熵得分；
76.采用一致性评价函数，确定相邻两个时序帧的二维特征描述的时序信息得分；
77.根据目标得分、熵得分、时序信息得分及二维特征描述，确定时序-场景级显著性描述特征图。
78.其中，采用最具价值的时序帧对检测器进行微调。
79.其中，检测器的目标损失函数包括区域建议网络损失函数、优化损失函数和关键点分割损失函数。
80.具体的，参照图2，其示出了基于时空连续帧主动学习采样策略的框架示意图，如图2中，将整个方法分为两个阶段：1)时序帧采样/标注阶段；2)时序帧微调阶段。在时序帧采样/标注阶段，可以利用本技术提供的方法将海量冗余、重复的时序帧进行归纳、总结，从而挑选出海量数据中最具有代表力的时序帧，并且提供给下游标注团队进行有效时序帧标注。对于时序帧微调阶段，利用目前现有的自动驾驶感知模型，如pv-rcnn，来进行模型部署。
81.时序帧采样/标注阶段：
82.假设自动驾驶系统在某一个时间段内采集到了海量的无标注时序数据其中n
t
代表了该自动驾驶厂商需要进行全量数据标注所需要的代价。时序帧采样/标注阶段主要是通过多粒度(目标得分、熵得分、时序信息得分)评判准则，对所有无标注时序帧进行逐个打分，每一个时序帧会赋予一个重要性得分s，该得分代表了在海量无标注数据中，当前时序信息所包含的信息量。接下来，将详细介绍对于每一个时序帧，如何获得重要性得分s。
83.如图2所示，输入的时序帧，送入到三维骨干网络中，从而获得三维特征描述，继而将该三维特征描述映射到提取鸟瞰图(bird eye view,bev)特征，从而来获得对当前时序帧的场景级的空间表示。然而，由于点云数据的稀疏分布，由三维稀疏卷积提取的bev特征同样具有较高的稀疏性，此外，考虑到输入是一个时序帧序列，因此，需要建模时序信息来获得沿着时间维度上场景级表示。
84.针对上述两个考虑，本技术设计了一个多粒度时序域判别器，旨在通过挖掘场景级的前景特征区域来合并整个时序帧的域特性。具体来说，设表示输入的时序帧，其中d∈[s,t],表示样本x来自源域s或目标域t。接下来，如上先获得bev特征映射f
bev
＝rc×h×w，其中c表示通道数，h和w分别为特征的高度和宽度。
[0085]
为了使判别器更加关注前景区域，如图2所示，首先通过区域建议网络(region proposal network，rpn)运算获得目标得分s
obj
∈rc′×h×w，其中c
′
表示每个位置的锚框的数量。目标评分表示默认锚框属于前景对象的概率。由于输入的时序帧序列带有更强的不确定性以及域差异，以及为了更好地建模实例级与场景之间的空间特征，受到前人使用熵来衡量不确定性的启发，本技术利用下面的公式来计算熵得分s
ent
∈rc′×h×w：
[0086]sent
＝-s
obj logs
obj-(1-s
obj
)log(1-s
obj
)
[0087]
其中s
ent
表示对描述当前时序帧的bev特征的不确定性评价，这描述了整个时序帧
中所有实例对象对于整个场景的不确定关系。此外，由于输入数据是时序的，同样需要考虑时序信息来获得合理的采样重要性得分。假设和是一个时序序列中的前后两个帧(此处采用bev的特征表达)，计算时序信息得分需要考虑当前前后两帧数据的一致性，如果一致性较强，认为当前的前后帧是容易被感知模型所识别的，因此降低得分；反之，如果一致性较差，认为当前的前后帧是属于较为异常的情况，需要重点考虑，因此提高得分，如下：
[0088][0089]
其中，consistent(,)表示对于两个特征的一致性评价函数。需要注意的是，计算两个特征和的一致性的评价有很多种方式，这里具体化采用余弦相似度。
[0090]
最终，结合s
obj
,s
ent
和s
con
，就可以得到时序-场景级的显著性描述图，使模型更加关注前景特征、不确定性描述、时序特征，其中，时序-场景级的显著性描述图的计算方法如下：
[0091][0092]
其中，表示时序-场景级的显著性描述，和分别为s
obj
，s
ent
和s
con
特征向量的沿通道维度的最大值。
[0093]
在时序-场景级的显著性描述特征图的基础上，利用具有典型卷积结构的域判别器来区分数据是来自源域还是目标域，以此方式来建模当前时序帧是否接近之前的源域数据分布，以此来判断当前时序帧是否为“安全迁移的”，其中域判别器的损失函数可写成:
[0094][0095]
其中，l
dom
为域损失，h表示源-目标域判别器，为源域时序-场景级的显著性描述特征图，为目标域时序-场景级的显著性描述特征图，0和1表示域标签。如果时序帧的域得分越接近0，则表示当前时序帧接近源域并且可以被迁移，则不需要去进行人工标注；如果时序帧的域得分接近1，则表示当前时序帧接近目标域，则需要去进行人工标注。因此，最终根据域判别器所预测的域得分进行从高到低排序，并且选择较高(即排序中前预设比例，该预设比例可以根据实际需求进行设置)的一批数据(即最具价值的时序帧)进行人工标注。
[0096]
时序帧微调阶段
[0097]
当通过上述方式选出了最具有价值的时序帧后，将最具有价值的时序帧送给标注团队进行标注，之后利用感知模型在这批带标注的数据上进行微调，其中微调过程的总体目标可表述如下：
[0098][0099]
其中，l
rpn
表示由锚框分类损失函数和锚框回归损失函数组成的rpn损失
函数。l
rcnn
表示优化损失函数，包含交并比(intersection over union,iou)引导的预测损失函数和边界框优化损失函数l
seg
是关键点分割损失函数。
[0100]
为了使检测器从源域适应到目标域，本技术提供的方法包含三个步骤。1)源域预训练(source-domain pre-training)：首先在ds上对检测器进行预训练，保证检测器能够学习到足够的知识，用于后续的模型迁移和有效时序帧采样；2)时空连续帧主动学习采样策略(sequence-level active learning sampling strategy)：在这一步中，从多个粒度包括目标得分、熵得分、时序信息得分来评判一个时序帧是否值得标注，并且给出所有输入数据的时序级别重要程度排序结果，并对最重要的一批数据进行人工标注；3)时序帧微调阶段(sequence-level fine-tuning)：基于上述人工标注的重要时序帧我们利用基线检测器在上进行微调，以减小不同传感器、厂商之间的数据域差异。
[0101]
在自动驾驶场景下，为了对齐标注团队的标注方案(其往往是进行一种时序帧级别的标注)，本技术设计了一种时空连续帧主动学习采样策略，其可以帮助标注团队优先标注最具有价值的时序帧，从而降低自动驾驶标注团队的标注成本。
[0102]
本技术提出了一种针对自动驾驶时序帧场景下的多粒度评价准则，从目标得分、熵得分、时序信息得分三个角度来综合评价一个时序序列的重要程度，如此一种多粒度评价的方式全面地缓解了不同传感器方案之间的数据差异，进而提升了3d自动驾驶感知模型在面临不同场景、不同域时的感知性能。
[0103]
已有相关的数值实验验证，相比于现有的3d目标检测方法，本技术提供的基于时序帧主动学习的跨域目标检测方法在许多典型的跨数据集场景中进行了实验，包括跨线束、跨国家、跨传感器的域适应任务，实现了卓越的目标域检测精度，验证了方法对于不同场景域变化条件下模型的鲁棒性。通过使用本技术的方法，仅在1％标记的kitti上训练的模型可以达到89.63％的3d感知性能，其优于使用100％标记的kitti上训练的结果(88.98％)。
[0104]
参照图3，其示出了根据本技术一个实施例描述的基于时序帧主动学习的跨域目标检测装置300的结构示意图。
[0105]
如图3所示，基于时序帧主动学习的跨域目标检测装置，可以包括：
[0106]
获取模块310，用于获取待检测目标域的时序点云信息，将时序点云信息分成单帧点云数据；
[0107]
目标检测模块320，用于将单帧点云数据输入训练好的时序帧主动学习三维目标检测模型中，得到点云场景中每个物体的类别及标记框；
[0108]
其中，时序帧主动学习三维目标检测模型采用带标注的时序帧数据集进行训练，带标注的时序帧数据集通过基于时空连续帧主动学习采样策略，从全量无标注的时序帧中返回最具价值的时序帧，对最具价值的时序帧进行标注得到。
[0109]
可选的，基于时序帧主动学习的跨域目标检测装置还用于：
[0110]
获取若干无标注时序帧；
[0111]
无标注时序帧输入多粒度时序域判别器，得到时序帧的域得分；
[0112]
将时序帧的域得分进行降序排序，选取排序中前预设比例对应的时序帧作为最具价值的时序帧。
[0113]
可选的，基于时序帧主动学习的跨域目标检测装置还用于：
[0114]
无标注时序帧输入检测器，得到时序-场景级显著性描述特征图；
[0115]
根据时序-场景级显著性描述特征图，得到时序帧的域得分。
[0116]
可选的，基于时序帧主动学习的跨域目标检测装置还用于：
[0117]
无标注时序帧输入三维骨干网络，得到三维特征描述；
[0118]
将三维特征描述映射到提取鸟瞰图特征，得到鸟瞰图特征映射；
[0119]
将鸟瞰图特征映射输入二维骨干网络，得到二维特征描述；
[0120]
将二维特征描述通过区域建议网络，得到目标得分；
[0121]
根据目标得分，确定时序-场景级显著性描述特征图。
[0122]
可选的，基于时序帧主动学习的跨域目标检测装置还用于：
[0123]
根据目标得分，确定熵得分；
[0124]
采用一致性评价函数，确定相邻两个时序帧的二维特征描述的时序信息得分；
[0125]
根据目标得分、熵得分、时序信息得分及二维特征描述，确定时序-场景级显著性描述特征图。
[0126]
可选的，基于时序帧主动学习的跨域目标检测装置还用于：采用最具价值的时序帧对检测器进行微调。
[0127]
可选的，检测器的目标损失函数包括区域建议网络损失函数、优化损失函数和关键点分割损失函数。
[0128]
本实施例提供的一种基于时序帧主动学习的跨域目标检测装置，可以执行上述方法的实施例，其实现原理和技术效果类似，在此不再赘述。
[0129]
图4为本发明实施例提供的一种电子设备的结构示意图。如图4所示，示出了适于用来实现本技术实施例的电子设备400的结构示意图。
[0130]
如图4所示，电子设备400包括中央处理单元(cpu)401，其可以根据存储在只读存储器(rom)402中的程序或者从存储部分408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram 403中，还存储有设备400操作所需的各种程序和数据。cpu 401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
[0131]
以下部件连接至i/o接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至i/o接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。
[0132]
特别地，根据本公开的实施例，上文参考图1描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行上述基于时序帧主动学习的跨域目标检测方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。
[0133]
附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程
序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0134]
描述于本技术实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
[0135]
上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、笔记本电脑、行动电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0136]
作为另一方面，本技术还提供了一种存储介质，该存储介质可以是上述实施例中前述装置中所包含的存储介质；也可以是单独存在，未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本技术的基于时序帧主动学习的跨域目标检测方法。
[0137]
存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0138]
需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0139]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

技术特征：
1.一种基于时序帧主动学习的跨域目标检测方法，其特征在于，所述方法包括：获取待检测目标域的时序点云信息，将所述时序点云信息分成单帧点云数据；将所述单帧点云数据输入训练好的时序帧主动学习三维目标检测模型中，得到所述点云场景中每个物体的类别及标记框；其中，所述时序帧主动学习三维目标检测模型采用带标注的时序帧数据集进行训练，所述带标注的时序帧数据集通过基于时空连续帧主动学习采样策略，从全量无标注的时序帧中返回最具价值的时序帧，对所述最具价值的时序帧进行标注得到。2.根据权利要求1所述的方法，其特征在于，所述基于时空连续帧主动学习采样策略从全量无标注的时序帧中返回最具价值的时序帧，包括：获取若干无标注时序帧；所述无标注时序帧输入多粒度时序域判别器，得到时序帧的域得分；将所述时序帧的域得分进行降序排序，选取排序中前预设比例对应的时序帧作为所述最具价值的时序帧。3.根据权利要求2所述的方法，其特征在于，所述无标注时序帧输入多粒度时序域判别器，得到时序帧的域得分，包括：所述无标注时序帧输入检测器，得到时序-场景级显著性描述特征图；根据所述时序-场景级显著性描述特征图，得到所述时序帧的域得分。4.根据权利要求3所述的方法，其特征在于，所述无标注时序帧输入检测器，得到时序-场景级显著性描述特征图，包括：所述无标注时序帧输入三维骨干网络，得到三维特征描述；将所述三维特征描述映射到提取鸟瞰图特征，得到鸟瞰图特征映射；将所述鸟瞰图特征映射输入二维骨干网络，得到二维特征描述；将所述二维特征描述通过区域建议网络，得到目标得分；根据所述目标得分，确定所述时序-场景级显著性描述特征图。5.根据权利要求4所述的方法，其特征在于，所述根据所述目标得分，确定所述时序-场景级显著性描述特征图，包括：根据所述目标得分，确定熵得分；采用一致性评价函数，确定相邻两个时序帧的二维特征描述的时序信息得分；根据所述目标得分、所述熵得分、所述时序信息得分及所述二维特征描述，确定所述时序-场景级显著性描述特征图。6.根据权利要求3所述的方法，其特征在于，采用所述最具价值的时序帧对所述检测器进行微调。7.根据权利要求6所述的方法，其特征在于，所述检测器的目标损失函数包括区域建议网络损失函数、优化损失函数和关键点分割损失函数。8.一种基于时序帧主动学习的跨域目标检测装置，其特征在于，所述装置包括：获取模块，用于获取待检测目标域的时序点云信息，将所述时序点云信息分成单帧点云数据；目标检测模块，用于将所述单帧点云数据输入训练好的时序帧主动学习三维目标检测模型中，得到所述点云场景中每个物体的类别及标记框；
其中，所述时序帧主动学习三维目标检测模型采用带标注的时序帧数据集进行训练，所述带标注的时序帧数据集通过基于时空连续帧主动学习采样策略，从全量无标注的时序帧中返回最具价值的时序帧，对所述最具价值的时序帧进行标注得到。9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的基于时序帧主动学习的跨域目标检测方法。10.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的基于时序帧主动学习的跨域目标检测方法。

技术总结
本申请提供一种基于时序帧主动学习的跨域目标检测方法及装置，该方法包括：获取待检测目标域的时序点云信息，将时序点云信息分成单帧点云数据；将单帧点云数据输入训练好的时序帧主动学习三维目标检测模型中，得到点云场景中每个物体的类别及标记框；其中，时序帧主动学习三维目标检测模型采用带标注的时序帧数据集进行训练，带标注的时序帧数据集通过基于时空连续帧主动学习采样策略，从全量无标注的时序帧中返回最具价值的时序帧，对最具价值的时序帧进行标注得到，从而降低标注团队的标注成本。该方案大幅降低了自动驾驶感知模型对于海量时序帧标注的需要。于海量时序帧标注的需要。于海量时序帧标注的需要。

技术研发人员：张铂石博天李怡康窦民闫翔超
受保护的技术使用者：上海人工智能创新中心
技术研发日：2023.03.27
技术公布日：2023/9/14

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于时序帧主动学习的跨域目标检测方法及装置与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于时序帧主动学习的跨域目标检测方法及装置与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表