三维点云的目标检测方法、装置、设备及存储介质与流程
未命名
07-23
阅读:106
评论:0
1.本技术属于目标检测技术领域,尤其涉及一种三维点云的目标检测方法、装置、设备及存储介质。
背景技术:
2.随着计算机视觉技术的日渐成熟以及计算机算力的不断提高,越来越多的应用场景对目标检测产生需求。目标检测可以分为二维目标检测和三维目标检测。由于二维图像缺乏深度信息,二维目标检测无法直接得到目标在空间中的位置与姿态等信息,往往需要其他传感器数据进行辅助,因而在自动驾驶、机器人控制以及军事、地图领域具有一定的局限性。而三维点云保留了物体的深度信息,且在复杂场景中,三维点云呈现出的目标特征,抗干扰、噪声的能力更强,目标定位和位姿检测结果更为准确,因此基于三维点云的目标检测算法也成为热门研究方向之一。
3.目前,基于三维点云的目标检测算法通常为voxelnet和frustum pointnet(f-pointnet)算法。这些算法在目标被遮挡、尺度剧烈变化、高速运动或处于复杂背景的情况下,容易出现检测精度较低、检测速率慢、鲁棒性差的的情况。因此,目前基于三维点云的目标检测算法的检测效率较低。
技术实现要素:
4.本技术的实施例提供了一种三维点云的目标检测方法、装置、设备及存储介质,进而能够提高三维点云的目标检测的检测效率。
5.本技术的其它特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
6.根据本技术实施例的第一方面,提供了一种三维点云的目标检测方法,所述目标检测方法包括:
7.对计算机视觉算法测评kitti数据集进行数据增强处理,得到第一三维点云数据和高度图数据;
8.对所述第一三维点云数据和所述高度图数据分别进行上下文特征提取,以得到全局特征;
9.将所述全局特征输入到目标定位网络,得到所述目标定位网络输出的三维变换矩阵;
10.利用所述三维变换矩阵对待检测的第二三维点云数据进行三维变换,得到三维注意区域;
11.对所述三维注意区域内的目标对象进行分类和三维边界框预测,对应得到所述目标对象的类别和边界框。
12.在本技术的一些实施例中,基于前述方案,所述对所述第一三维点云数据和所述高度图数据分别进行上下文特征提取,以得到全局特征,包括:
13.利用特征提取网络对所述第一三维点云数据进行上下文特征提取,得到第一三维上下文特征;
14.对所述高度图数据进行上下文特征提取,得到二维上下文特征;
15.利用加法对所述第一三维上下文特征与所述二维上下文特征进行融合,得到所述全局特征。
16.在本技术的一些实施例中,基于前述方案,所述目标定位网络包括门控循环单元和全连接网络单元,所述将所述全局特征输入到目标定位网络,得到所述目标定位网络输出的三维变换矩阵,包括:
17.将所述全局特征输入至所述门控循环单元,得到所述门控循环单元输出的第一向量;
18.将所述第一向量输入至所述全连接网络单元,以得到所述全连接网络单元输出的所述三维变换矩阵。
19.在本技术的一些实施例中,基于前述方案,所述利用所述三维变换矩阵对待检测的第二三维点云数据进行三维变换,得到三维注意区域之后,所述方法还包括:
20.对所述三维注意区域内的点云数据进行重采样,得到重采样后的点云数据;
21.对所述重采样后的点云数据内的目标对象进行分类和三维边界框预测,对应得到所述目标对象的类别和边界框。
22.在本技术的一些实施例中,基于前述方案,所述对所述重采样后的点云数据内的目标对象进行分类和三维边界框预测,对应得到所述目标对象的类别和边界框,包括:
23.对所述重采样后的点云数据进行上下文特征提取,以得到第二三维上下文特征;
24.将所述第二三维上下文特征输入至粗到精细回归cfr模块,得到回归特征和三维边界框;
25.将所述回归特征输入至分类器,得到所述目标对象的类别;
26.将所述三维边界框输入至三维边界框估计网络,得到所述目标对象的边界框。
27.在本技术的一些实施例中,基于前述方案,所述cfr模块包括粗回归cr模块和细回归fr模块,所述将所述第二三维上下文特征输入至粗到精细回归cfr模块,得到回归特征和三维边界框,包括:
28.将所述第二三维上下文特征输入至所述cr模块中,得到所述cr模块输出的第二向量和粗三维边界框;
29.将所述粗三维边界框输入至所述fr模块进行跨层特征映射,得到映射特征;
30.将所述第二向量进行卷积后与所述映射特征相加,得到融合特征;
31.对所述融合特征进行卷积,得到所述回归特征;
32.利用所述回归特征、所述粗三维边界框和所述fr模块,得到所述三维边界框。
33.在本技术的一些实施例中,基于前述方案,所述cfr模块利用以下损失函数训练得到:
[0034][0035]
其中,上标c表示所述cr模块,上标r表示所述fr模块,表示所述cr模块中的正
样本数,表示所述fr模块的正样本数,δ表示分类损失函数l
cls
的平衡权重,ε表示回归损失函数l
reg
的平衡权重,ζ表示平衡所述cr模块和所述fr模块的权重,δ
p
表示初始边界框与预测边界框间回归的偏移量,δg表示初始边界框与真值边界框间回归的偏移量。
[0036]
根据本技术实施例的第二方面,提供了一种三维点云的目标检测装置,所述目标检测装置包括:
[0037]
数据增强单元,用于对计算机视觉算法测评kitti数据集进行数据增强处理,得到第一三维点云数据和高度图数据;
[0038]
特征提取单元,用于对所述第一三维点云数据和所述高度图数据分别进行上下文特征提取,以得到全局特征;
[0039]
矩阵确定单元,用于将所述全局特征输入到目标定位网络,得到所述目标定位网络输出的三维变换矩阵;
[0040]
三维变换单元,用于利用所述三维变换矩阵对待检测的第二三维点云数据进行三维变换,得到三维注意区域;
[0041]
目标预测单元,用于对所述三维注意区域内的目标对象进行分类和三维边界框预测,对应得到所述目标对象的类别和边界框。
[0042]
根据本技术实施例的第三方面,提供了一种三维点云的目标检测设备,所述三维点云的目标检测设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
[0043]
根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
[0044]
在本技术中,通过基于注意力机制进行目标检测,忽略了无关数据,既减少了数据计算量,提高了检测速率,也提升了复杂场景下三维点云目标检测的精度,具有检测效率较高的效果。
[0045]
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
[0046]
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。在附图中:
[0047]
图1为一个实施例中三维点云的目标检测方法的流程示意图;
[0048]
图2为一个实施例中步骤101的流程示意图;
[0049]
图3为图2中步骤201的特征提取过程示意图;
[0050]
图4为一个实施例中步骤104中三维变换的二维示意图;
[0051]
图5为一个实施例中cfr模块的结构示意图;
[0052]
图6为一个实施例中三维点云的目标检测装置的结构框图;
[0053]
图7为一个实施例中三维点云的目标检测设备的内部结构图。
具体实施方式
[0054]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
[0055]
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
[0056]
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0057]
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0058]
需要注意的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在图示或描述的那些以外的顺序实施。
[0059]
在一个实施例中,如图1所示,提供了一种三维点云的目标检测方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。
[0060]
本实施例中,该方法包括以下步骤:
[0061]
步骤101,对计算机视觉算法测评kitti数据集进行数据增强处理,得到第一三维点云数据和高度图数据。
[0062]
其中,kitti数据集是由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,利用组装的设备齐全的采集车辆对实际交通场景进行数据采集获得的公开数据集。本技术中训练和验证均可以采用kitti数据集,该数据集中的每个点云数据约由10万个点组成,数据量过大,因此需要先进行数据增强处理。
[0063]
其中,第一三维点云数据是具有标签序列的三维点云数据。
[0064]
具体地,可以将数据集中的训练样本按比例分为训练集和验证集,例如将7481个训练样本分为包含3712个样本的训练集和3769个样本的验证集;数据集仅提供相机视角范围内对象的标签,因为点云数据中每个对象都具有标签,所以要删除相机视角范围外的点;将相机视角范围区域划分为20个12
×
12的等间距区域,每个相邻区域重叠1m,并使得每个区域采样点数相同为n,将每个区域垂直投影至二维平面,转换成120
×
120像素编码高度信息的灰度图像,即高度图数据;对每个区域生成标签序列,假设每个区域最多有n个对象,则其标签序列为每个标签为:采用gt-sampling的方式,生成一个包含所有真值三维边界框的标签及其对应的点云数据
的数据库,然后通过级联的方式将该数据库中的几个真值三维边界框随机地引入到当前训练的点云中,增加数据丰富程度。
[0065]
步骤102,对第一三维点云数据和高度图数据分别进行上下文特征提取,以得到全局特征。
[0066]
具体地,可以对第一三维点云数据进行上下文特征提取,以及对高度图数据进行上下文特征提取,将两次提取的特征进行融合,得到全局特征。
[0067]
图2为一个实施例中步骤101的流程示意图,如图2所示,对第一三维点云数据和高度图数据分别进行上下文特征提取,以得到全局特征,可以包括以下步骤:
[0068]
步骤201,利用特征提取网络对第一三维点云数据进行上下文特征提取,得到第一三维上下文特征。
[0069]
步骤202,对高度图数据进行上下文特征提取,得到二维上下文特征。
[0070]
步骤203,利用加法对第一三维上下文特征与二维上下文特征进行融合,得到全局特征。
[0071]
其中,特征提取网络可以是pointnet网络,该网络是一个可以端到端的处理点云数据的神经网络架构。图3为图2中步骤201的特征提取过程示意图,图中n表示点云目标所对应的n个点,每个批batch的总点数为batch
×n×
3,通过多层感知机进行点云数据的升维,随后通过最大池化层生成batch个1024维的三维点云图像上下文特征向量,即第一三维上下文特征。
[0072]
二维特征可以采用多层二维卷积,并进行最大池化操作,表征为1024维的二维上下文特征。由于二维上下文特征与第一三维上下文特征具有互补的性质,因此直接采用加法操作将两个特征进行融合,得到全局特征。
[0073]
步骤103,将全局特征输入到目标定位网络,得到目标定位网络输出的三维变换矩阵。
[0074]
具体地,目标定位网络可以包括门控循环单元和全连接网络单元,将全局特征输入到目标定位网络,得到目标定位网络输出的三维变换矩阵,可以包括以下步骤:将全局特征输入至门控循环单元,得到门控循环单元输出的第一向量;将第一向量输入至全连接网络单元,以得到全连接网络单元输出的三维变换矩阵。
[0075]
应当理解的是,将融合了二维上下文特征和第一三维上下文特征的全局特征(b,1024)输入至门控循环单元,同时将门控循环单元上一次(i-1,i表示当前迭代次)迭代中得到的隐藏向量作为另一个输入,可以得到第一向量(b,512),将第一向量作为全连接网络单元的输入。
[0076]
全连接网络单元将门控循环单元的每次迭代输出的第一向量作为输入,并输出下列五个参数(cosθi,sinθi,txi,tyi,tzi),考虑每次迭代过程里,原始点云沿z轴旋转θi度,生成变换矩阵如下:
[0077][0078]
基于门控循环单元的特性,可以对该三维变换矩阵进行有监督学习,步骤如下:
[0079]
f=f
feature
(point+height);
[0080]hi
=f
gru
(f,h
i-1
);
[0081]
ti=f
localization
(hi);
[0082]
其中,f
feature
表示特征提取网络,point+height表示第一三维点云数据和其对应的高度图数据,f表示全局特征,f
gru
表示门控循环单元,f
localication
表示全连接网络单元,ti表示每次迭代产生的一个三维变换矩阵。
[0083]
步骤104,利用三维变换矩阵对待检测的第二三维点云数据进行三维变换,得到三维注意区域。
[0084]
为了使整个目标检测模型能够进行反向传播,实现端对端训练,可以将待检测的第二三维点云数据通过三维变换矩阵进行三维变换。
[0085]
图4为一个实施例中步骤104中三维变换的二维示意图,如图4所示,第二三维点云数据p(n,3)在一个以(0,0,0)为中心,宽、长、高分别为(w,l,h)的三维边界框中,经过三维变换后,将属于感兴趣对象的点转换到一个较小的以(0,0,0)为中心,宽、长、高分别为(w’,l’,h’)的三维注意区域。
[0086]
步骤105,对三维注意区域内的目标对象进行分类和三维边界框预测,对应得到目标对象的类别和边界框。
[0087]
应当理解的是,为了减少需要处理的点数,提高检测效率,在利用三维变换矩阵对待检测的第二三维点云数据进行三维变换,得到三维注意区域之后,该方法还可以包括以下步骤:对三维注意区域内的点云数据进行重采样,得到重采样后的点云数据。进而,在对目标对象进行检测时,可以对重采样后的点云数据内的目标对象进行分类和三维边界框预测,对应得到目标对象的类别和边界框。
[0088]
具体地,可以对重采样后的点云数据进行上下文特征提取,以得到第二三维上下文特征;将第二三维上下文特征输入至粗到精细回归cfr模块,得到回归特征和三维边界框;将回归特征输入至分类器,得到目标对象的类别;将三维边界框输入至三维边界框估计网络,得到目标对象的边界框。
[0089]
其中,可以利用pointnet网络进行上下文特征提取,得到三维注意区域的全局特征向量,即第二三维上下文特征fg,并将其作为cfr模块的输入。
[0090]
cfr模块包括粗回归(coarse regression,cr)模块和细回归(fine regression,fr)模块,将第二三维上下文特征输入至粗到精细回归cfr模块,得到回归特征和三维边界框,包括:将第二三维上下文特征输入至cr模块中,得到cr模块输出的第二向量和粗三维边界框;将粗三维边界框输入至fr模块进行跨层特征映射,得到映射特征;将第二向量进行卷积后与映射特征相加,得到融合特征;对融合特征进行卷积,得到回归特征;利用回归特征、粗三维边界框和fr模块,得到三维边界框。
[0091]
图5为一个实施例中cfr模块的结构示意图,如图5所示,cfr模块由cr模块和fr模块两部分组成。下文将图中block1、block2和block3的输出表示为b1、b2和b3,其结构参数分别为(c’,h/2,w/2)、(2c’,h/4,w/4)和(4c’,h/8,w/8),其中(c’,h,w)分别表示第二三维上下文特征fg的维度。cr模块生成一个大小为(6c’,h/2,w/2)的特征向量fc,并将fc作为分类回归网络的输入,然后将得到的粗三维边界框作为fr模块输入的一部分。
[0092]
基于cr模块的输出,采用了金字塔抽样聚合(pyramid sampling aggregation,
psa)模块进行跨层特征映射。高级特征提供了更大的接收域和更丰富的语义信息,低级特征提供了更高的分辨率。因此,跨层特征映射有效地捕获了多层信息,从而为目标对象提供了更全面、鲁棒性更好的特征表示。具体地,基于b1得到的特征金字塔其中等价于b1,和分别通过在b1上执行两个下采样操作得到的。同理,与b2的大小相同,与b3的大小相同,在b2上执行上采样和下采样操作以获得此外,是通过两个基于b3上的上采样操作得到的。
[0093]
为了充分利用跨层特征,将和连接起来,其中i=1,2,3。然后对连接起来的特征做一系列卷积操作,最后再做一个上采样操作,使得得到的特征映射up={up1,up2,up3}具有相同的大小(2c’*h/2*w/2)。此外,还将从psa模块得到的特征与cr模块得到的语义信息相结合,具体操作如下,首先采用1*1的卷积操作将fc转换为fb,fb与up中的特征有相同的维数,然后把up中的每一个特征与fb相加得到一个融合特征,并对每一个融合特征再做一个3*3的卷积操作。将up中处理后的特征连接起来得到fr,把它作为fr模块的回归特征。fr模块的回归分支将cr模块中得到的粗三维边界框作为一个输入来回归最终的三维边界框,并进行分类。
[0094]
具体地,可以通过分类器对三维注意区域中的目标对象进行分类。分类器可以由三个全连接层、两个dropout层和修正线性单元(rectified layer units,relu)激活函数组成,将回归特征fr输入至分类器,分类器输出三维注意区域中目标对象的类别。
[0095]
另外,可以通过三维边界框估计网络估计三维注意区域中目标对象的边界框。三维估计网络可以由三个全连接层和一个relu激活函数组成,将三维边界框输入至三维边界框估计网络,三维边界框估计网络输出三维注意区域中目标对象的真实中心和方向的三维变换矩阵参数,以及边界框的高、宽、长,进而确定目标对象的边界框。
[0096]
本实施例通过在神经网络中嵌入注意力机制进行目标检测,忽略了无关数据,关注关键数据,既减少了数据计算量,加快训练进程,提高了检测速率,也提升了复杂场景下三维点云目标检测的精度,具有检测效率较高的效果以及较好的鲁棒性,对不同的检测目标具有较好的泛化能力。
[0097]
本技术中整个目标检测模型主要包括三个部分:特征提取网络、目标定位网络和cfr模块。在训练过程中,整个模型的损失函数可以定义为:
[0098]
l
seq-i
=α*l
t1-reg
+β*l
cfr
;
[0099][0100]
其中α和β表示权重系数,l
seq-i
表示每一次迭代时目标检测模型总的损失函数,l
cfr
表示cfr模块的损失函数,l
t1-reg
表示在目标定位网络中用于三维变换矩阵参数回归的损失函数,l
total
表示目标检测模型n次迭代后总的损失函数。对不同的检测类型,目标检测模型迭代次数与训练样本中每个点云采样区域所能包含的最多目标个数相同,如车辆检测需迭代3次,行人检测需迭代6次。l
t1-reg
损失函数可以采用smoothl1(即huber损失函数),l
cfr
损失函数可以采用多任务损失函数对cr模块和fr模块进行联合优化。初始边界框a和真值边界框g之间回归的偏移量可以计算为:
[0101][0102][0103][0104]
其中,将初始边界框a和真值边界框g之间回归的偏移量表示为同理,将初始边界框a和预测边界框p间回归的偏移量表示为将smoothl1作为三维边界框回归的损失函数l
t1-reg
,此外,采用角度损失来更好地限制三维边界框的方向。当三维目标对象的方位角移动角度为
±
π时,并不影响对目标对象的定位估计,引入了正弦函数来编码方位角θ的损失。考虑到正样本数量和负样本数量的不平衡性,引入了focal loss作为分类损失函数l
cls
。需要注意的是,fr模块将cr模块得到的粗边界框作为新的初始边界框,这与使用初始边界框的cr模块不同。
[0105]
在一个实施例中,cfr模块可以利用以下损失函数训练得到:
[0106][0107]
其中,上标c表示cr模块,上标r表示fr模块,表示cr模块中的正样本数,表示fr模块的正样本数,δ表示分类损失函数l
cls
的平衡权重,ε表示回归损失函数l
reg
的平衡权重,ζ表示平衡cr模块和fr模块的权重,δ
p
表示初始边界框与预测边界框间回归的偏移量,δg表示初始边界框与真值边界框间回归的偏移量。
[0108]
本实施例通过定义目标检测模型的损失函数,提升了训练速度,以及边界框的定位效率,进而提升了目标检测的效率。
[0109]
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0110]
基于同一发明构思,本技术实施例还提供了一种三维点云的目标检测装置,如图6所示,三维点云的目标检测装置包括:数据增强单元601、特征提取单元602、矩阵确定单元603、三维变换单元604和目标预测单元605,其中:数据增强单元601,用于对计算机视觉算法测评kitti数据集进行数据增强处理,得到第一三维点云数据和高度图数据;特征提取单元602,用于对第一三维点云数据和高度图数据分别进行上下文特征提取,以得到全局特征;矩阵确定单元603,用于将全局特征输入到目标定位网络,得到目标定位网络输出的三维变换矩阵;三维变换单元604,用于利用三维变换矩阵对待检测的第二三维点云数据进行
三维变换,得到三维注意区域;目标预测单元605,用于对三维注意区域内的目标对象进行分类和三维边界框预测,对应得到目标对象的类别和边界框。
[0111]
在一个实施例中,特征提取单元602还用于利用特征提取网络对第一三维点云数据进行上下文特征提取,得到第一三维上下文特征;对高度图数据进行上下文特征提取,得到二维上下文特征;利用加法对第一三维上下文特征与二维上下文特征进行融合,得到全局特征。
[0112]
在一个实施例中,矩阵确定单元603还用于将全局特征输入至门控循环单元,得到门控循环单元输出的第一向量;将第一向量输入至全连接网络单元,以得到全连接网络单元输出的三维变换矩阵。
[0113]
在一个实施例中,目标预测单元605还用于对三维注意区域内的点云数据进行重采样,得到重采样后的点云数据;对重采样后的点云数据内的目标对象进行分类和三维边界框预测,对应得到目标对象的类别和边界框。
[0114]
在一个实施例中,目标预测单元605还用于对重采样后的点云数据进行上下文特征提取,以得到第二三维上下文特征;将第二三维上下文特征输入至粗到精细回归cfr模块,得到回归特征和三维边界框;将回归特征输入至分类器,得到目标对象的类别;将三维边界框输入至三维边界框估计网络,得到目标对象的边界框。
[0115]
在一个实施例中,目标预测单元605还用于将第二三维上下文特征输入至cr模块中,得到cr模块输出的第二向量和粗三维边界框;将粗三维边界框输入至fr模块进行跨层特征映射,得到映射特征;将第二向量进行卷积后与映射特征相加,得到融合特征;对融合特征进行卷积,得到回归特征;利用回归特征、粗三维边界框和fr模块,得到三维边界框。
[0116]
在一个实施例中,三维点云的目标检测装置还包括:训练单元(图未示),用于利用以下损失函数训练得到cfr模块:
[0117][0118]
其中,上标c表示cr模块,上标r表示fr模块,表示cr模块中的正样本数,表示fr模块的正样本数,δ表示分类损失函数l
cls
的平衡权重,ε表示回归损失函数l
reg
的平衡权重,ζ表示平衡cr模块和fr模块的权重,δ
p
表示初始边界框与预测边界框间回归的偏移量,δg表示初始边界框与真值边界框间回归的偏移量。
[0119]
上述三维点云的目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0120]
基于同一发明构思,本技术实施例还提供了一种三维点云的目标检测设备。图7为一个实施例中三维点云的目标检测设备的内部结构图,如图7所示,三维点云的目标检测设备包括一个或多个存储器704、一个或多个处理器702及存储在存储器704上并可在处理器702上运行的至少一条计算机程序(程序代码),处理器702执行计算机程序时实现如前的三维点云的目标检测方法。
[0121]
其中,在图7中,总线架构(用总线700来代表),总线700可以包括任意数量的互联
的总线和桥,总线700将包括由处理器702代表的一个或多个处理器和存储器704代表的存储器的各种电路链接在一起。总线700还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口705在总线700和接收器701和发送器703之间提供接口。接收器701和发送器703可以是同一个元件,即收发机,提供用于在传输介质上与各种其它装置通信的单元。处理器702负责管理总线700和通常的处理,而存储器704可以被用于存储处理器702在执行操作时所使用的数据。
[0122]
本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的三维点云的目标检测设备的限定,具体的三维点云的目标检测设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0123]
基于同一发明构思,本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0124]
对计算机视觉算法测评kitti数据集进行数据增强处理,得到第一三维点云数据和高度图数据;
[0125]
对第一三维点云数据和高度图数据分别进行上下文特征提取,以得到全局特征;
[0126]
将全局特征输入到目标定位网络,得到目标定位网络输出的三维变换矩阵;
[0127]
利用三维变换矩阵对待检测的第二三维点云数据进行三维变换,得到三维注意区域;
[0128]
对三维注意区域内的目标对象进行分类和三维边界框预测,对应得到目标对象的类别和边界框。
[0129]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0130]
利用特征提取网络对第一三维点云数据进行上下文特征提取,得到第一三维上下文特征;对高度图数据进行上下文特征提取,得到二维上下文特征;利用加法对第一三维上下文特征与二维上下文特征进行融合,得到全局特征。
[0131]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0132]
将全局特征输入至门控循环单元,得到门控循环单元输出的第一向量;将第一向量输入至全连接网络单元,以得到全连接网络单元输出的三维变换矩阵。
[0133]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0134]
对三维注意区域内的点云数据进行重采样,得到重采样后的点云数据;对重采样后的点云数据内的目标对象进行分类和三维边界框预测,对应得到目标对象的类别和边界框。
[0135]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0136]
对重采样后的点云数据进行上下文特征提取,以得到第二三维上下文特征;将第二三维上下文特征输入至粗到精细回归cfr模块,得到回归特征和三维边界框;将回归特征输入至分类器,得到目标对象的类别;将三维边界框输入至三维边界框估计网络,得到目标对象的边界框。
[0137]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0138]
将第二三维上下文特征输入至cr模块中,得到cr模块输出的第二向量和粗三维边
界框;将粗三维边界框输入至fr模块进行跨层特征映射,得到映射特征;将第二向量进行卷积后与映射特征相加,得到融合特征;对融合特征进行卷积,得到回归特征;利用回归特征、粗三维边界框和fr模块,得到三维边界框。
[0139]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0140]
利用以下损失函数训练得到cfr模块:
[0141][0142]
其中,上标c表示cr模块,上标r表示fr模块,表示cr模块中的正样本数,表示fr模块的正样本数,δ表示分类损失函数l
cls
的平衡权重,ε表示回归损失函数l
reg
的平衡权重,ζ表示平衡cr模块和fr模块的权重,δ
p
表示初始边界框与预测边界框间回归的偏移量,δg表示初始边界框与真值边界框间回归的偏移量。
[0143]
本文中所描述的功能可在硬件、由处理器执行的软件、固件或其任何组合中实施。如果在由处理器执行的软件中实施,那么可将功能作为一或多个指令或代码存储于计算机可读媒体上或经由计算机可读媒体予以传输。其它实例及实施方案在本技术及所附权利要求书的范围及精神内。举例来说,归因于软件的性质,上文所描述的功能可使用由处理器、硬件、固件、硬连线或这些中的任何者的组合执行的软件实施。此外,各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0144]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0145]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为控制装置的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0146]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0147]
以上所述仅为本技术的实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
技术特征:
1.一种三维点云的目标检测方法,其特征在于,所述目标检测方法包括:对计算机视觉算法测评kitti数据集进行数据增强处理,得到第一三维点云数据和高度图数据;对所述第一三维点云数据和所述高度图数据分别进行上下文特征提取,以得到全局特征;将所述全局特征输入到目标定位网络,得到所述目标定位网络输出的三维变换矩阵;利用所述三维变换矩阵对待检测的第二三维点云数据进行三维变换,得到三维注意区域;对所述三维注意区域内的目标对象进行分类和三维边界框预测,对应得到所述目标对象的类别和边界框。2.根据权利要求1所述的三维点云的目标检测方法,其特征在于,所述对所述第一三维点云数据和所述高度图数据分别进行上下文特征提取,以得到全局特征,包括:利用特征提取网络对所述第一三维点云数据进行上下文特征提取,得到第一三维上下文特征;对所述高度图数据进行上下文特征提取,得到二维上下文特征;利用加法对所述第一三维上下文特征与所述二维上下文特征进行融合,得到所述全局特征。3.根据权利要求1所述的三维点云的目标检测方法,其特征在于,所述目标定位网络包括门控循环单元和全连接网络单元,所述将所述全局特征输入到目标定位网络,得到所述目标定位网络输出的三维变换矩阵,包括:将所述全局特征输入至所述门控循环单元,得到所述门控循环单元输出的第一向量;将所述第一向量输入至所述全连接网络单元,以得到所述全连接网络单元输出的所述三维变换矩阵。4.根据权利要求1所述的三维点云的目标检测方法,其特征在于,所述利用所述三维变换矩阵对待检测的第二三维点云数据进行三维变换,得到三维注意区域之后,所述方法还包括:对所述三维注意区域内的点云数据进行重采样,得到重采样后的点云数据;对所述重采样后的点云数据内的目标对象进行分类和三维边界框预测,对应得到所述目标对象的类别和边界框。5.根据权利要求4所述的三维点云的目标检测方法,其特征在于,所述对所述重采样后的点云数据内的目标对象进行分类和三维边界框预测,对应得到所述目标对象的类别和边界框,包括:对所述重采样后的点云数据进行上下文特征提取,以得到第二三维上下文特征;将所述第二三维上下文特征输入至粗到精细回归cfr模块,得到回归特征和三维边界框;将所述回归特征输入至分类器,得到所述目标对象的类别;将所述三维边界框输入至三维边界框估计网络,得到所述目标对象的边界框。6.根据权利要求5所述的三维点云的目标检测方法,其特征在于,所述cfr模块包括粗回归cr模块和细回归fr模块,所述将所述第二三维上下文特征输入至粗到精细回归cfr模
块,得到回归特征和三维边界框,包括:将所述第二三维上下文特征输入至所述cr模块中,得到所述cr模块输出的第二向量和粗三维边界框;将所述粗三维边界框输入至所述fr模块进行跨层特征映射,得到映射特征;将所述第二向量进行卷积后与所述映射特征相加,得到融合特征;对所述融合特征进行卷积,得到所述回归特征;利用所述回归特征、所述粗三维边界框和所述fr模块,得到所述三维边界框。7.根据权利要求6所述的三维点云的目标检测方法,其特征在于,所述cfr模块利用以下损失函数训练得到:其中,上标c表示所述cr模块,上标r表示所述fr模块,表示所述cr模块中的正样本数,表示所述fr模块的正样本数,δ表示分类损失函数l
cls
的平衡权重,ε表示回归损失函数l
reg
的平衡权重,ζ表示平衡所述cr模块和所述fr模块的权重,δ
p
表示初始边界框与预测边界框间回归的偏移量,δ
g
表示初始边界框与真值边界框间回归的偏移量。8.一种三维点云的目标检测装置,其特征在于,所述目标检测装置包括:数据增强单元,用于对计算机视觉算法测评kitti数据集进行数据增强处理,得到第一三维点云数据和高度图数据;特征提取单元,用于对所述第一三维点云数据和所述高度图数据分别进行上下文特征提取,以得到全局特征;矩阵确定单元,用于将所述全局特征输入到目标定位网络,得到所述目标定位网络输出的三维变换矩阵;三维变换单元,用于利用所述三维变换矩阵对待检测的第二三维点云数据进行三维变换,得到三维注意区域;目标预测单元,用于对所述三维注意区域内的目标对象进行分类和三维边界框预测,对应得到所述目标对象的类别和边界框。9.一种三维点云的目标检测设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本申请公开了一种三维点云的目标检测方法、装置、设备和存储介质,该目标检测方法包括对KITTI数据集进行数据增强处理,得到第一三维点云数据和高度图数据;对第一三维点云数据和高度图数据分别进行上下文特征提取,以得到全局特征;将全局特征输入到目标定位网络,得到目标定位网络输出的三维变换矩阵;利用三维变换矩阵对待检测的第二三维点云数据进行三维变换,得到三维注意区域;对三维注意区域内的目标对象进行分类和三维边界框预测,对应得到目标对象的类别和边界框。通过基于注意力机制进行目标检测,忽略了无关数据,既减少了数据计算量,提高了检测速率,也提升了复杂场景下三维点云目标检测的精度,具有检测效率较高的效果。的效果。的效果。
技术研发人员:杨笑天 姜涛 熊晶洲 张攀 黄威 戴鑫 耿家新 柯鸿飞
受保护的技术使用者:航天科工火箭技术有限公司
技术研发日:2023.04.11
技术公布日:2023/7/21
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种风压开关的耐久测试装置 下一篇:一种一键翻折的后排三人座椅的制作方法
