物体检测方法、装置、电子设备及存储介质与流程
未命名
07-22
阅读:221
评论:0
1.本公开涉及计算机技术领域,尤其涉及一种物体检测方法、装置、电子设备及存储介质。
背景技术:
2.三维(3d)物体检测是计算机视觉中的一个重要研究课题,它通常使用3d点云作为传统设置的输入。在相关技术中,有一种利用多个输入数据源的趋势,例如用通常具有更丰富色彩和更少噪声的二维(2d)图像来补充3d点云。然而,由于2d和3d表示的异构几何学,难以应用现成的神经网络来实现多模态融合(3d点云与2d图像的融合)。
技术实现要素:
3.有鉴于此,本公开的目的在于提出一种物体检测方法、装置、电子设备及存储介质,用以解决或部分解决上述技术问题。
4.本公开的第一方面,提供了一种物体检测方法,包括:
5.接收用于物体检测的三维数据和图像数据;
6.计算所述三维数据的第一特征和所述图像数据的第二特征;
7.基于所述三维数据计算对应的第一物体查询特征;
8.基于所述三维数据以及所述三维数据与所述图像数据的投影关系,计算得到所述图像数据对应的第二物体查询特征;
9.基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据;以及
10.基于所述注意力数据,输出物体检测结果。
11.本公开的第二方面,提供了一种物体检测装置,包括:
12.数据接收模块,被配置为:接收用于物体检测的三维数据和图像数据;
13.特征计算模块,被配置为:计算所述三维数据的第一特征和所述图像数据的第二特征;基于所述三维数据计算对应的第一物体查询特征;以及,基于所述三维数据以及所述三维数据与所述图像数据的投影关系,计算得到所述图像数据对应的第二物体查询特征;
14.物体检测模块,被配置为:基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据;以及,基于所述注意力数据,输出物体检测结果。
15.本公开的第三方面,提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如第一方面所述的方法。
16.本公开的第四方面,提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如第一方面所述的方法。
17.从上面所述可以看出,本公开提供的物体检测方法、装置、电子设备及存储介质,利用物体查询特征来桥接三维空间和二维空间,从而将不同模态的数据关联起来,而不需要将不同模态的数据序列化之后用全注意力机制进行融合。
附图说明
18.为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1示出了本公开实施例所提供的示例性方法的流程示意图。
20.图2a示出了本公开实施例所提供的一种示例性模型的示意图。
21.图2b示出了本公开实施例提供的物体检测方法与其他模型的对比测试示意图表。
22.图3示出了本公开实施例的示例性电子设备的硬件结构示意图。
23.图4示出了本公开实施例所提供的示例性装置的结构示意图。
具体实施方式
24.为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
25.需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
26.3d物体检测是许多场景的核心算法模块,这些场景可以包括自动驾驶、工业机器人、无人机等。3d点云和2d图像是最常见的并且也是最容易获得的两种数据模态。3d点云可以由多个三维空间的点所构成。3d点云的点比2d图像来说,信息更为准确,但是同时缺少了颜色和语义等特征。所以,把这分属两种模态的3d点云和2d图像融合起来完成3d物体检测是更为合理的方式。
27.对于3d学习任务,点云可以提供必要的几何线索(geometrical cues),而丰富的彩色图像中的信息可以通过填补缺失的颜色信息和纠正噪声错误来补充点云。因此,2d图像的参与可能会提高3d物体检测的性能。
28.在相关技术中,一种方法是从图像中提取3维rgb向量来扩展点云中的点特征。然而,基于卷积神经网络(cnn)的3d检测模型imvotenet指出,通过这种方法难以迁移2d特征和3d特征的差异。
29.因此,imvotenet将rgb向量替换为由预训练的2d检测器提取的图像特征,然后用pointnet++提取点云的种子点,再基于相机参数找到3d点到2d的近似投影,最后通过计算
query)。
42.在一些实施例中,可以先采用knn算法(k近邻算法)从n
pnt
个种子点中采样k个点作为建议点(proposals)。这里,可以用和分别表示这k个建议点的3d坐标和特征。
43.然后,可以在这k个建议点中对应添加基于这k个建议点的特征而习得的偏差(biases),得到多个修正的建议点。基于这k个建议点的特征而习得的偏差(biases)可以通过将这k个建议点的特征f
pnt
输入一个mlp来得到。下式(1)表示了这一计算过程。
44.k
′
pnt
=k
pnt
+mlp(f
pnt
)
ꢀꢀꢀꢀꢀꢀꢀ
(1)
45.接着,可以基于这k个修正的建议点k
′
pnt
,计算第一物体查询特征(point object query),可以表示为o
pnt
。
46.在一些实施例中,可以将这k个修正的建议点k
′
pnt
输入一个mlp来得到o
pnt
,同时,为了实现预定模型所需的输入,可以在第一物体查询特征o
pnt
中添加位置嵌入(positional embedding)pe。下式(2)表示了这一计算过程。
47.o
pnt
=mlp(k
′
pnt
)+pe
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
48.其中,可以是随机初始化的位置嵌入。
49.这样,相应地,就可以得到k个第一物体查询特征o
pnt
。可以看到,第一物体查询特征o
pnt
以k
′
pnt
为条件,因此,可以将第一物体查询特征o
pnt
称为有条件的物体查询(conditional object queries)。
50.在步骤108,可以基于三维数据以及三维数据与图像数据的投影关系,计算得到图像数据对应的第二物体查询特征(patch object query)。
51.在一些实施例中,可以基于前述的k个修正的建议点以及点云与rgb图像的投影关系,计算得到该第二物体查询特征。
52.例如,可以基于点云与rgb图像的投影关系,将k个修正的建议点k
′
pnt
投影到rgb图像中,得到k个投影点的二维坐标,记为
53.然后,基于该k个投影点计算得到该第二物体查询特征,可以表示为o
pat
。
54.在一些实施例中,可以将这k个投影点proj(k
′
pnt
)输入一个mlp来得到o
pat
,同时,为了实现预定模型所需的输入,可以在第二物体查询特征o
pat
中添加位置嵌入(positional embedding)pe。下式(3)表示了这一计算过程。
55.o
pat
=mlp(proj(k
′
pnt
))+pe
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
56.其中,可以是随机初始化的位置嵌入。在一些实施例中,为了对齐o
pnt
和o
pat
,在第一物体查询特征和第二物体查询特征中添加的pe是相同的。共享位置嵌入直观地告诉预定模型,o
pnt
和o
pat
是对齐的。
57.这样,相应地,就可以得到k个第二物体查询特征o
pat
。可以看到,第二物体查询特征o
pat
以proj(k
′
pnt
)为条件,因此,可以将第二物体查询特征o
pat
也称为有条件的物体查询(conditional object queries)。
58.当给定相机的内在和外在参数时,每个3d点都可以投影到相机平面,即将3d坐标与2d图像像素相关联。
59.因此,在一些实施例中,为了计算前述实施例中的proj,可以定义投影算子表示3d点坐标c=[x,y,z]
t
投影在相应图像上的二维像素坐标c’=[u,v]
t
。并且有:
[0060][0061]
其中,k和rt是内在和外在矩阵,对应于给定相机的内在和外在参数,而π是透视图(perspective mapping)。
[0062]
这样,就能计算k
′
pnt
投影到rgb图像中的投影点proj(k
′
pnt
)。
[0063]
至此,得到了n
pnt
个点云特征和n
pat
个图像特征以及2k个物体查询特征(object queries),其中,前k个是点云的object queries(记为o
pnt
),后k个是图像的object queries(记为o
pat
)。k一般要比可能出现的物体的个数要多。
[0064]
可以看到,至此,前述实施例利用有条件的物体查询作为了关联3d空间和2d空间的桥梁(bridge),从而采用有条件的物体查询来促进基于点和图像的物体查询特征对齐的预测学习过程。
[0065]
在计算得到第一特征、第二特征、第一物体查询特征和第二物体查询特征之后,在步骤110,可以基于第一特征、第二特征、第一物体查询特征和第二物体查询特征,计算注意力,得到注意力数据。
[0066]
在一些实施例中,可以基于所述第一特征和所述第一物体查询特征,计算第一注意力数据;基于所述第二特征和所述第二物体查询特征,计算第二注意力数据;以及基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算第三注意力数据和第四注意力数据。
[0067]
在一些实施例中,可以利用预定模型(例如,transformer模型204)来计算注意力。
[0068]
如图2a所示,第一特征p
pnt
和第二特征p
pat
在transformer模型204之前也可以添加位置嵌入pe。为了使第一特征p
pnt
和第二特征p
pat
与第一物体查询特征o
pnt
和第二物体查询特征记o
pat
对齐,它们的位置嵌入pe可以是相同的。
[0069]
假设在本步骤中,将这些特征馈送到了transformer模型的第l层,其中,l=1,
…
,l。输入第l层的第一特征记为第二特征记为第一物体查询特征记为第二物体查询特征记为
[0070]
在一些实施例中,transformer模型204可以进一步包括用于处理第一特征的第一模型单元组、用于处理第二特征的第二模型单元组、用于处理第一物体查询特征的第三模型单元组以及用于处理第三物体查询特征的第四模型单元组。如图2a所示,第一模型单元组可以包括第一模型单元2042a~2042d,第二模型单元组可以包括第二模型单元2044a~2044d,第三模型单元组可以包括第三模型单元2046a、2046b,第四模型单元组可以包括第四模型单元2048a、2048b。其中,每个模型单元均可以是构成transformer模型204的基本单
元,具有transformer模型的基于多头注意力机制的编解码器的结构。
[0071]
其中,第一模型单元组中的第一模型单元2042a~2042d可以基于第一特征和第一物体查询特征,计算第一注意力数据。第二模型单元组中的第二模型单元可以基于第二特征和第二物体查询特征,计算第二注意力数据。第三模型单元组中的第三模型单元可以基于第一特征、第二特征、第一物体查询特征和第二物体查询特征,计算第三注意力数据。第四模型单元组中的第四模型单元可以基于第一特征、第二特征、第一物体查询特征和第二物体查询特征,计算第四注意力数据。
[0072]
如图2a所示,前述的模型单元可以被划分为两层,其中,第一层模型单元包括第一模型单元2042a和2042b、第二模型单元2044a和2044b、第三模型单元2046a、第四模型单元2048a,第二层模型单元包括第一模型单元2042c和2042d、第二模型单元2044c和2044d、第三模型单元2046b、第四模型单元2048b。
[0073]
具体地,在模型训练期间,模型单元之间禁止第一特征和第二特征之间的注意力。因此,第一特征仅与第一物体查询特征计算注意力,第二特征仅与第二物体查询特征计算注意力。通过第一模型单元与第三模型单元计算得到的第一注意力数据和通过第二模型单元和第四模型单元计算得到的第二注意力数据分别送入到下一层的第一模型单元和第二模型单元,可以分别表示为和下式(5)给出了第一注意力数据和第二注意力数据的计算过程。
[0074][0075]
在模型预测过程中,上述计算可以通过在获得的注意力上应用零掩码来实现。
[0076]
这里,虽然在transformer模块中阻止了和之间的注意力,但和还具有额外的功能以进一步弥合3d坐标和2d坐标之间的差距。为此,和的注意力可以与所有特征相关联,亦即,第一物体查询特征与第一特征第二特征和第二物体查询特征计算注意力,第二物体查询特征与第一特征第二特征和第一物体查询特征计算注意力。通过第一模型单元、第二模型单元、第三模型单元与第四模型单元计算得到的第三注意力数据和通过第一模型单元、第二模型单元、第三模型单元与第四模型单元计算得到的第四注意力数据分别送入到下一层的第三模型单元和第四模型单元,可以分别表示为和下式(6)给出了第三注意力数据和第四注意力数据的计算过程。
[0077][0078]
下面简单介绍注意力的计算机制。
[0079]
多头注意力(msa)作为transformer架构的基本构建模块,它具有三组输入:查询集、键集和值集。给定一个查询集{qi}和一个键集和值集的公共元素集{pk},每个查询元素的msa的输出特征是通过线性投影加权的值的聚合,公式为:
[0080][0081]
其中,h索引h个注意力头;wh和vh分别是输出投影(output projection)和值投影(value projection)的权重。是注意力权重,计算公式如下:
[0082][0083]
其中qh和uh分别表示查询投影权重和键投影权重。
[0084]
这样,基于上述公式,可以计算相应的注意力数据。
[0085]
除了将第一特征和第二特征与第一物体查询特征和第二物体查询特征相关联之外,在计算注意力数据的过程中,在一些实施例中,通过添加内在的图像块到点的投影来进一步加强第一特征和第二特征的关系。例如,根据三维数据与图像数据的投影关系,将第二特征的投影特征添加到第一特征中;然后基于添加有投影特征的第一特征、第二特征、第一物体查询特征和第二物体查询特征,计算注意力,得到注意力数据。
[0086]
假设,用表示n
pnt
个采样点的3d坐标,将n
pnt
投影到相应的相机平面并获得n
pnt
个2d像素坐标,这些坐标用表示。
[0087]
利用公式(4)定义的proj,可以令un和vn分别为proj(n
pnt
)的第n个元素的x轴值和y轴值,其中n=1,2,
···
,n
pnt
。如果un和vn分别满足限制1≤un≤h和1≤vn≤w,这样的二维坐标必须驻留在大小为h
×w×
3的输入图像中。将un和vn四舍五入到最接近的整数,得到表示特定图像像素的有效坐标。用以下公式可以获得相应的图像块(patch)的索引:
[0088][0089]
其中是舍入(近似)运算符,pn∈{1,2,...,n
pat
}是第n个点对应的块索引,s表示图像块大小。通过以下表达式(10)聚合点和图像块的特征以实现图像块到点(patch-to-point)的投影:
[0090][0091]
其中,“=”表示赋值符号,下标n和pn分别表示特征和的索引。上述表达式表示了,第l层第一模型单元(例如,第一模型单元2042b)的输出通过加上对应的的投影特征之后得到的值,用于为第l层该第一模型单元2042b的输出重新赋值,并输入到第l+1层的第一模型单元(例如,第一模型单元2042d)。
[0092]
这样,就把2d的信息通过patch-to-point的方式融合进3d模型中。其中,投影特征可以经过一个mlp之后添加到对应的该mlp可以用于执行位移。
[0093]
在步骤112,可以基于计算得到的注意力数据,输出物体检测结果。
[0094]
在一些实施例中,该步骤112可以进一步包括:
[0095]
基于所述第三注意力数据,输出三维物体检测结果;以及
[0096]
基于所述第四注意力数据,输出二维物体检测结果。
[0097]
如图2a所示,模型204有2k个输出,对应于2k个物体查询输入。例如,可以将第三模型单元的k个输出和第四模型单元的k个输出分别输出到mlp头206a和206b中来输出物体检测结果。其中,第三模型单元的k个输出可以利用mlp头206a预测3d框(3d bbox)的坐标及其分类标签(cls)。第四模型单元的k个输出,可以利用mlp头206b预测2d框(2d bbox)及其分类标签(cls)。
[0098]
需要说明的是,本公开实施例的模型204不需要额外的2d框的坐标标签,因为它们可以通过公式(4)将3d框坐标的标签投影到2d相机平面然后取投影形状的轴对齐的二维边界框来获得。因此,本公开实施例可以在训练和推理中都输出3d和2d的检测框(bbox)。
[0099]
在一些实施例中,在训练模型时,可以选用sunrgb-d数据集和scannetv2数据集。
[0100]
其中,sunrgb-d数据集是用于3d场景理解的单视图rgb-d数据集。它由10,335个rgb-d图像组成,这些图像用面向37个对象类别的amodal定向3d边界框以及相应的相机姿势进行了注释。训练集和验证集可以分别由5,285和5,050帧组成。
[0101]
scannetv2是一个带有丰富注释的室内场景3d重建网格数据集。它包含1,513次扫描,涵盖700多个独特的室内场景,其中1,201次扫描属于训练集,其余312次扫描构成验证集。scannetv2包含超过250万张带有相机姿势的图像,以及它们对应的重建点云,带有18个对象类别的3d语义注释。
[0102]
此外,模型优化时,可以设计两部分的复合损失函数:用于定位边界框的回归损失(repression loss)和用于预测相关框类别的分类损失。损失函数计算公式如下:
[0103][0104]
其中,和分别为3d和2d的定位边界框的回归损失,和分别为3d和2d的用于预测相关框类别的分类损失,α1、α2和α3是加权这些损失之间相对重要性的三个参数。
[0105]
此外,在一些实施例中,本公开实施例提供的方法100还可以将点云与多视图图像
相结合,其中点与图像之间的交互以及多视图图像之间的交互都可以进一步提高性能。当单个场景的输入图像有不同的视图时,可以先将这些图像沿宽度侧连接起来,得到一张宽图像。然后采用方法100来实现物体检测。
[0106]
本公开实施例提供的物体检测方法,使用了有条件的物体查询(conditional object queries)来实现3d特征与2d特征的关联,从而很好地实现了点云与图像的融合,得到更好的物体检测结果。进一步地,通过2d图像到3d点的投影,进一步关联了3d特征与2d特征。此外,本公开实施例提供的物体检测方法是第一个使用纯transformer来融合3d点云和图像的方法,并且,原始的基于transformer的融合是把不同模态序列化之后用全注意力机制进行融合,而发现本公开实施例直接对不同模态的特征进行关联,得到了更好的效果。此外,本公开实施例还可以进行多张图片和点云的融合。
[0107]
图2b示出了本公开实施例提供的物体检测方法(brt)与其他模型的对比测试示意图表。
[0108]
从图2b中可以看出,相比于之前的方法,本公开实施例提供的物体检测方法(brt)有2%-2.9%map(平均精度均值)的提升。
[0109]
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
[0110]
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0111]
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的物体检测方法。
[0112]
图3示出了本实施例所提供的一种更为具体的电子设备300的硬件结构示意。该设备300可以用于实现图1的方法100。该设备300可以进一步包括:处理器302、存储器304、输入/输出接口306、通信接口308和总线310。其中处理器302、存储器304、输入/输出接口306和通信接口308通过总线310实现彼此之间在设备内部的通信连接。
[0113]
处理器302可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
[0114]
存储器304可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器304可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器304中,并由处理器302来调用执行。
[0115]
输入/输出接口306用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中
输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0116]
通信接口308用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0117]
总线310包括一通路,在设备的各个组件(例如处理器302、存储器304、输入/输出接口306和通信接口308)之间传输信息。
[0118]
需要说明的是,尽管上述设备仅示出了处理器302、存储器304、输入/输出接口306、通信接口308以及总线310,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0119]
上述实施例的电子设备用于实现前述任一实施例中相应的方法100,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0120]
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种物体检测装置。图4示出了本公开实施例所提供的示例性装置400的结构示意图。
[0121]
参考图4,所述物体检测装置400,可以包括:
[0122]
数据接收模块402,被配置为:接收用于物体检测的三维数据和图像数据;
[0123]
特征计算模块404,被配置为:计算所述三维数据的第一特征和所述图像数据的第二特征;基于所述三维数据计算对应的第一物体查询特征;以及,基于所述三维数据以及所述三维数据与所述图像数据的投影关系,计算得到所述图像数据对应的第二物体查询特征;
[0124]
物体检测模块406,被配置为:基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据;以及,基于所述注意力数据,输出物体检测结果。
[0125]
在一些实施例中,物体检测模块406,被配置为:基于所述第一特征和所述第一物体查询特征,计算第一注意力数据;基于所述第二特征和所述第二物体查询特征,计算第二注意力数据;以及基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算第三注意力数据和第四注意力数据。
[0126]
在一些实施例中,物体检测模块406,被配置为:利用预定模型,基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据。
[0127]
在一些实施例中,所述预定模型包括用于处理所述第一特征的第一模型单元组、用于处理所述第二特征的第二模型单元组、用于处理所述第一物体查询特征的第三模型单元组以及用于处理所述第三物体查询特征的第四模型单元组;
[0128]
其中,所述第一模型单元组中的第一模型单元被配置为基于所述第一特征和所述第一物体查询特征,计算所述第一注意力数据;所述第二模型单元组中的第二模型单元被配置为基于所述第二特征和所述第二物体查询特征,计算所述第二注意力数据;所述第三模型单元组中的第三模型单元被配置为基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算所述第三注意力数据;所述第四模型单元组中的
第四模型单元被配置为基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算所述第四注意力数据。
[0129]
在一些实施例中,物体检测模块406,被配置为:基于所述第三注意力数据,输出三维物体检测结果;以及基于所述第四注意力数据,输出二维物体检测结果。
[0130]
在一些实施例中,物体检测模块406,被配置为:根据所述三维数据与所述图像数据的投影关系,将所述第二特征的投影特征添加到所述第一特征中;以及基于添加有所述投影特征的第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据。
[0131]
在一些实施例中,所述三维数据为点云,所述图像数据为rgb图像。
[0132]
在一些实施例中,特征计算模块404,被配置为:基于knn算法,从所述点云中采样多个建议点;在所述多个建议点中对应添加基于所述多个建议点的特征而习得的偏差,得到多个修正的建议点;以及基于所述多个修正的建议点,计算所述第一物体查询特征。
[0133]
在一些实施例中,特征计算模块404,被配置为:基于所述多个修正的建议点以及所述三维数据与所述图像数据的投影关系,计算得到所述第二物体查询特征。
[0134]
在一些实施例中,所述第一物体查询特征和所述第二物体查询特征中添加有相同的位置嵌入。
[0135]
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0136]
上述实施例的装置用于实现前述任一实施例中相应的方法100,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0137]
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的方法100。
[0138]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0139]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的方法100,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0140]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0141]
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下
事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0142]
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
[0143]
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
技术特征:
1.一种物体检测方法,包括:接收用于物体检测的三维数据和图像数据;计算所述三维数据的第一特征和所述图像数据的第二特征;基于所述三维数据计算对应的第一物体查询特征;基于所述三维数据以及所述三维数据与所述图像数据的投影关系,计算得到所述图像数据对应的第二物体查询特征;基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据;以及基于所述注意力数据,输出物体检测结果。2.如权利要求1所述的方法,其中,基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据,包括:基于所述第一特征和所述第一物体查询特征,计算第一注意力数据;基于所述第二特征和所述第二物体查询特征,计算第二注意力数据;以及基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算第三注意力数据和第四注意力数据。3.如权利要求1所述的方法,其中,基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据,包括:利用预定模型,基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据。4.如权利要求3所述的方法,其中,所述预定模型包括用于处理所述第一特征的第一模型单元组、用于处理所述第二特征的第二模型单元组、用于处理所述第一物体查询特征的第三模型单元组以及用于处理所述第三物体查询特征的第四模型单元组;其中,所述第一模型单元组中的第一模型单元被配置为基于所述第一特征和所述第一物体查询特征,计算所述第一注意力数据;所述第二模型单元组中的第二模型单元被配置为基于所述第二特征和所述第二物体查询特征,计算所述第二注意力数据;所述第三模型单元组中的第三模型单元被配置为基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算所述第三注意力数据;所述第四模型单元组中的第四模型单元被配置为基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算所述第四注意力数据。5.如权利要求2-4任一项所述的方法,其中,基于所述注意力数据,输出物体检测结果,包括:基于所述第三注意力数据,输出三维物体检测结果;以及基于所述第四注意力数据,输出二维物体检测结果。6.如权利要求1所述的方法,其中,基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据,包括:根据所述三维数据与所述图像数据的投影关系,将所述第二特征的投影特征添加到所述第一特征中;以及基于添加有所述投影特征的第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据。
7.如权利要求1所述的方法,其中,所述三维数据为点云,所述图像数据为rgb图像。8.如权利要求7所述的方法,其中,基于所述三维数据计算对应的第一物体查询特征,包括:基于knn算法,从所述点云中采样多个建议点;在所述多个建议点中对应添加基于所述多个建议点的特征而习得的偏差,得到多个修正的建议点;以及基于所述多个修正的建议点,计算所述第一物体查询特征。9.如权利要求8所述的方法,其中,基于所述三维数据以及所述三维数据与所述图像数据的投影关系,计算得到所述图像数据对应的第二物体查询特征,包括:基于所述多个修正的建议点以及所述三维数据与所述图像数据的投影关系,计算得到所述第二物体查询特征。10.如权利要求7-9任一项所述的方法,其中,所述第一物体查询特征和所述第二物体查询特征中添加有相同的位置嵌入。11.一种物体检测装置,包括:数据接收模块,被配置为:接收用于物体检测的三维数据和图像数据;特征计算模块,被配置为:计算所述三维数据的第一特征和所述图像数据的第二特征;基于所述三维数据计算对应的第一物体查询特征;以及,基于所述三维数据以及所述三维数据与所述图像数据的投影关系,计算得到所述图像数据对应的第二物体查询特征;物体检测模块,被配置为:基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据;以及,基于所述注意力数据,输出物体检测结果。12.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至10任一项所述的方法。13.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至10任一项所述的方法。
技术总结
本公开提供一种物体检测方法及相关设备。该方法,包括:接收用于物体检测的三维数据和图像数据;计算所述三维数据的第一特征和所述图像数据的第二特征;基于所述三维数据计算对应的第一物体查询特征;基于所述三维数据以及所述三维数据与所述图像数据的投影关系,计算得到所述图像数据对应的第二物体查询特征;基于所述第一特征、所述第二特征、所述第一物体查询特征和所述第二物体查询特征,计算注意力,得到注意力数据;以及基于所述注意力数据,输出物体检测结果。输出物体检测结果。输出物体检测结果。
技术研发人员:叶腾琪 王一凯
受保护的技术使用者:北京有竹居网络技术有限公司
技术研发日:2022.01.05
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
