多模态数据融合方法、装置、计算机设备和存储介质与流程

未命名 09-08 阅读：100 评论：0

1.本技术涉及自动驾驶技术领域，特别是涉及一种多模态数据融合方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

2.相机、激光雷达、毫米波雷达等传感器技术的快速发展推动了自动驾驶感知能力的进步。不同传感器采集的数据对应不同模态，也体现了自动驾驶系统从不同角度对真实世界的感知。相机采集的图像包含颜色等更多的纹理信息，而雷达采集的点云则包含了更全面的空间位置信息。基于点云模态和图像模态的融合方法可以进一步推动自动驾驶感知技术的发展。
3.传统方式中，是将点云数据与图像数据在可视范围内进行特征叠加，以实现多模态数据融合。
4.然而，传统方式无法得到更加接近真实世界的目标和场景信息，导致多模态数据的融合准确性较低。

技术实现要素：

5.基于此，有必要针对上述技术问题，提供一种能够提高多模态数据的融合准确性的多模态数据融合方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
6.第一方面，本技术提供了一种多模态数据融合方法。该方法包括：
7.获取待处理多模态数据；待处理多模态数据包括待处理点云数据和待处理图像数据；
8.调用预先构建的特征提取模型；
9.通过特征提取模型分别对待处理点云数据和待处理图像数据进行特征提取，得到待处理点云数据对应的第一深层特征数据以及待处理图像数据对应的第二深层特征数据；
10.通过特征提取模型将第一深层特征数据和第二深层特征数据进行融合，得到待处理多模态数据对应的深层融合特征。
11.在其中一个实施例中，在获取待处理多模态数据之前，方法还包括：
12.获取样本多模态数据；样本多模态数据包括样本点云数据以及样本图像数据；
13.将样本多模态数据输入至待训练的深度学习模型中；深度学习模型包括特征提取层、深度挖掘层和感知层；
14.通过特征提取层提取样本点云数据对应的样本点云特征以及样本图像数据对应的样本图像特征，将样本点云特征和样本图像特征进行融合，得到样本融合特征；
15.通过深度挖掘层对样本点云特征以及样本图像特征进行深度挖掘，得到深度挖掘结果；
16.通过感知层根据样本融合特征以及深度挖掘结果，对深度学习模型进行训练，得到预先构建的特征提取模型。
17.在其中一个实施例中，深度挖掘结果为关系损失值；通过深度挖掘层对样本点云特征以及样本图像特征进行深度挖掘，得到深度挖掘结果包括：
18.通过深度挖掘层对样本点云特征以及样本图像特征进行深度挖掘，得到挖掘特征数据；
19.根据挖掘特征数据确定关系损失值。
20.在其中一个实施例中，感知层包括感知任务层以及训练优化层；通过感知层根据样本融合特征以及深度挖掘结果，对深度学习模型进行训练包括：
21.通过感知任务层根据样本融合特征执行预设感知任务，得到任务执行结果；
22.通过训练优化层根据任务执行结果以及关系损失值确定深度学习模型的总体损失值，根据总体损失值对深度学习模型进行训练。
23.在其中一个实施例中，预设感知任务为目标检测任务；通过训练优化层根据任务执行结果以及关系损失值确定深度学习模型的总体损失值包括：
24.通过训练优化层根据任务执行结果确定深度学习模型的位置损失值、方向损失值以及类别损失值；
25.通过训练优化层根据位置损失值、方向损失值、类别损失值以及关系损失值确定深度学习模型的总体损失值。
26.在其中一个实施例中，通过特征提取模型分别对待处理点云数据和待处理图像数据进行特征提取，得到待处理点云数据对应的第一深层特征数据以及待处理图像数据对应的第二深层特征数据包括：
27.通过特征提取模型对待处理点云数据进行特征提取，得到待处理点云数据对应的第一深层特征数据；第一深层特征数据包括深层点云特征以及与待处理图像数据之间的关联特征；
28.通过特征提取模型对待处理图像数据进行语义分割，得到语义分割结果，对语义分割结果进行聚类，得到聚类结果；
29.通过特征提取模型对聚类结果进行上采样，得到待处理图像数据对应的第二深层特征数据；第二深层特征数据包括深层图像特征以及与待处理点云数据之间的关联特征。
30.第二方面，本技术还提供了一种多模态数据融合装置。该装置包括：
31.数据获取模块，用于获取待处理多模态数据；待处理多模态数据包括待处理点云数据和待处理图像数据；
32.模型调用模块，用于调用预先构建的特征提取模型；
33.特征提取模块，用于通过特征提取模型分别对待处理点云数据和待处理图像数据进行特征提取，得到待处理点云数据对应的第一深层特征数据以及待处理图像数据对应的第二深层特征数据；
34.特征融合模块，用于通过特征提取模型将第一深层特征数据和第二深层特征数据进行融合，得到待处理多模态数据对应的深层融合特征。
35.第三方面，本技术还提供了一种计算机设备。该计算机设备包括存储器和处理器，该存储器存储有计算机程序，该处理器执行该计算机程序时实现以下步骤：
36.获取待处理多模态数据；待处理多模态数据包括待处理点云数据和待处理图像数据；
37.调用预先构建的特征提取模型；
38.通过特征提取模型分别对待处理点云数据和待处理图像数据进行特征提取，得到待处理点云数据对应的第一深层特征数据以及待处理图像数据对应的第二深层特征数据；
39.通过特征提取模型将第一深层特征数据和第二深层特征数据进行融合，得到待处理多模态数据对应的深层融合特征。
40.第四方面，本技术还提供了一种计算机可读存储介质。该计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：
41.获取待处理多模态数据；待处理多模态数据包括待处理点云数据和待处理图像数据；
42.调用预先构建的特征提取模型；
43.通过特征提取模型分别对待处理点云数据和待处理图像数据进行特征提取，得到待处理点云数据对应的第一深层特征数据以及待处理图像数据对应的第二深层特征数据；
44.通过特征提取模型将第一深层特征数据和第二深层特征数据进行融合，得到待处理多模态数据对应的深层融合特征。
45.第五方面，本技术还提供了一种计算机程序产品。该计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
46.获取待处理多模态数据；待处理多模态数据包括待处理点云数据和待处理图像数据；
47.调用预先构建的特征提取模型；
48.通过特征提取模型分别对待处理点云数据和待处理图像数据进行特征提取，得到待处理点云数据对应的第一深层特征数据以及待处理图像数据对应的第二深层特征数据；
49.通过特征提取模型将第一深层特征数据和第二深层特征数据进行融合，得到待处理多模态数据对应的深层融合特征。
50.上述多模态数据融合方法、装置、计算机设备、存储介质和计算机程序产品，由于特征提取模型是通过对样本多模态数据进行深度挖掘，根据深度挖掘结果训练得到的，能够充分挖掘并提取多模态数据的非直观可见的深层特征数据，并进行融合，得到的深层融合特征更加接近真实世界的目标和场景信息，大大提高了多模态数据的融合准确性，从而提升了自动驾驶感知技术对周围环境的感知能力。
附图说明
51.图1为一个实施例中多模态数据融合方法的应用环境图；
52.图2为一个实施例中多模态数据融合方法的流程示意图；
53.图3为一个实施例中特征提取模型的训练步骤的流程示意图；
54.图4为一个实施例中深度学习模型的网络结构示意图；
55.图5为一个实施例中多模态数据融合装置的结构框图；
56.图6为一个实施例中计算机设备的内部结构图。
具体实施方式
57.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对
本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
58.本技术实施例提供的多模态数据融合方法，可以应用于如图1所示的应用环境中。其中，该多模态数据融合方法主要在计算机设备102上执行，具体地，在自动驾驶环境中，车辆中预先安装有车载传感器102和车载计算机设备104。车载计算机设备可以简称为计算机设备。车载传感器102采集待处理多模态数据，将采集的待处理多模态数据传输至计算机设备104，从而计算机设备104调用预先构建的特征提取模型，特征提取模型是通过对样本多模态数据进行深度挖掘，根据深度挖掘结果训练得到的，从而通过特征提取模型分别对待处理点云数据和待处理图像数据进行特征提取，得到待处理点云数据对应的第一深层特征数据以及待处理图像数据对应的第二深层特征数据，进而通过特征提取模型将第一深层特征数据和第二深层特征数据进行融合，得到待处理多模态数据对应的深层融合特征。其中，车载传感器102可以包括用于采集待处理图像数据的各种图像采集设备和视频采集设备，以及用于采集待处理点云数据的各种雷达传感器。计算机设备104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和智能车载设备。
59.在一个实施例中，如图2所示，提供了一种多模态数据融合方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：
60.步骤202，获取待处理多模态数据；待处理多模态数据包括待处理点云数据和待处理图像数据。
61.其中，待处理多模态数据是指需要进行融合的多模态感知数据。
62.具体地，在自动驾驶环境中，通过安装在车辆上的多种车载传感器对车辆周围环境进行扫描，得到待处理点云数据以及待处理图像数据。由于不同种类的传感器采集的数据对应不同模态，待处理点云数据以及待处理图像数据可以称为待处理多模态数据。可选地，多种车载传感器可以包括第一传感器和第二传感器。第一传感器可以包括用于采集待处理图像数据的各种图像采集设备和视频采集设备，如相机、摄像头等。第二传感器可以包括用于采集待处理点云数据的各种雷达传感器，如激光雷达、毫米波雷达等。从而车载传感器将采集到的待处理多模态数据传输至计算机设备。
63.步骤204，调用预先构建的特征提取模型。
64.其中，深度挖掘是指挖掘样本多模态数据中非直观可见的深层特征数据。
65.计算机设备中存储有预先构建的特征提取模型，特征提取模型用于提取多模态数据的深层特征数据。特征提取模型是通过对大量的样本多模态数据进行深度挖掘，得到深度挖掘结果，从而根据深度挖掘结果训练得到的。深度挖掘结果中可以包括样本多模态数据的深层语义特征和内在关联关系。计算机设备调用预先构建的特征提取模型，对待处理多模态数据进行深层特征提取。
66.步骤206，通过特征提取模型分别对待处理点云数据和待处理图像数据进行特征提取，得到待处理点云数据对应的第一深层特征数据以及待处理图像数据对应的第二深层特征数据。
67.其中，第一深层特征数据是指待处理点云数据中非直观可见的深层特征数据。第二深层特征数据是指待处理图像数据中非直观可见的深层特征数据。第一深层特征数据和第二深层特征数据均为高维特征。
68.具体地，特征提取模型可以包括特征提取层。特征提取层用于对待处理点云数据和待处理图像数据进行特征提取，以及将提取的特征进行融合。进一步地，特征提取层可以包括点云分支和图像分支两个网络分支。通过点云分支对待处理点云数据进行特征提取，得到待处理点云数据对应的第一深层特征数据。其中，第一深层特征数据可以包括待处理点云数对应的深层语义特征，以及待处理点云数据与待处理图像数据之间的内在关联关系。通过图像分支对待处理图像数据进行特征提取，得到待处理图像数据对应的第二深层特征数据。其中，第二深层特征数据可以包括待处理图像数据对应的深层语义特征，以及待处理图像数据与待处理点云数据之间的内在关联关系。
69.在其中一个实施例中，通过特征提取模型分别对待处理点云数据和待处理图像数据进行特征提取，得到待处理点云数据对应的第一深层特征数据以及待处理图像数据对应的第二深层特征数据包括：通过特征提取模型对待处理点云数据进行特征提取，得到待处理点云数据对应的第一深层特征数据；第一深层特征数据包括深层点云特征以及与待处理图像数据之间的关联特征；通过特征提取模型对待处理图像数据进行语义分割，得到语义分割结果，对语义分割结果进行聚类，得到聚类结果；通过特征提取模型对聚类结果进行上采样，得到待处理图像数据对应的第二深层特征数据；第二深层特征数据包括深层图像特征以及与待处理点云数据之间的关联特征。
70.其中，深层点云特征是指待处理点云数据中的深层语义特征。与待处理图像数据之间的关联特征是指待处理点云数据与待处理图像数据之间的内在关联关系。深层图像特征是指待处理图像数据中的深层语义特征。与待处理点云数据之间的关联特征是指待处理图像数据与待处理点云数据之间的内在关联关系。
71.具体地，特征提取模型可以包括特征提取层，通过特征提取层中的点云分支对待处理点云数据进行特征提取，得到包括深层点云特征以及与待处理图像数据之间的关联特征的，第一深层特征数据。对于待处理图像数据的处理，是通过特征提取层中的图像分支对待处理图像进行语义分割，得到语义分割结果。其中，语义分割结果中包括待处理图像数据中每个像素点的类别。从而对语义分割结果进行聚类处理，实现根据每个像素点的类别将每个像素点进行聚类。进而对聚类结果进行上采样，使得待处理图像数据中的每个像素点与第一深层特征数据中的点云具有相同的特征维度，进而得到包括深层图像特征以及与待处理点云数据之间的关联特征，的第二深层特征数据。例如，待处理点云数对应的深层点云特征和待处理图像数据对应的深层图像特征可以是更加抽象的高维浮点型特征。关键特征可以是相似特征或者相同特征。
72.进一步地，点云分支和图像分支主要利用编码器(encoder)，即卷积网络，从待处理点云数据和待处理图像数据中分别提取深层特征数据。点云分支可以包括一个编码器，通过编码器将待处理点云数据的特征维度提高到预设维度，从而提取到待处理点云数据中高维且深度的特征数据，即第一深层特征数据。例如，待处理点云数据可以表示为(p,[x,y,z,i])，通过点云分支中的编码器将(p,[x,y,z,i])的特征维度由4提升到c，输出第一深层特征数据f_pt的维度是(p,c)，其中，p表示待处理点云数据中点的数量，c表示预设维度，为中间特征数，如可以是10、64等。
[0073]
与点云分支不同的是，图像分支可以包括两个编码器，通过第一个编码器对待处理图像进行语义分割，对语义分割结果进行聚类处理，从而通过第二个编码器对聚类结果
进行上采样，得到第二深层特征数据。例如，当第一深层特征数据f_pt的维度是(p,c)时，第二深层特征数据f_img中的每个像素点与第一深层特征数据中的点云具有相同的特征维度c，第二深层特征数据f_img的维度是(h,w,c)，其中，h表示第二深层特征数据的高，w表示第二深层特征数据的宽，c表示第二深层特征数据的特征维度。
[0074]
步骤208，通过特征提取模型将第一深层特征数据和第二深层特征数据进行融合，得到待处理多模态数据对应的深层融合特征。
[0075]
通过特征提取模型中的特征提取层将第一深层特征数据和第二深层特征数据进行融合。
[0076]
进一步地，特征提取层中还包括融合层(fusion层)，如1
×
1卷积核，融合层分别与，点云分支以及图像分支中编码器的输出端相连。将点云分支中编码器输出的第一深层特征数据，以及图像分支中第二个编码器输出的第二深层特征数据作为融合层的输入，通过融合层根据预设外参矩阵将第二深层特征数据中每个像素点与第一深层特征数据中的点进行对齐，得到对齐后的第二深层特征数据，从而将对齐后的第二深层特征数据与第一深层特征数据进行融合，得到待处理多模态数据对应的深层融合特征f_fuse，f_fuse的形状(shape)为(p,c1)，其中，p表示点云点的数量，c1表示特征维度。
[0077]
传统方式中，是通过pointpainting(图像激光融合模型)、roarnet(region approximation refinement network，目标检测网络)等模型将点云数据与图像数据在可视范围内进行特征叠加，以实现多模态数据融合，聚焦于叠加浅层特征，即肉眼可见且很容易直观理解的形状、颜色、空间位置等，而忽略了多种模态数据的内在深层语义联系，即无法通过二维或三维特征清晰表示的高维特征，且仅是多个模态的单向叠加，如图像叠加到点云中，没有多个模态之间的相互监督和相互学习过程。因此，传统方式并不能充分挖掘多模态数据的深层语义特征和内在关联关系。
[0078]
而上述多模态数据融合方法中，通过调用预先构建的特征提取模型，分别对待处理多模态数据中的待处理点云数据和待处理图像数据进行特征提取，得到待处理点云数据对应的第一深层特征数据以及待处理图像数据对应的第二深层特征数据，从而将第一深层特征数据和第二深层特征数据进行融合，得到待处理多模态数据对应的深层融合特征。由于特征提取模型是通过对样本多模态数据进行深度挖掘，根据深度挖掘结果训练得到的，能够充分挖掘并提取多模态数据的非直观可见的深层特征数据，并进行融合，得到的深层融合特征更加接近真实世界的目标和场景信息，大大提高了多模态数据的融合准确性，从而提升了自动驾驶感知技术对周围环境的感知能力。
[0079]
在其中一个实施例中，上述方法还包括：对深层融合特征进行特征提取，得到目标特征；根据目标特征执行自动驾驶任务。
[0080]
特征提取模型还可以包括感知任务层，感知任务层用于执行自动驾驶任务。
[0081]
特征提取模型中的特征提取层输出深层融合特征后，将深层融合特征输入至感知任务层，感知任务层可以包括提取层(extract层)和感知任务头(3dtaskhead)。例如，提取层可以是voxel、pillar等。通过提取层对深层融合特征进行特征提取，得到目标特征。目标特征是指对深层融合特征进行点云特征提取后的特征。将目标特征作为感知任务头的输入，通过感知任务头根据目标特征执行自动驾驶任务。例如，自动驾驶任务可以是3d目标检测任务、目标分割等任务。
[0082]
在本实施例中，由于深层融合特征能够更加接近真实世界的场景，对深层融合特征进行特征提取，得到目标特征，能够为感知任务头提供符合要求的数据，有利于后续感知任务头执行自动驾驶任务。
[0083]
在一个实施例中，如图3所示，在获取待处理多模态数据之前，上述方法还包括：特征提取模型的训练步骤，该步骤包括：
[0084]
步骤302，获取样本多模态数据；样本多模态数据包括样本点云数据以及样本图像数据。
[0085]
步骤304，将样本多模态数据输入至待训练的深度学习模型中；深度学习模型包括特征提取层、深度挖掘层和感知层。
[0086]
其中，样本多模态数据是指用于训练深度学习模型的多模态数据。
[0087]
计算机设备在模型训练过程中，可以先获取样本多模态数据。样本多模态数据可以包括样本点云数据和样本图像数据。调用待训练的深度学习模型，将样本多模态数据输入至深度学习模型中，深度学习模型可以包括特征提取层、深度挖掘层和感知层。特征提取层和深度挖掘层中均包括点云分支以及图像分支。特征提取层中的点云分支和深度挖掘层中的点云分支相连，特征提取层中的图像分支和深度挖掘层中的图像分支相连。待处理点云数据和待处理图像数据通过两个不同的分支来处理，即待处理点云数据是通过深度学习模型中的点云分支进行处理，待处理图像数据是通过图像数据进行处理。
[0088]
步骤306，通过特征提取层提取样本点云数据对应的样本点云特征以及样本图像数据对应的样本图像特征，将样本点云特征和样本图像特征进行融合，得到样本融合特征。
[0089]
通过特征提取层中的点云分支提取样本点云数据对应的样本点云特征，通过图像分支提取样本图像数据对应的样本图像特征。样本点云特征和样本图像特征均为高维特征。通过特征提取层将样本点云特征和所述样本图像特征进行融合，得到样本融合特征。进一步地，深度学习模型的特征提取层的结构与特征提取模型的特征提取层是相同的，此处不再赘述。
[0090]
步骤308，通过深度挖掘层对样本点云特征以及样本图像特征进行深度挖掘，得到深度挖掘结果。
[0091]
通过深度挖掘层中的点云分支对样本点云特征进行深度挖掘，以及通过深度挖掘层中的图像分支对样本图像特征进行深度挖掘，得到挖掘特征数据。挖掘特征数据是指样本点云数据以及样本图像数据的深层特征，和样本点云数据与样本图像数据等多模态数据之间的内在关联关系。从而通过深度挖掘层根据挖掘特征数据计算深度挖掘结果。
[0092]
在其中一个实施例中，深度挖掘结果为关系损失值；通过深度挖掘层对样本点云特征以及样本图像特征进行深度挖掘，得到深度挖掘结果包括：通过深度挖掘层对样本点云特征以及样本图像特征进行深度挖掘，得到挖掘特征数据；根据挖掘特征数据确定关系损失值。
[0093]
深度挖掘层包括点云分支和图像分支。通过深度挖掘层中的点云分支对样本点云特征进行深度挖掘，得到第一挖掘特征。其中，第一挖掘特征是指样本点云数据对应的深层特征，以及与样本图像数据之间的内在关联关系。通过深度挖掘层中的图像分支对样本图像特征进行深度挖掘，得到第二挖掘特征。第二挖掘特征是指样本图像数据对应的深层特征，以及与样本点云数据之间的内在关联关系。根据第一挖掘特征以及第二挖掘特征得到
挖掘特征数据。进而根据挖掘特征数据计算深度学习模型的关系损失值，将关系损失值确定为深度挖掘结果。
[0094]
进一步地，深度挖掘层的点云分支和图像分支分别包括一个编码器和多层感知机(multilayer perceptron，mlp)，多层感知机也可以称为projection。编码器用于对样本点云特征以及样本图像特征进行深度挖掘。多层感知机用于将挖掘特征数据映射到样本标记空间，即将挖掘特征数据整合为一个值，能够减少特征位置对于挖掘特征数据的影响，提高了整个模型的鲁棒性。通过深度挖掘层根据第一挖掘特征以及第二挖掘特征计算深度学习模型的关系损失值，根据关系损失值驱动特征提取层中点云分支和图像分支中编码器的参数向着能挖掘深度特征和多模态数据间内在关联关系的方向更新。
[0095]
进一步地，样本多模态数据可以是多个目标的多模态数据，因此，挖掘特征数据是指多个目标的挖掘特征。例如，关系损失值的关系损失函数可以采用infonce loss函数来计算，如下所示：
[0096][0097][0098]
其中，l
relation
表示关系损失值，n表示一个批次的图像或点云帧数，zi表示第一挖掘特征或第二挖掘特征中某个目标的深层特征，表示另一模态挖掘特征中与zi相同的该目标的特征，zj表示一个批次内的任意目标，sim(zi,zj)表示zi和zj的余弦相似度，t表示温度超参数。
[0099]
从关系损失函数来看，最小化关系损失意味着zi与的相似度应该尽量大，而zi与其他不同数据的相似度尽量小。关系损失函数使得不同模态数据间同一目标的区域特征相似度更高，不同目标的区域特征相似度更低。从而使模型能提挖掘数据更深层的语义特征和不同模态数据间的特征联系，更加有利于自动驾驶感知能力的提升。
[0100]
步骤310，通过感知层根据样本融合特征以及深度挖掘结果，对深度学习模型进行训练，得到预先构建的特征提取模型。
[0101]
通过感知层根据样本融合特征执行预设感知任务，得到任务执行结果。其中，预设感知任务是指自动驾驶任务，可以是3d目标检测任务、目标分割任务等。进而根据任务执行结果以及深度挖掘结果对深度学习模型进行训练，直至满足预设条件，得到预先构建的特征提取模型。其中，预设条件可以是深度学习模型的损失值不再下降或者达到预设迭代次数。
[0102]
在其中一个实施例中，感知层包括感知任务层以及训练优化层；通过感知层根据样本融合特征以及深度挖掘结果，对深度学习模型进行训练包括：通过感知任务层根据样本融合特征执行预设感知任务，得到任务执行结果；通过训练优化层根据任务执行结果以及关系损失值确定深度学习模型的总体损失值，根据总体损失值对深度学习模型进行训练。
[0103]
通过感知层中的感知任务层根据样本融合特征执行预设感知任务。训练过程中的感知层结构与实际应用过程中的感知层结构是相同的。其中，感知任务层可以包括提取层(extract层)和感知任务头(3dtaskhead)。例如，提取层可以是voxel、pillar等。通过提取层对深层融合特征进行特征提取，再通过感知任务头根据提取的特征执行预设感知任务，即自动驾驶任务，得到任务执行结果。例如，预设感知任务可以是3d目标检测任务、目标分割等任务。
[0104]
通过感知层中的训练优化层根据任务执行结果以及对应的感知任务损失函数，计算深度学习模型的感知任务损失值。当预设感知任务不同时，对应的感知任务损失函数也可以是不同的。例如，当预设感知任务为3d目标检测任务时，其感知任务损失函数可以包括位置损失、方向损失和类别损失。当预设感知任务为目标分割任务时，其感知任务损失函数可以包括类别损失、边界框损失、掩码损失和区域焦点损失。进而通过训练优化层根据感知任务损失值以及关系损失值，计算深度学习模型的总体损失值。通过调整总体损失值来训练深度学习模型的参数。其中，总体损失值可以是最小化总体损失值。
[0105]
进一步地，预设感知任务为目标检测任务；通过训练优化层根据任务执行结果以及关系损失值确定深度学习模型的总体损失值包括：通过训练优化层根据任务执行结果确定深度学习模型的位置损失值、方向损失值以及类别损失值；通过训练优化层根据位置损失值、方向损失值、类别损失值以及关系损失值确定深度学习模型的总体损失值。
[0106]
具体地，当预设感知任务为目标检测任务，即3d目标检测任务时，对应的感知任务损失函数可以包括位置损失、方向损失和类别损失。通过训练优化层根据任务执行结果以及对应的感知任务损失函数，计算深度学习模型的位置损失值、方向损失值以及类别损失值。感知任务损失函数可以包括位置损失函数、方向损失函数以及类别损失函数。其中，位置损失函数可以采用smoothl1函数，方向损失函数可以采用softmax损失函数，类别损失可以采用focalloss函数。例如，位置损失函数可以如下所示：
[0107]
l
loc
＝∑
b∈(x,y,z,w,h,l,θ)
smoothl1(δb)(3)
[0108]
其中，l
loc
表示位置损失值，b表示目标的位置，用7自由度(目标中心空间坐标(x，y，z)，目标宽长高(w，l，h)，航向角θ)表示，δb表示用深度学习网络预测得到的目标b的检测框与真实框的位置偏差。
[0109]
从而通过训练优化层根据位置损失值、方向损失值、类别损失值、关系损失值以及预设计算关系，计算深度学习模型的总体损失值。总体损失值可以是最小化总体损失值，以最小化总体损失值为优化目标。例如，预设计算关系可以如下所示：
[0110][0111]
其中，l
total
表示总体损失值，n
positive
表示正样本总数，正样本的确定与阈值优化，即样本多模态数据的预测分值大于正样本阈值，则此样本为正样本，l
loc
表示位置损失值，β
loc
表示位置损失值对应的位置权重，l
dir
表示方向损失值，β
dir
表示方向损失值对应的方向权重，l
cls
表示类别损失值，β
cls
表示类别损失值对应的类别权重，l
relation
表示关系损失值，β
relation
表示关系损失值对应的关系权重。
[0112]
通过设计一种新的综合的优化目标，可以综合表征自动驾驶感知任务的性能和多
模态融合程度。通过这种新的优化目标可以驱动深度学习网络学习多模态数据深层的特征和关联，提升自动驾驶感知性能。
[0113]
示例性地，当预设感知任务为目标检测任务时，深度学习模型的网络结构示意图可以如图4所示。其中，深度学习模型包括特征提取层、深度挖掘层、感知任务层和训练优化层。在训练深度学习模型时，特征提取层、深度挖掘层、感知任务层和训练优化层全程参与计算各类损失值，进行模型参数的更新和优化，以获得优质的特征提取模型。在实际应用过程中，不需要进行优化和损失值计算，可以去掉所有的损失结构，仅适用特征提取层和感知任务层。特征提取层和深度挖掘层中均包括点云分支以及图像分支。特征提取层中的点云分支和深度挖掘层中的点云分支相连，特征提取层中的图像分支和深度挖掘层中的图像分支相连。
[0114]
具体地，特征提取层中的图像分支包括两个encoder(编码器)，通过第一个encoder对待处理图像进行语义分割，对语义分割结果进行聚类处理，通过第二个encoder对聚类结果进行上采样，得到f_img(第二深层特征数据)。特征提取层中的点云分支包括一个encoder，通过encoder将待处理点云数据的特征维度提高到预设维度，从而提取到待处理点云数据中高维且深度的特征数据，即f_pt(第一深层特征数据)。特征提取层中还包括fusion层，通过融合层根据预设外参矩阵将f_img中每个像素点与f_pt中的点进行对齐，得到对齐后的f_img，从而将对齐后的f_img与f_pt进行融合，得到待处理多模态数据对应的f_fuse(深层融合特征)。
[0115]
深度挖掘层的点云分支和图像分支分别包括一个encoder和projection(多层感知机)，通过该图像分支中的encoder对样本图像特征进行深度挖掘，将挖掘的图像特征输入至projection，得到第二挖掘特征。通过该点云分支中的encoder对样本点云特征进行深度挖掘，将挖掘的点云特征输入至projection，得到第一挖掘特征。通过深度挖掘层根据第一挖掘特征以及第二挖掘特征计算深度学习模型的relation(关系损失值)。
[0116]
感知任务层包括extract层(提取层)和3dtaskhead(3d感知任务头)，将f_fuse输入至extract层中进行特征提取，再通过3dtaskhead根据提取的特征执行目标检测任务，得到任务执行结果，根据任务执行结果计算loc(位置损失)、dir(方向损失)和cls(类别损失)。
[0117]
通过训练优化层根据loc、dir、cls和relation，计算深度学习模型的totalloss(总体损失值)。通过totalloss来对深度学习模型的参数进行优化，直至深度学习模型的损失值不再下降或者达到预设迭代次数，得到预先构建的特征提取模型。
[0118]
本实施例中，待训练的深度学习模型包括特征提取层、深度挖掘层和感知层，通过特征提取层提取样本点云数据对应的样本点云特征以及样本图像数据对应的样本图像特征，将样本点云特征和样本图像特征进行融合，得到样本融合特征，从而通过待训练的深度学习模型中的深度挖掘层对样本点云特征以及样本图像特征进行深度挖掘，得到深度挖掘结果，通过感知层根据样本融合特征以及深度挖掘结果，对深度学习模型进行训练，得到预先构建的特征提取模型。使得训练得到的特征提取模型能够充分提取多模态数据间的内在联系，融合同类目标的特征，提取到更多有效的场景信息，能为自动驾驶的规划和决策提供更加准确的信息。
[0119]
在另一个实施例中，提供了一种多模态数据融合方法，该方法包括以下步骤：
[0120]
获取样本多模态数据；样本多模态数据包括样本点云数据以及样本图像数据。
[0121]
将样本多模态数据输入至待训练的深度学习模型中；深度学习模型包括特征提取层、深度挖掘层和感知层；感知层包括感知任务层以及训练优化层。
[0122]
通过特征提取层提取样本点云数据对应的样本点云特征以及样本图像数据对应的样本图像特征，将样本点云特征和样本图像特征进行融合，得到样本融合特征。
[0123]
通过深度挖掘层对样本点云特征以及样本图像特征进行深度挖掘，得到挖掘特征数据。
[0124]
根据挖掘特征数据确定深度学习模型的关系损失值。
[0125]
通过感知任务层根据样本融合特征执行预设感知任务，得到任务执行结果。
[0126]
当预设感知任务为目标检测任务时，通过训练优化层根据任务执行结果确定深度学习模型的位置损失值、方向损失值以及类别损失值。
[0127]
通过训练优化层根据位置损失值、方向损失值、类别损失值以及关系损失值确定深度学习模型的总体损失值，根据总体损失值对深度学习模型进行训练，得到预先构建的特征提取模型。
[0128]
获取待处理多模态数据；待处理多模态数据包括待处理点云数据和待处理图像数据。
[0129]
调用预先构建的特征提取模型。
[0130]
通过特征提取模型对待处理点云数据进行特征提取，得到待处理点云数据对应的第一深层特征数据；第一深层特征数据包括深层点云特征以及与待处理图像数据之间的关联特征。
[0131]
通过特征提取模型对待处理图像数据进行语义分割，得到语义分割结果，对语义分割结果进行聚类，得到聚类结果。
[0132]
在本实施例中，通过预先构建的特征提取模型对待处理多模态数据进行融合，由于特征提取模型是通过对样本多模态数据进行深度挖掘，根据深度挖掘结果训练得到的，能深度挖掘多模态数据的深层语义特征以及多模态数据之间的内在关联联系，使得深层融合特征能够更加接近真实世界，提高了多模态数据的融合准确性，同时能为自动驾驶的规划和决策提供更为准确的信息。
[0133]
在一个实施例中，将本方法与当前的主流方法pointpainting和roarnet，在kitti数据集上对车辆类别做了对比试验，如下表1。其中，正负样本阈值分别为0.6，0.45。试验以kitti数据集的评价标准ap(average precision，检测准确率)为指标。针对不同难度的车辆目标，本方法的检测准确率均高于当前主流的两种多模态融合方法。尤其是困难情况下的车辆目标，本身存在一定的检测难度。但是本方法在此类目标上得到的检测准确率拉开pointpainting的检测准确率为0.24％。对比试验从数据上说明本方法相对于当前主流的两种方法在提高感知能力方面具备一定的优越性。而感知能力的提高也依赖模型对数据的学习，所以，实验也验证了本方法对多模态数据特征有更深入的挖掘能力。
[0134]
表1对比实验
[0135][0136]
应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0137]
基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的多模态数据融合方法的多模态数据融合装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个多模态数据融合装置实施例中的具体限定可以参见上文中对于多模态数据融合方法的限定，在此不再赘述。
[0138]
在一个实施例中，如图5所示，提供了一种多模态数据融合装置，包括：数据获取模块502、模型调用模块504、特征提取模块506和特征融合模块508，其中：
[0139]
待处理数据获取模块502，用于获取待处理多模态数据；待处理多模态数据包括待处理点云数据和待处理图像数据。
[0140]
预构模型调用模块504，用于调用预先构建的特征提取模型。
[0141]
特征提取模块506，用于通过特征提取模型分别对待处理点云数据和待处理图像数据进行特征提取，得到待处理点云数据对应的第一深层特征数据以及待处理图像数据对应的第二深层特征数据。
[0142]
特征融合模块508，用于通过特征提取模型将第一深层特征数据和第二深层特征数据进行融合，得到待处理多模态数据对应的深层融合特征。
[0143]
在一个实施例中，上述装置还包括：
[0144]
样本数据获取模块，用于获取样本多模态数据；样本多模态数据包括样本点云数据以及样本图像数据。
[0145]
待训练模型调用模块，用于将样本多模态数据输入至待训练的深度学习模型中；深度学习模型包括特征提取层、深度挖掘层和感知层。
[0146]
特征处理模块，用于通过特征提取层提取样本点云数据对应的样本点云特征以及样本图像数据对应的样本图像特征，将样本点云特征和样本图像特征进行融合，得到样本融合特征。
[0147]
特征挖掘模块，用于通过深度挖掘层对样本点云特征以及样本图像特征进行深度挖掘，得到深度挖掘结果。
[0148]
模型优化模块，用于通过感知层根据样本融合特征以及深度挖掘结果，对深度学习模型进行训练，得到预先构建的特征提取模型。
[0149]
在一个实施例中，深度挖掘结果为关系损失值；特征挖掘模块，还用于通过深度挖掘层对样本点云特征以及样本图像特征进行深度挖掘，得到挖掘特征数据；根据挖掘特征数据确定关系损失值。
[0150]
在一个实施例中，感知层包括感知任务层以及训练优化层；模型优化模块，还用于通过感知任务层根据样本融合特征执行预设感知任务，得到任务执行结果；通过训练优化层根据任务执行结果以及关系损失值确定深度学习模型的总体损失值，根据总体损失值对深度学习模型进行训练。
[0151]
在一个实施例中，预设感知任务为目标检测任务；模型优化模块，还用于通过训练优化层根据任务执行结果确定深度学习模型的位置损失值、方向损失值以及类别损失值；通过训练优化层根据位置损失值、方向损失值、类别损失值以及关系损失值确定深度学习模型的总体损失值。
[0152]
在一个实施例中，特征提取模块506，还用于通过特征提取模型对待处理点云数据进行特征提取，得到待处理点云数据对应的第一深层特征数据；第一深层特征数据包括深层点云特征以及与待处理图像数据之间的关联特征；通过特征提取模型对待处理图像数据进行语义分割，得到语义分割结果，对语义分割结果进行聚类，得到聚类结果；通过特征提取模型对聚类结果进行上采样，得到待处理图像数据对应的第二深层特征数据；第二深层特征数据包括深层图像特征以及与待处理点云数据之间的关联特征。
[0153]
上述多模态数据融合装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0154]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output，简称i/o)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待处理多模态数据等。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多模态数据融合方法。
[0155]
本领域技术人员可以理解，图6中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0156]
在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0157]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0158]
在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0159]
需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0160]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
[0161]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0162]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

技术特征：
1.一种多模态数据融合方法，其特征在于，所述方法包括：获取待处理多模态数据；所述待处理多模态数据包括待处理点云数据和待处理图像数据；调用预先构建的特征提取模型；通过所述特征提取模型分别对所述待处理点云数据和所述待处理图像数据进行特征提取，得到所述待处理点云数据对应的第一深层特征数据以及所述待处理图像数据对应的第二深层特征数据；通过所述特征提取模型将所述第一深层特征数据和所述第二深层特征数据进行融合，得到所述待处理多模态数据对应的深层融合特征。2.根据权利要求1所述的方法，其特征在于，在所述获取待处理多模态数据之前，所述方法还包括：获取样本多模态数据；所述样本多模态数据包括样本点云数据以及样本图像数据；将所述样本多模态数据输入至待训练的深度学习模型中；所述深度学习模型包括特征提取层、深度挖掘层和感知层；通过所述特征提取层提取所述样本点云数据对应的样本点云特征以及所述样本图像数据对应的样本图像特征，将所述样本点云特征和所述样本图像特征进行融合，得到样本融合特征；通过所述深度挖掘层对所述样本点云特征以及所述样本图像特征进行深度挖掘，得到深度挖掘结果；通过所述感知层根据所述样本融合特征以及所述深度挖掘结果，对所述深度学习模型进行训练，得到所述预先构建的特征提取模型。3.根据权利要求2所述的方法，其特征在于，所述深度挖掘结果为关系损失值；所述通过所述深度挖掘层对所述样本点云特征以及所述样本图像特征进行深度挖掘，得到深度挖掘结果包括：通过所述深度挖掘层对所述样本点云特征以及所述样本图像特征进行深度挖掘，得到挖掘特征数据；根据所述挖掘特征数据确定所述关系损失值。4.根据权利要求3所述的方法，其特征在于，所述感知层包括感知任务层以及训练优化层；所述通过所述感知层根据所述样本融合特征以及所述深度挖掘结果，对所述深度学习模型进行训练包括：通过所述感知任务层根据所述样本融合特征执行预设感知任务，得到任务执行结果；通过所述训练优化层根据所述任务执行结果以及所述关系损失值确定所述深度学习模型的总体损失值，根据所述总体损失值对所述深度学习模型进行训练。5.根据权利要求4所述的方法，其特征在于，所述预设感知任务为目标检测任务；所述通过所述训练优化层根据所述任务执行结果以及所述关系损失值确定所述深度学习模型的总体损失值包括：通过所述训练优化层根据所述任务执行结果确定所述深度学习模型的位置损失值、方向损失值以及类别损失值；通过所述训练优化层根据所述位置损失值、所述方向损失值、所述类别损失值以及所
述关系损失值确定所述深度学习模型的总体损失值。6.根据权利要求1所述的方法，其特征在于，所述通过所述特征提取模型分别对所述待处理点云数据和所述待处理图像数据进行特征提取，得到所述待处理点云数据对应的第一深层特征数据以及所述待处理图像数据对应的第二深层特征数据包括：通过所述特征提取模型对所述待处理点云数据进行特征提取，得到所述待处理点云数据对应的第一深层特征数据；所述第一深层特征数据包括深层点云特征以及与所述待处理图像数据之间的关联特征；通过所述特征提取模型对所述待处理图像数据进行语义分割，得到语义分割结果，对所述语义分割结果进行聚类，得到聚类结果；通过所述特征提取模型对所述聚类结果进行上采样，得到所述待处理图像数据对应的第二深层特征数据；所述第二深层特征数据包括深层图像特征以及与所述待处理点云数据之间的关联特征。7.一种多模态数据融合装置，其特征在于，所述装置包括：数据获取模块，用于获取待处理多模态数据；所述待处理多模态数据包括待处理点云数据和待处理图像数据；模型调用模块，用于调用预先构建的特征提取模型；所述特征提取模型是通过对样本多模态数据进行深度挖掘，根据深度挖掘结果训练得到的；特征提取模块，用于通过所述特征提取模型分别对所述待处理点云数据和所述待处理图像数据进行特征提取，得到所述待处理点云数据对应的第一深层特征数据以及所述待处理图像数据对应的第二深层特征数据；特征融合模块，用于通过所述特征提取模型将所述第一深层特征数据和所述第二深层特征数据进行融合，得到所述待处理多模态数据对应的深层融合特征。8.根据权利要求7所述的装置，其特征在于，所述装置还包括：样本数据获取模块，用于获取样本多模态数据；所述样本多模态数据包括样本点云数据以及样本图像数据；待训练模型调用模块，用于将所述样本多模态数据输入至待训练的深度学习模型中；所述深度学习模型包括特征提取层、深度挖掘层和感知层；特征处理模块，用于通过所述特征提取层提取所述样本点云数据对应的样本点云特征以及所述样本图像数据对应的样本图像特征，将所述样本点云特征和所述样本图像特征进行融合，得到样本融合特征；特征挖掘模块，用于通过所述深度挖掘层对所述样本点云特征以及所述样本图像特征进行深度挖掘，得到深度挖掘结果；模型优化模块，用于通过所述感知层根据所述样本融合特征以及所述深度挖掘结果，对所述深度学习模型进行训练，得到所述预先构建的特征提取模型。9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

技术总结
本申请涉及一种多模态数据融合方法、装置、计算机设备和存储介质。所述方法包括：获取待处理多模态数据；所述待处理多模态数据包括待处理点云数据和待处理图像数据；调用预先构建的特征提取模型；所述特征提取模型是通过对样本多模态数据进行深度挖掘，根据深度挖掘结果训练得到的；通过所述特征提取模型分别对所述待处理点云数据和所述待处理图像数据进行特征提取，得到所述待处理点云数据对应的第一深层特征数据以及所述待处理图像数据对应的第二深层特征数据；通过所述特征提取模型将所述第一深层特征数据和所述第二深层特征数据进行融合，得到所述待处理多模态数据对应的深层融合特征。采用本方法能够提高多模态数据的融合准确性。融合准确性。融合准确性。

技术研发人员：张振林陈冰研袁金伟
受保护的技术使用者：中汽创智科技有限公司
技术研发日：2023.06.05
技术公布日：2023/9/7

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种改进的梁柱连接结构的制作方法 下一篇：一种挤压机出料口保护装置的制作方法

多模态数据融合方法、装置、计算机设备和存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

多模态数据融合方法、装置、计算机设备和存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表