单目图像深度预测模型训练方法、装置、设备及存储介质与流程

未命名 07-14 阅读：99 评论：0

1.本发明实施例涉及人工智能技术领域，具体涉及一种单目图像深度预测模型训练方法、装置、设备及存储介质。

背景技术：

2.深度信息对于自主系统感知环境、估计自身状态具有重要意义。在实际应用中，场景深度提取不仅在3d影视制作具有广泛丰富的应用，在自动驾驶、城市规划等领域也有着令人振奋的前景；在学术研究中，从图像中提取深度信息是计算机视觉的基本和重要任务之一，可广泛应用于同步定位与映射(slam,simultaneous localization and mapping)、导航、目标检测等研究。从图片中获取深度预测的传统方法依赖于运动恢复结构(sfm,structure from motion)的几何方法和基于激光雷达获得稠密深度图的传感器方法，其中大部分方法是基于可获得场景的多种观测的假设，包括图像序列、不同光照场景的观测或多视点图像。sfm作为估计三维结构的一种典型方法就是通过图像序列之间的特征对应和几何约束来处理稀疏特征的深度。类似地，立体视觉匹配还具有通过从两个视点观察场景来恢复场景的3d结构的能力。由于尺度模糊、多特征对应缺乏有效的几何解并且传感器受限于测量范围、光敏感等影响，如何从一幅图像中得到稠密的深度图仍然是一个巨大的挑战。在研究深度网络应该利用哪种线索进行单目深度预测的探索中，一些结构、颜色等信息可以被利用和学习进行深度推理。近年来基于深度学习的端到端的单目深度预测方法得到了广泛的研究，并取得了良好的精度性能。
3.但是，图像中可能存在运动的刚性物体，而刚性物体在运动时会导致拍摄的图像存在伪影或拖影，导致现有的预测模型在预测单目图像的深度时产生较大的误差。

技术实现要素：

4.鉴于上述问题，本发明实施例提供了一种单目图像深度预测模型训练方法、装置、设备及存储介质，用于解决现有技术中存在的单目图像深度预测准确率较低的问题。
5.根据本发明实施例的一个方面，提供了一种单目图像深度预测模型的训练方法，该方法包括：获取目标图像以及目标图像前后相邻帧图像，得到单目图像序列；对齐单目图像序列中相邻帧图像中的刚性物体以构建第一样本，并获取单目图像序列对应的立体图像对以构建第二样本；将第一样本输入至位姿预测模型预测得到相对位姿，并将第二样本输入至深度预测模型预测得到预测深度图；基于相对位姿和预测深度图重建投影图像；根据目标图像、投影图像和预设的损失函数反向更新位姿预测模型和深度预测模型。
6.在一种可选的方式中，将第二样本输入至深度预测模型预测得到预测深度图，进一步包括：将立体图像对输入至深度预测模型，得到立体图像对中左右视角的第一视差；将单目图像序列输入至深度预测模型，得到单目图像序列中相邻帧图像的第二视差；计算第一视差和第二视差的平方相对误差；将平方相对误差未超过预设阈值的区域的最终视差设置为第一视差，将平方相对误差超过预设阈值的区域的最终视差设置为第二视差；根据最
终视差输出预测深度图。
7.在一种可选的方式中，对齐单目图像序列中相邻帧图像中的刚性物体以构建第一样本，进一步包括：以图像中任意目标像素点为中心，基于目标像素点的光强度和目标像素点与其他像素点之间的距离，沿目标像素点的水平方向和垂直方向进行搜索，定位刚性物体对应的目标区域；将相邻图像的同一刚性物体对应的目标区域按照预设误差范围进行对齐，再将对齐后的多帧图像作为第一样本。
8.在一种可选的方式中，基于相对位姿和预测深度图重建投影图像，进一步包括：基于预设投影函数，结合相对位姿、预测深度图、预设误差范围和预设相机内参数构建每个像素投影至相邻帧图像所在坐标系时的全局像素坐标对应关系；根据全局像素坐标对应关系对目标图像进行重构，得到投影图像。
9.在一种可选的方式中，全局像素坐标对应关系表示为：i
t
′→
t
＝i
t
′
《proj(d
t
,t
t
→
t
′
,e
t
→
t
′
,k)》；其中，i
t
′→
t
为全局像素坐标对应关系，i
t
′
为相邻帧图像，proj为投影函数，d
t
为深度预测图，t
t
→
t
′
为相对位姿，e
t
→
t
′
为预设误差范围，k为预设相机内参数，《》为采样算符。
10.在一种可选的方式中，损失函数进一步包括最小化光度重投影误差函数，根据目标图像、投影图像和预设的损失函数反向更新位姿预测模型和深度预测模型，进一步包括：获取目标图像中刚性物体对应的目标区域，以及目标区域投影时的区域像素坐标对应关系；基于目标图像、全局像素坐标对应关系、目标区域和区域像素坐标对应关系计算重投影误差，重投影误差的计算公式为：l
p
＝∑
t
′
,d
′
pe(i
t
,i
t
′→
t
,a
t
,a
t
′→
t
)，其中，l
p
为重投影误差，pe为光度重建误差的l1范数，i
t
为目标图像，i
t
′→
t
为全局像素坐标对应关系，a
t
为目标区域，a
t
′→
t
为区域像素坐标对应关系，t
′
表示投影图像，d
′
表示深度预测图；根据重投影误差反向更新位姿预测模型和深度预测模型。
11.在一种可选的方式中，损失函数进一步包括深度预测模型损失函数，深度预测模型损失函数包括基于rgb重建的相似性误差函数、基于视差重建的一致性约束误差函数和视差平滑损失函数。
12.根据本发明实施例的另一方面，提供了一种单目图像深度预测模型的训练装置，该装置包括：获取模块，用于获取目标图像以及目标图像前后相邻帧图像，得到单目图像序列；构建模块，用于对齐单目图像序列中相邻帧图像中的刚性物体以构建第一样本，并获取单目图像序列对应的立体图像对以构建第二样本；预测模块，用于将第一样本输入至位姿预测模型预测得到相对位姿，并将第二样本输入至深度预测模型预测得到预测深度图；重建模块，用于基于相对位姿和预测深度图重建投影图像；更新模块，用于根据目标图像、投影图像和预设的损失函数反向更新位姿预测模型和深度预测模型。
13.根据本发明实施例的另一方面，提供了一种单目图像深度预测模型的训练设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行如上述任意一项的单目图像深度预测模型的训练方法的操作。
14.根据本发明实施例的又一方面，提供了一种计算机可读存储介质，存储介质中存储有至少一可执行指令，可执行指令在单目图像深度预测模型的训练设备/装置上运行时，使得单目图像深度预测模型的训练设备/装置执行如上述任意一项的单目图像深度预测模型的训练方法的操作。
15.本发明实施例通过引入基于单目图像序列的自监督训练，耦合了预测相机位姿的位姿预测模型和预测单目图像深度的深度预测模型，其首先对单目图像序列的刚性物体进行定位和对齐，从而在局部的刚性物体的边缘上加强了光度重投影损失，以提高位姿预测模型的预测精度，使得重建的投影图像精度更高，进而使得根据投影图像训练得到的深度预测模型和位姿预测模型的预测精度更高，使得训练好的深度预测模型能够精准的预测出单目图像的深度。
16.上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
17.附图仅用于示出实施方式，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
18.图1示出了本发明实施例提供的单目图像深度预测模型训练方法的流程示意图；
19.图2示出了本发明实施例提供的单目图像深度预测模型训练方法的训练过程示意图；
20.图3示出了本发明实施例提供的单目图像深度预测模型训练装置的结构示意图；
21.图4示出了本发明实施例提供的单目图像深度预测模型训练设备的结构示意图。
具体实施方式
22.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
23.图1示出了本发明单目图像深度预测模型训练方法实施例的流程图，该方法由单目图像深度预测模型训练设备执行。如图1所示，该方法包括以下步骤：
24.步骤110：获取目标图像以及目标图像前后相邻帧图像，得到单目图像序列。
25.其中，本实施例中的所述的目标图像和相邻帧图像均是指单目摄像头所拍摄的单目图像，该目标图像和相邻帧图像组成连续的单目图像系列，以i
t
表示目标图像，则相邻帧图像可以表示为i
t'
，其中，该i
t'
∈{i
t-1
,i
t+1
}，即该单目图像序列由三帧连续的图像构成。该单目图像序列可以是左视图也可以是右视图，本发明实施例不做限定。
26.步骤120：对齐单目图像序列中相邻帧图像中的刚性物体以构建第一样本，并获取单目图像序列对应的立体图像对以构建第二样本。
27.需要说明的是，该单目图像深度预测模型训练具体由位姿预测模型和深度预测模型构成，且位姿预测模型和深度预测模型的输入数据不完全相同。本实施例中，位姿预测模型的输入为第一样本，该第一样本由单目图像序列中的每帧图像在定位和对齐刚性物体所在区域后构建得到。深度预测模型的输入为第二样本，该第二样本由立体图像对和单目图像序列构成，立体图像对具体包括左视角视图和右视角视图，立体图像对根据单目图像序列得到，例如，请一并参阅图2，图2中以“left-view-vidio”作为单目图像序列，“right-view
‑‑
vidio”和“left-view-vidio”构成一组立体图像对，该“right-view
‑‑
vidio”为预先
获取的右视图序列。
28.进一步的，在步骤120中，对齐单目图像序列中相邻帧图像中的刚性物体以构建第一样本的步骤，进一步包括：
29.1、以图像中任意目标像素点为中心，基于目标像素点的光强度和目标像素点与其他像素点之间的距离，沿目标像素点的水平方向和垂直方向进行搜索，定位刚性物体对应的目标区域。
30.具体地，本实施例中，以每帧图像中的任意相似点p向水平方向和垂直方向进行遍历，得到该像素点的支持领域，且该支持领域中所有像素点与点p相比，其光强度和与点p之间的距离均在预设范围内，从而定位出每帧图像中刚性物体的区域边界。
31.2、将相邻图像的同一刚性物体对应的目标区域按照预设误差范围进行对齐，再将对齐后的多帧图像作为第一样本。
32.具体地，在得到每帧图像的刚性物品的目标区域后，将相邻帧中的统一刚性物体进行对齐，并将对齐时的误差限定在预设误差范围内。例如，当单目图像序列包括三帧图像时，则三帧图像中刚性物体的区域边界在进行对齐时，其误差范围需要限制在预设误差范围内。优选地，该预设误差范围为0.16～0.2。
33.步骤130：将第一样本输入至位姿预测模型预测得到相对位姿，并将第二样本输入至深度预测模型预测得到预测深度图。
34.其中，当将第一样本输入至待训练的位姿预测模型中后，该位姿预测模型根据单目图像训练中的每帧图像进行预测，从而得到相邻帧图像与目标图像之间相机的相对位姿。将第二样本输入至待训练的深度预测模型中进行预测，即可得到目标图像的预测深度图。
35.进一步的，在步骤130中，将第二样本输入至深度预测模型预测得到预测深度图的步骤，进一步包括：
36.1、将立体图像对输入至深度预测模型，得到立体图像对中左右视角的第一视差。
37.2、将单目图像序列输入至深度预测模型，得到单目图像序列中相邻帧图像的第二视差。
38.3、计算第一视差和第二视差的平方相对误差。
39.其中，平方相对误差的计算公式为：δd
sq_rel
为平方相对误差，n为像素的数量，disv为第二时差，diss为第一时差。
40.4、将平方相对误差未超过预设阈值的区域的最终视差设置为第一视差，将平方相对误差超过预设阈值的区域的最终视差设置为第二视差。
41.其中，在得到各个区域的第一视差和第二视差后，计算各个区域的平方相对误差，将该平方相对误差与预设阈值进行比较，若平方相对误差低于预设阈值，则将该区域的最终视差设置为第一视差，若平方相对误差高于预设阈值，则将该区域的最终视差设置为第二视差，从而得到经过调整和补齐的最终视差，将该最终视差作为最终的深度值。需要说明的是，该预设阈值预先设置，优选地，该预设阈值设置为1.5。
42.5、根据最终视差输出预测深度图。
43.具体地，本实施例中，以立体图像对得出的第一视差为主，利用单目图像序列得出
的第二视差对整个深度图每个区域的最终视差值进行调整。其中，立体图像对的目的在于根据立体图像对中左右视角的差异来减少图像边缘立体遮挡的影响，而单目图像序列的目的在于减轻单视图中的物体遮挡和低纹理区域的深度缺失问题。
44.步骤140：基于相对位姿和预测深度图重建投影图像。
45.其中，在得到相对位姿和预测深度图后，结合相对位姿和预测深度图相邻帧图像坐标系下重建投影图像。
46.具体地，步骤140进一步包括：
47.1、基于预设投影函数，结合相对位姿、预测深度图、预设误差范围和预设相机内参数构建每个像素投影至相邻帧图像所在坐标系时的全局像素坐标对应关系。
48.其中，全局像素坐标对应关系表示为：
49.i
t
′→
t
＝i
t
′
《proj(d
t
,t
t
→
t
′
,e
t
→
t
′
,k)》；
50.其中，i
t
′→
t
为全局像素坐标对应关系，i
t
′
为相邻帧图像，proj为投影函数，d
t
为深度预测图，t
t
→
t
′
为相对位姿，e
t
→
t
′
为预设误差范围，k为预设相机内参数，《
·
》为采样算符。
51.2、根据全局像素坐标对应关系对目标图像进行重构，得到投影图像。
52.步骤150：根据目标图像、投影图像和预设的损失函数反向更新位姿预测模型和深度预测模型。
53.其中，在得到重构的投影图像后，采用损失函数来反向更新位姿预测模型和深度预测模型的参数，直至位姿预测模型和深度预测模型的精度达到预设要求时为止，得到训练好的位姿预测模型和深度预测模型。损失函数可以使表征最小化光度重投影误差的函数。
54.进一步的，损失函数进一步包括最小化光度重投影误差函数，在步骤150中，根据目标图像、投影图像和预设的损失函数反向更新位姿预测模型和深度预测模型的步骤，进一步包括：
55.1、获取目标图像中刚性物体对应的目标区域，以及目标区域投影时的区域像素坐标对应关系。
56.2、基于目标图像、全局像素坐标对应关系、目标区域和区域像素坐标对应关系计算重投影误差，重投影误差的计算公式为：l
p
＝∑
t
′
,d
′
pe(i
t
,i
t
′→
t
,a
t
,a
t
′→
t
)，其中，l
p
为重投影误差，pe为光度重建误差的l1范数，i
t
为目标图像，i
t
′→
t
为全局像素坐标对应关系，a
t
为目标区域，a
t
′→
t
为区域像素坐标对应关系，t
′
表示投影图像，d
′
表示深度预测图；
57.3、根据重投影误差反向更新位姿预测模型和深度预测模型。
58.具体地，考虑到定位的刚性物体对模型预测的影响，在构建损失函数时，不仅考虑到图像全局的优化，还考虑到对被定位和对齐的刚性物体所在的目标区域进行优化，从而加强对模型的训练效果，使得最终得到的模型预测准确性进一步提高。
59.进一步的，损失函数还包括深度预测模型损失函数，深度预测模型损失函数包括基于rgb重建的相似性误差函数、基于视差重建的一致性约束误差函数和视差平滑损失函数。
60.需要说明的是，本实施例中，该位姿预测模型和深度预测模型均采用resnet18的卷积神经网络来训练，采用encoder-decoder架构，模型网络的encoder部分由4个resblock组成，每个resblock包含两个卷积层，每个卷积层之后是bn层和relu层，输入经过一个卷积
以进入跳跃连接，跳跃连接位于块的输入和最后一个bn之间的层，网络decoder部分设置skip作用域，便于将编码过程的部分特征图直接拼接到解码过程中。
61.本发明实施例通过引入基于单目图像序列的自监督训练，耦合了预测相机位姿的位姿预测模型和预测单目图像深度的深度预测模型，其首先对单目图像序列的刚性物体进行定位和对齐，从而在局部的刚性物体的边缘上加强了光度重投影损失，以提高位姿预测模型的预测精度，使得重建的投影图像精度更高，进而使得根据投影图像训练得到的深度预测模型和位姿预测模型的预测精度更高，使得训练好的深度预测模型能够精准的预测出单目图像的深度。
62.图3示出了本发明单目图像深度预测模型训练装置实施例的结构示意图。如图3所示，该装置300包括：获取模块310、构建模块320、预测模块330、重建模块340和更新模块350。
63.获取模块310，用于获取目标图像以及目标图像前后相邻帧图像，得到单目图像序列；
64.构建模块320，用于对齐单目图像序列中相邻帧图像中的刚性物体以构建第一样本，并获取单目图像序列对应的立体图像对以构建第二样本；
65.预测模块330，用于将第一样本输入至位姿预测模型预测得到相对位姿，并将第二样本输入至深度预测模型预测得到预测深度图；
66.重建模块340，用于基于相对位姿和预测深度图重建投影图像；
67.更新模块350，用于根据目标图像、投影图像和预设的损失函数反向更新位姿预测模型和深度预测模型。
68.在一种可选的方式中，预测模块330执行将第二样本输入至深度预测模型预测得到预测深度图的操作，进一步包括：将立体图像对输入至深度预测模型，得到立体图像对中左右视角的第一视差；将单目图像序列输入至深度预测模型，得到单目图像序列中相邻帧图像的第二视差；计算第一视差和第二视差的平方相对误差；将平方相对误差未超过预设阈值的区域的最终视差设置为第一视差，将平方相对误差超过预设阈值的区域的最终视差设置为第二视差；根据最终视差输出预测深度图。
69.在一种可选的方式中，构建模块320执行对齐单目图像序列中相邻帧图像中的刚性物体以构建第一样本的操作，进一步包括：以图像中任意目标像素点为中心，基于目标像素点的光强度和目标像素点与其他像素点之间的距离，沿目标像素点的水平方向和垂直方向进行搜索，定位刚性物体对应的目标区域；将相邻图像的同一刚性物体对应的目标区域按照预设误差范围进行对齐，再将对齐后的多帧图像作为第一样本。
70.在一种可选的方式中，重建模块340执行基于相对位姿和预测深度图重建投影图像的操作，进一步包括：基于预设投影函数，结合相对位姿、预测深度图、预设误差范围和预设相机内参数构建每个像素投影至相邻帧图像所在坐标系时的全局像素坐标对应关系；根据全局像素坐标对应关系对目标图像进行重构，得到投影图像。
71.在一种可选的方式中，全局像素坐标对应关系表示为：i
t
′→
t
＝i
t
′
《proj(d
t
,t
t
→
t
′
,e
t
→
t
′
,k)》；其中，i
t
′→
t
为全局像素坐标对应关系，i
t
′
为相邻帧图像，proj为投影函数，d
t
为深度预测图，t
t
→
t
′
为相对位姿，e
t
→
t
′
为预设误差范围，k为预设相机内参数，《》为采样算符。
72.在一种可选的方式中，损失函数进一步包括最小化光度重投影误差函数，更新模
块350执行根据目标图像、投影图像和预设的损失函数反向更新位姿预测模型和深度预测模型的操作，进一步包括：获取目标图像中刚性物体对应的目标区域，以及目标区域投影时的区域像素坐标对应关系；基于目标图像、全局像素坐标对应关系、目标区域和区域像素坐标对应关系计算重投影误差，重投影误差的计算公式为：l
p
＝∑
t
′
,d
′
pe(i
t
,i
t
′→
t
,a
t
,a
t
′→
t
)，其中，l
p
为重投影误差，pe为光度重建误差的l1范数，i
t
为目标图像，i
t
′→
t
为全局像素坐标对应关系，a
t
为目标区域，a
t
′→
t
为区域像素坐标对应关系，t
′
表示投影图像，d
′
表示深度预测图；根据重投影误差反向更新位姿预测模型和深度预测模型。
73.在一种可选的方式中，损失函数进一步包括深度预测模型损失函数，深度预测模型损失函数包括基于rgb重建的相似性误差函数、基于视差重建的一致性约束误差函数和视差平滑损失函数。
74.本发明实施例通过引入基于单目图像序列的自监督训练，耦合了预测相机位姿的位姿预测模型和预测单目图像深度的深度预测模型，其首先对单目图像序列的刚性物体进行定位和对齐，从而在局部的刚性物体的边缘上加强了光度重投影损失，以提高位姿预测模型的预测精度，使得重建的投影图像精度更高，进而使得根据投影图像训练得到的深度预测模型和位姿预测模型的预测精度更高，使得训练好的深度预测模型能够精准的预测出单目图像的深度。
75.图4示出了本发明单目图像深度预测模型训练设备实施例的结构示意图，本发明具体实施例并不对单目图像深度预测模型训练设备的具体实现做限定。
76.如图4所示，该单目图像深度预测模型训练设备可以包括：处理器(processor)402、通信接口(communications interface)404、存储器(memory)406、以及通信总线408。
77.其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。处理器402，用于执行程序410，具体可以执行上述用于单目图像深度预测模型训练方法实施例中的相关步骤。
78.具体地，程序410可以包括程序代码，该程序代码包括计算机可执行指令。
79.处理器402可能是中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。单目图像深度预测模型训练设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。
80.存储器406，用于存放程序410。存储器406可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
81.程序410具体可以被处理器402调用使单目图像深度预测模型训练设备执行以下操作：
82.获取目标图像以及目标图像前后相邻帧图像，得到单目图像序列；对齐单目图像序列中相邻帧图像中的刚性物体以构建第一样本，并获取单目图像序列对应的立体图像对以构建第二样本；将第一样本输入至位姿预测模型预测得到相对位姿，并将第二样本输入至深度预测模型预测得到预测深度图；基于相对位姿和预测深度图重建投影图像；根据目标图像、投影图像和预设的损失函数反向更新位姿预测模型和深度预测模型。
83.在一种可选的方式中，将第二样本输入至深度预测模型预测得到预测深度图，进
一步包括：将立体图像对输入至深度预测模型，得到立体图像对中左右视角的第一视差；将单目图像序列输入至深度预测模型，得到单目图像序列中相邻帧图像的第二视差；计算第一视差和第二视差的平方相对误差；将平方相对误差未超过预设阈值的区域的最终视差设置为第一视差，将平方相对误差超过预设阈值的区域的最终视差设置为第二视差；根据最终视差输出预测深度图。
84.在一种可选的方式中，对齐单目图像序列中相邻帧图像中的刚性物体以构建第一样本，进一步包括：以图像中任意目标像素点为中心，基于目标像素点的光强度和目标像素点与其他像素点之间的距离，沿目标像素点的水平方向和垂直方向进行搜索，定位刚性物体对应的目标区域；将相邻图像的同一刚性物体对应的目标区域按照预设误差范围进行对齐，再将对齐后的多帧图像作为第一样本。
85.在一种可选的方式中，基于相对位姿和预测深度图重建投影图像，进一步包括：基于预设投影函数，结合相对位姿、预测深度图、预设误差范围和预设相机内参数构建每个像素投影至相邻帧图像所在坐标系时的全局像素坐标对应关系；根据全局像素坐标对应关系对目标图像进行重构，得到投影图像。
86.在一种可选的方式中，全局像素坐标对应关系表示为：i
t
′→
t
＝i
t
′
《proj(d
t
,t
t
→
t
′
,e
t
→
t
′
,k)》；其中，i
t
′→
t
为全局像素坐标对应关系，i
t
′
为相邻帧图像，proj为投影函数，d
t
为深度预测图，t
t
→
t
′
为相对位姿，e
t
→
t
′
为预设误差范围，k为预设相机内参数，《》为采样算符。
87.在一种可选的方式中，损失函数进一步包括最小化光度重投影误差函数，根据目标图像、投影图像和预设的损失函数反向更新位姿预测模型和深度预测模型，进一步包括：获取目标图像中刚性物体对应的目标区域，以及目标区域投影时的区域像素坐标对应关系；基于目标图像、全局像素坐标对应关系、目标区域和区域像素坐标对应关系计算重投影误差，重投影误差的计算公式为：l
p
＝∑
t
′
,d
′
pe(i
t
,i
t
′→
t
,a
t
,a
t
′→
t
)，其中，l
p
为重投影误差，pe为光度重建误差的l1范数，i
t
为目标图像，i
t
′→
t
为全局像素坐标对应关系，a
t
为目标区域，a
t
′→
t
为区域像素坐标对应关系，t
′
表示投影图像，d
′
表示深度预测图；根据重投影误差反向更新位姿预测模型和深度预测模型。
88.在一种可选的方式中，损失函数进一步包括深度预测模型损失函数，深度预测模型损失函数包括基于rgb重建的相似性误差函数、基于视差重建的一致性约束误差函数和视差平滑损失函数。
89.本发明实施例通过引入基于单目图像序列的自监督训练，耦合了预测相机位姿的位姿预测模型和预测单目图像深度的深度预测模型，其首先对单目图像序列的刚性物体进行定位和对齐，从而在局部的刚性物体的边缘上加强了光度重投影损失，以提高位姿预测模型的预测精度，使得重建的投影图像精度更高，进而使得根据投影图像训练得到的深度预测模型和位姿预测模型的预测精度更高，使得训练好的深度预测模型能够精准的预测出单目图像的深度。
90.本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有至少一可执行指令，该可执行指令在单目图像深度预测模型训练设备/装置上运行时，使得所述单目图像深度预测模型训练设备/装置执行上述任意方法实施例中的单目图像深度预测模型训练方法。
91.可执行指令具体可以用于使得单目图像深度预测模型训练设备/装置执行以下操
作：
92.获取目标图像以及目标图像前后相邻帧图像，得到单目图像序列；对齐单目图像序列中相邻帧图像中的刚性物体以构建第一样本，并获取单目图像序列对应的立体图像对以构建第二样本；将第一样本输入至位姿预测模型预测得到相对位姿，并将第二样本输入至深度预测模型预测得到预测深度图；基于相对位姿和预测深度图重建投影图像；根据目标图像、投影图像和预设的损失函数反向更新位姿预测模型和深度预测模型。
93.在一种可选的方式中，将第二样本输入至深度预测模型预测得到预测深度图，进一步包括：将立体图像对输入至深度预测模型，得到立体图像对中左右视角的第一视差；将单目图像序列输入至深度预测模型，得到单目图像序列中相邻帧图像的第二视差；计算第一视差和第二视差的平方相对误差；将平方相对误差未超过预设阈值的区域的最终视差设置为第一视差，将平方相对误差超过预设阈值的区域的最终视差设置为第二视差；根据最终视差输出预测深度图。
94.在一种可选的方式中，对齐单目图像序列中相邻帧图像中的刚性物体以构建第一样本，进一步包括：以图像中任意目标像素点为中心，基于目标像素点的光强度和目标像素点与其他像素点之间的距离，沿目标像素点的水平方向和垂直方向进行搜索，定位刚性物体对应的目标区域；将相邻图像的同一刚性物体对应的目标区域按照预设误差范围进行对齐，再将对齐后的多帧图像作为第一样本。
95.在一种可选的方式中，基于相对位姿和预测深度图重建投影图像，进一步包括：基于预设投影函数，结合相对位姿、预测深度图、预设误差范围和预设相机内参数构建每个像素投影至相邻帧图像所在坐标系时的全局像素坐标对应关系；根据全局像素坐标对应关系对目标图像进行重构，得到投影图像。
96.在一种可选的方式中，全局像素坐标对应关系表示为：i
t
′→
t
＝i
t
′
《proj(d
t
,t
t
→
t
′
,e
t
→
t
′
,k)》；其中，i
t
′→
t
为全局像素坐标对应关系，i
t
′
为相邻帧图像，proj为投影函数，d
t
为深度预测图，t
t
→
t
′
为相对位姿，e
t
→
t
′
为预设误差范围，k为预设相机内参数，《》为采样算符。
97.在一种可选的方式中，损失函数进一步包括最小化光度重投影误差函数，根据目标图像、投影图像和预设的损失函数反向更新位姿预测模型和深度预测模型，进一步包括：获取目标图像中刚性物体对应的目标区域，以及目标区域投影时的区域像素坐标对应关系；基于目标图像、全局像素坐标对应关系、目标区域和区域像素坐标对应关系计算重投影误差，重投影误差的计算公式为：l
p
＝∑
t
′
,d
′
pe(i
t
,i
t
′→
t
,a
t
,a
t
′→
t
)，其中，l
p
为重投影误差，pe为光度重建误差的l1范数，i
t
为目标图像，i
t
′→
t
为全局像素坐标对应关系，a
t
为目标区域，a
t
′→
t
为区域像素坐标对应关系，t
′
表示投影图像，d
′
表示深度预测图；根据重投影误差反向更新位姿预测模型和深度预测模型。
98.在一种可选的方式中，损失函数进一步包括深度预测模型损失函数，深度预测模型损失函数包括基于rgb重建的相似性误差函数、基于视差重建的一致性约束误差函数和视差平滑损失函数。
99.本发明实施例通过引入基于单目图像序列的自监督训练，耦合了预测相机位姿的位姿预测模型和预测单目图像深度的深度预测模型，其首先对单目图像序列的刚性物体进行定位和对齐，从而在局部的刚性物体的边缘上加强了光度重投影损失，以提高位姿预测模型的预测精度，使得重建的投影图像精度更高，进而使得根据投影图像训练得到的深度
预测模型和位姿预测模型的预测精度更高，使得训练好的深度预测模型能够精准的预测出单目图像的深度。
100.在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
101.在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
102.类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。
103.本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
104.此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
105.应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

技术特征：
1.一种单目图像深度预测模型训练方法，其特征在于，所述方法包括：获取目标图像以及所述目标图像前后相邻帧图像，得到单目图像序列；对齐所述单目图像序列中相邻帧图像中的刚性物体以构建第一样本，并获取所述单目图像序列对应的立体图像对以构建第二样本；将所述第一样本输入至位姿预测模型预测得到相对位姿，并将所述第二样本输入至深度预测模型预测得到预测深度图；基于所述相对位姿和所述预测深度图重建投影图像；根据所述目标图像、所述投影图像和预设的损失函数反向更新所述位姿预测模型和所述深度预测模型。2.根据权利要求1所述的方法，其特征在于，所述将所述第二样本输入至深度预测模型预测得到预测深度图，进一步包括：将所述立体图像对输入至所述深度预测模型，得到所述立体图像对中左右视角的第一视差；将所述单目图像序列输入至所述深度预测模型，得到所述单目图像序列中相邻帧图像的第二视差；计算所述第一视差和所述第二视差的平方相对误差；将所述平方相对误差未超过预设阈值的区域的最终视差设置为所述第一视差，将所述平方相对误差超过预设阈值的区域的最终视差设置为所述第二视差；根据所述最终视差输出所述预测深度图。3.根据权利要求1所述的方法，其特征在于，所述对齐所述单目图像序列中相邻帧图像中的刚性物体以构建第一样本，进一步包括：以所述图像中任意目标像素点为中心，基于所述目标像素点的光强度和目标像素点与其他像素点之间的距离，沿所述目标像素点的水平方向和垂直方向进行搜索，定位所述刚性物体对应的目标区域；将相邻图像的同一刚性物体对应的目标区域按照预设误差范围进行对齐，再将对齐后的多帧图像作为所述第一样本。4.根据权利要求3所述的方法，其特征在于，所述基于所述相对位姿和所述预测深度图重建投影图像，进一步包括：基于预设投影函数，结合所述相对位姿、所述预测深度图、所述预设误差范围和预设相机内参数构建每个像素投影至所述相邻帧图像所在坐标系时的全局像素坐标对应关系；根据所述全局像素坐标对应关系对所述目标图像进行重构，得到所述投影图像。5.根据权利要求4所述的方法，其特征在于，所述全局像素坐标对应关系表示为：i
t
′→
t
＝i
t
′
＜proj(d
t
，t
t
→
t
′
，e
t
→
t
′
，k)>；其中，i
t
′→
t
为所述全局像素坐标对应关系，i
t
′
为所述相邻帧图像，proj为所述投影函数，d
t
为所述深度预测图，t
t
→
t
′
为所述相对位姿，e
t
→
t
′
为所述预设误差范围，k为所述预设相机内参数，<
·
>为采样算符。6.根据权利要求4所述的方法，其特征在于，所述损失函数进一步包括最小化光度重投影误差函数，所述根据所述目标图像、所述投影图像和预设的损失函数反向更新所述位姿预测模型和所述深度预测模型，进一步包括：
获取所述目标图像中刚性物体对应的目标区域，以及所述目标区域投影时的区域像素坐标对应关系；基于所述目标图像、所述全局像素坐标对应关系、所述目标区域和所述区域像素坐标对应关系计算重投影误差，所述重投影误差的计算公式为：l
p
＝∑
t
′
，d
′
pe(i
t
，i
t
′→
t
，a
t
，a
t
′→
t
)，其中，l
p
为所述重投影误差，pe为光度重建误差的l1范数，i
t
为所述目标图像，i
t
′→
t
为所述全局像素坐标对应关系，a
t
为所述目标区域，a
t
′→
t
为所述区域像素坐标对应关系，t
′
表示投影图像，d
′
表示所述深度预测图；根据所述重投影误差反向更新所述位姿预测模型和深度预测模型。7.根据权利要求1所述的方法，其特征在于，所述损失函数进一步包括深度预测模型损失函数，所述深度预测模型损失函数包括基于rgb重建的相似性误差函数、基于视差重建的一致性约束误差函数和视差平滑损失函数。8.一种单目图像深度预测模型训练装置，其特征在于，所述装置包括：获取模块，用于获取目标图像以及所述目标图像前后相邻帧图像，得到单目图像序列；构建模块，用于对齐所述单目图像序列中相邻帧图像中的刚性物体以构建第一样本，并获取所述单目图像序列对应的立体图像对以构建第二样本；预测模块，用于将所述第一样本输入至位姿预测模型预测得到相对位姿，并将所述第二样本输入至深度预测模型预测得到预测深度图；重建模块，用于基于所述相对位姿和所述预测深度图重建投影图像；更新模块，用于根据所述目标图像、所述投影图像和预设的损失函数反向更新所述位姿预测模型和所述深度预测模型。9.一种单目图像深度预测模型训练设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7任意一项所述的单目图像深度预测模型训练方法的操作。10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令在单目图像深度预测模型训练设备上运行时，使得单目图像深度预测模型训练设备执行如权利要求1-7任意一项所述的单目图像深度预测模型训练方法的操作。

技术总结
本发明实施例涉及人工智能技术领域，公开了一种单目图像深度预测模型训练方法、装置、设备及存储介质，该方法包括：获取目标图像以及目标图像前后相邻帧图像，得到单目图像序列；对齐单目图像序列中相邻帧图像中的刚性物体以构建第一样本，并获取单目图像序列对应的立体图像对以构建第二样本；将第一样本输入至位姿预测模型预测得到相对位姿，并将第二样本输入至深度预测模型预测得到预测深度图；基于相对位姿和预测深度图重建投影图像；根据目标图像、投影图像和预设的损失函数反向更新位姿预测模型和深度预测模型。本发明实施例通过将对齐图像中的刚性物体时的误差用于重建投影图像的过程，以提升模型预测过程的精度。以提升模型预测过程的精度。以提升模型预测过程的精度。

技术研发人员：缪静
受保护的技术使用者：中国移动通信集团有限公司
技术研发日：2021.12.28
技术公布日：2023/7/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：存储装置及其制造方法与流程 下一篇：一种有机化合物、薄膜、光电器件及显示装置的制作方法

单目图像深度预测模型训练方法、装置、设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

单目图像深度预测模型训练方法、装置、设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表