自适应深度转尺寸卷积的自监督单目深度估计方法及系统

未命名 09-11 阅读：144 评论：0

1.本公开涉及图像处理相关技术领域，具体的说，是涉及一种自适应深度转尺寸卷积的自监督单目深度估计方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。
3.深度估计是三维视觉中一项基础而重要的任务，获得的高质量深度图可以提供有用的场景信息来辅助包括增强现实、自动驾驶和三维重建在内的等各种高级任务。随着深度学习的发展，基于深度学习的单目深度估计逐渐兴起，并受到学术界和工业界的广泛关注，其主要分为以真值深度图为目标的有监督学习方法和以视图合成重建误差为目标的自监督学习方法，本公开主要针对以基于单目视频的自监督深度估计方法。
4.发明人在研究中发现，对于使用移动摄像机捕获的连续视频帧，物体的大小会不断变化。现有的单目深度估计方法只是使用固定尺寸卷积和固定尺度处理的卷积网络来处理不同尺寸的物体，不可避免地影响了场景结构的提取。并且，仅仅通过自适应深度转尺寸卷积获取的特征虽然解决了视频不同帧之间不同深度下尺度模糊的问题，但是忽略了同一传统卷积尺度下帧内不同物体的特征所包含的场景的重要信息。

技术实现要素：

5.本公开为了解决上述问题，提出了一种自适应深度转尺寸卷积的自监督单目深度估计方法及系统，能够准确提取图像的深度图。
6.为了实现上述目的，本公开采用如下技术方案：
7.一个或多个实施例提供了一种自适应深度转尺寸卷积的自监督单目深度估计方法，包括如下步骤：
8.获取待预测当前帧图像；
9.基于多级编码器对当前帧图像进行多级编码得到多尺度特征，将每一级编码特征传输至对应级数的解码器中进行解码；
10.通过第一个解码器得到第一级深度图，第二级以及以上的解码器替换为深度转尺寸特征解码模块，接收上一级解码器的解码输出特征图与本级的编码器传输的编码特征图，进行卷积核随图像深度值自适应变化的深度转尺寸卷积，以及基于尺寸信息的特征融合，生成对应分辨率的深度图；
11.最后一级深度转尺寸特征解码模块输出的深度图即为对当前帧图像进行预测得到的深度图。
12.一个或多个实施例提供了一种自适应深度转尺寸卷积的自监督单目深度估计系统，包括：
13.图像获取模块，用于获取待预测当前帧图像；
14.多级编码单元，用于对当前帧图像进行多级编码得到多尺度特征，将每一级编码特征传输至对应级数的解码器中进行解码；
15.多级解码单元，用于通过第一个解码器得到第一级深度图，第二级以及以上的解码器替换为深度转尺寸特征解码模块，接收上一级解码器的解码输出特征图与本级的编码器传输的编码特征图，进行卷积核随图像深度值自适应变化的深度转尺寸卷积，以及基于尺寸信息的特征融合，生成对应分辨率的深度图；
16.深度图输出单元，通过最后一级深度转尺寸特征解码模块输出的深度图，即为对当前帧图像进行预测得到的深度图。
17.与现有技术相比，本公开的有益效果为：
18.本公开通过自适应深度转尺寸卷积获取的特征解决了视频不同帧之间不同深度下尺度模糊的问题，基于场景深度与目标尺度之间的关系，显式处理视频连续帧由于场景深度变化而导致物体大小变化，提高了场景结构提取的准确度，基于尺寸信息的特征融合模块dcs-f来高效融合自适应尺寸特征和传统卷积特征，提取了同一卷积尺度下帧内不同物体的特征中包含场景的重要信息，进一步提高了深度图估计的准确度。
19.本公开的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。
附图说明
20.构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。
21.图1是本公开实施例1的物体大小与场景深度关系图；
22.图2是本公开实施例1的多尺度特征尺寸感知融合图；
23.图3是本公开实施例1的自适应深度转尺寸卷积效果图；
24.图4是本公开实施例1的基于尺寸信息的特征融合模块图；
25.图5是本公开实施例1的自监督单目深度估计网络整体框架图；
26.图6是本公开实施例1的深度转尺寸特征解码模块图。
具体实施方式
27.下面结合附图与实施例对本公开作进一步说明。
28.应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
29.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
30.实施例1
31.在一个或多个实施方式公开的技术方案中，如图1至图6所示，一种自适应深度转
尺寸卷积的自监督单目深度估计方法，首先说明自适应深度转尺寸卷积的自监督单目深度估计网络的改进过程，如下：
32.步骤1、根据不同物体的场景深度值，自适应调整卷积核的感受野，构建深度转尺寸卷积模块，以固定的尺度提取传统卷积特征，并通过场景深度产生自适应卷积特征；
33.步骤2、构建包含多注意力的基于尺寸信息的特征融合模块dcs-f，根据输入图像的尺寸差异图，融合自适应卷积特征和传统卷积特征；
34.步骤3、将深度转尺寸卷积模块与基于尺寸信息的特征融合模块级联，构建深度转尺寸特征解码模块，将级联后的网络作为深度转尺寸特征解码模块的处理模块；
35.步骤4、将深度转尺寸特征解码模块作为自监督单目深度估计网络的解码器，用于对目标帧图像预测得到深度图。
36.步骤1中，首先，确定物体大小与其场景深度之间的关系。
37.研究物体大小与其场景深度之间的关系，为自适应深度转换尺度卷积提供理论基础。
38.如图1所示，在针孔相机的理想成像原理下，可以得到物体在三维场景中的实际尺寸sr与其在图像中的大小之间的关系sv：
[0039][0040]
其中，d,f分别表示场景深度和相机焦距；
[0041]
当物体深度从d1变成d2时，同一物体在图像平面的大小变化如下式：
[0042][0043]
其中，s
v1
,s
v2
表示对应深度下的物体图像中的尺寸大小。
[0044]
物体图像中的大小尺寸与其场景深度成反比，本实施例的目标是在进行卷积提取特征时，使卷积核尺寸可以随着物体尺寸变化而自适应变化；
[0045]
可选的，可以使用深度估计任务常用数据集的平均深度dr和常用网络卷积核大小kr作为参考深度值和参考深度卷积核尺寸，这样对于任何一个深度值d，其对应的卷积核大小kd，可以如下式计算得到：
[0046][0047]
步骤1中，根据不同物体的场景深度值，确定卷积核的大小从而自适应调整卷积核的感受野，构建深度转尺寸卷积模块dcsconv，通过场景深度产生自适应卷积特征；
[0048]
要根据场景深度获得不同尺度上不同尺度的自适应特征，直接的方法是先提取多尺度特征，然后根据其深度转换的尺度差异进行特征融合。如图2所示的示例，首先使用具有不同卷积核大小的三个平行分支获取多尺度特征，具体来说，每条分支由两个卷积核大小相同的卷积块组成，三个分支依次使用卷积核大小为1
×
1,3
×
3,5
×
5，采用线性整流激活函数(relu)进行激活；然后根据预估物体尺寸和实际使用的卷积核尺寸差异来计算每个分支的特征权重，具体来说，使用高斯距离函数测量深度转换尺度与不同分支中使用的卷积核大小之间的距离，然后使用softmax进行归一化，得到每个分支的权重ai，最终通过分支权重融合多尺度特征来生成自适应特征。
[0049][0050]
上述方法首先提取多尺度特征然后融合获取自适应特征，其不可避免地引入尺寸误差而影响场景特征提取。
[0051]
为了解决上述自适应特征提取过程中引入尺寸误差的问题，本实施例中通过深度转尺寸卷积，基于场景深度直接产生自适应卷积特征。
[0052]
本实施例中，如图3所示，构建的深度转尺寸卷积模块dcsconv，实现卷积核随图像深度值自适应变化的深度转尺寸卷积，具体的：对于待处理图像针对不同图像深度设置一个卷积分支，每个卷积分支包括自适应卷积模块与标准卷积模块，针对自适应卷积模块，还设置有双线性插值采样位置确定模块，用于确定卷积过程中的采样位置。
[0053]
在一些实施例中，标准卷积模块，根据固定尺度以及确定的采样位置pd进行卷积，得到传统卷积特征fc；
[0054]
标准卷积模块采用二维标准卷积，采用滑动窗口操作，根据步幅在输入特征f上按顺序移动卷积核，直到卷积核覆盖整个输入特征。对于输入特征图上的每个位置p0，二维标准卷积通常包含以下两步：
[0055]
(1)使用规则网格r作为感受野对输入特征执行采样操作；
[0056]
(2)将采样的特征值与相应位置的卷积核权重w相加，，得到对应位置的输出特征fc：
[0057][0058]
其中，rc表示局部规则网格r，pr表示r中的采样位置，对于卷积核大小为kr＝3来说，r如下：
[0059]
rc＝{(-1,-1),(-1,0),
…
,(0,1),(1,1)}
[0060]
在一些实施例中，自适应卷积模块，根据物体的大小确定卷积核的大小，根据确定的采样位置pd对输入图像进行自适应卷积，得到自适应尺寸特征f
dcsc
；卷积核的大小根据公式3确定，图中dcs即为物体尺寸与场景深度关系。
[0061]
自适应卷积模块，卷积方法与二维标准卷积的方法相同，即为滑动窗口操作，在卷积过程中根据图像中物体的大小自适应更改卷积核的大小，即卷积核的感受野根据不同物体的场景深度值而自适应调整，对于对应位置p0的输出特征f
dcsc
(p0)：
[0062][0063]
其中，r
dcsc
表示卷积核kd×
kd的深度转尺寸卷积的感受野，pd表示r
dcsc
中的采样位置。
[0064]
与二维标准卷积一样，深度转尺寸卷积采用相同的采样策略和采样点数目，例如标准3
×
3卷积9个采样点是中心点、角点及边缘中心点。因此，r
dcsc
可以用表示为：
[0065][0066]
其中，双线性插值采样位置确定模块，被配置为采用双线性插值确定深度转尺寸的卷积感受野r
dcsc
中采样位置pd，用于自适应卷积模块进行卷积过程的采样位置确定。
[0067]
虽然自适应深度转尺寸卷积dcsconv解决了不同帧之间不同深度下尺度模糊的问题，但同一卷积尺度下帧内不同物体的特征也包含场景的重要信息。
[0068]
进一步的技术方案，设计基于尺寸信息的特征融合模块dcs-f来高效融合自适应尺寸特征f
dcsc
和传统卷积特征fc。
[0069]
如图4所示，基于尺寸信息的特征融合模块dcs-f包含基于尺寸信息的通道注意力模块和空间注意力模块，用于实现基于尺寸信息的特征融合。
[0070]
具体的，基于尺寸信息的特征融合模块dcs-f融合自适应尺寸特征f
dcsc
和传统卷积特征fc，被配置为执行以下过程：
[0071]
步骤21、对于待融合的自适应尺寸特征f
dcsc
和传统卷积特征fc进行拼接，得到初始特征u；
[0072]
步骤22、基于尺寸信息的通道注意力块执行通道注意力操作，确定全局通道权重mc，对初始特征u进行增强得到通道注意增强特征uv＝mc⊙
u；
[0073]
全局通道权重mc的确定方法，具体的：
[0074]
22.1)从输入彩色图对应的场景深度图中生成的归一化尺寸差异图su；
[0075]
22.2)将尺寸差异图su与初始特征u拼接后进行卷积操作实现融合，可以采用1
×
1标准卷积块来融合；
[0076]
22.3)对步骤22.2)卷积融合后的特征进行全局平均池化操作后，使用两层标准卷积块进行卷积操作，激活后得到全局通道权重mc；
[0077]
上述过程可以表示为：
[0078]
mc＝f1×1(avgpool(f1×1(c[u,su])))
[0079]
其中，c[.]表示特征拼接操作，而f1×1表示1
×
1标准卷积块。
[0080]
步骤23、基于尺寸信息的空间注意力块，执行空间注意力操作，确定空间注意权重ms；
[0081]
具体的，空间注意权重ms的确定方法，包括如下过程：
[0082]
23.1)从输入彩色图对应的场景深度图中生成的归一化尺寸差异图su；
[0083]
23.2)将通道注意增强特征uv与尺寸差异图su拼接后进行卷积操作实现融合，可以采用1
×
1标准卷积块来融合；
[0084]
23.3)对23.2)卷积融合后的特征进行通道平均池化和通道最大池化，将池化后的两层特征拼接后进行标准卷积操作，激活后得到空间注意权重ms；
[0085]
具体的，得到的两层特征拼接后用7
×
7标准卷积块，最后通过sigmoid激活函数获取ms；
[0086]
上述过程可以表示为：
[0087]f′
＝f1×1(c[uv,su])
[0088]ms
＝f7×7(c[avgpool(f
′
),maxpool(f
′
)])
[0089]
其中，f7×7表示7
×
7标准卷积块；
[0090]
步骤24、基于空间注意权重ms对自适应尺寸特征f
dcsc
进行增强，将自适应尺寸特征增强后的特征与传统卷积特征fc拼接，并通过通道注意权重mc进行增强，将增强后的特征连接初始特征u，处理后得到最终的融合特征fs。
[0091]
空间注意权重ms将只作用到f
dcsc
来从空间重要性上区分传统卷积特征fc。通过基
于尺寸信息的通道和空间注意力模块，经过1
×
1标准卷积块处理权重特征获取最终的特征fs：
[0092]fs
＝f1×1(mc⊙
c[ms⊙fdcsc
,fc]+u)
[0093]
其中，
⊙
表示逐元素点积，并且将初始特征u以残差连接的方式加入来增强特征。
[0094]
进一步的技术方案，构建深度转尺寸特征解码模块。
[0095]
给定一个单目视频，i
t
表示目标帧，d
t
表示其对应的待预测深度图，is表示源帧，一般使用两个相邻帧，s＝{t-1,t+1}。自监督单目深度估计的目标是从目标帧i
t
中预测深度图d
t
，网络受到源帧与预测深度图视图合成的重建误差监督。此外，还需要估计目标帧和源帧之间的相机相对姿态用来辅助视图合成。因此，整体的网络框架需要一个深度估计网络模块和姿态预测模块。
[0096]
如图5所示，现有的深度估计网络模块通常采用编码器-解码器的结构，对于输入的目标帧首先通过以残差网络为核心的深度编码器中获取多尺度特征，然后在五个解码器中逐渐恢复空间分辨率，并通过跳跃连接来促进梯度和信息在整个模型的传递。最后将逐级解码过程中生成的逆深度图连续上采样到原始输入分辨率，并在最高分辨率上计算重建误差损失。
[0097]
如图5所示，下半部分为姿态预测网络，将目标帧i
t
和源帧is拼接后输入到以残差网络为核心的特征提取网络，然后通过三层卷积层估计出相机变换姿态t
t
→s。然后在输入图像尺寸上完成目标帧的重建，其中目标帧的重建过程即为视点合成过程w(,)，如下式所示：
[0098]
p
′
＝kt
t
→
sdt
k-1
p
[0099]is
→
t
＝w(is,p)
[0100]
对于目标帧p的每个像素位置通过深度图d
t
、视频源帧与视频目标帧的相对姿态t
t
→s及相机内参k，计算出其对应的源帧位置坐标p
′
，再将求得的源帧位置的像素值赋给对应的目标帧位置像素值获取重建目标帧is→
t
，并且可以利用目标帧的重建误差构造监督信号l
p
。
[0101]
本实施例的主要对深度估计网络模块进行改进。
[0102]
本实施例中的深度转尺寸特征解码模块并不考虑网络的具体框架细节，其作为即插即用模块可以用于所有的编码器-解码器框架中。
[0103]
编码器-解码器框架中的第一个解码器不变，通过第一个解码器得到一级深度图，后面的四个解码器替换为深度转尺寸特征解码模块，其中需要的高分辨率尺寸图可以是从其先前级别逐步估计的深度图，也可以是使用预训练模型估计的深度图。
[0104]
深度转尺寸特征解码模块包含对前一级解码器特征、相应级别的编码器特征以及对融合特征的处理。针对每个待解码特征的处理，都使用基于尺寸信息的特征融合模块dcs-f来高效融合dcsconv特征和传统卷积特征。
[0105]
深度转尺寸特征解码模块，包括第一处理模块、第二处理模块和第三处理模块，每个处理模块包括级联的深度转尺寸卷积模块dcsconv以及基于尺寸信息的特征融合模块dcs-f；
[0106]
第一处理模块，用于对上一级解码器的解码特征进行处理，包括深度转尺寸卷积模块dcsconv以及标准卷积模块，以及基于尺寸信息的特征融合模块dcs-f；深度转尺寸卷积模块dcsconv得到自适应卷积特征f
dcsc
，标准卷积模块分别得到传统卷积特征f
conv
；
[0107]
具体的，如图6所示，本实施例中第一处理模块的标准卷积模块采用3
×
3标准卷积块，深度转尺寸卷积模块dcsconv和3
×
3标准卷积块被用于处理上一级别的低分辨率解码特征f
l_dec
，然后dcs-f用来融合获取第一级尺寸感知解码特征f
s_fdec
。上述过程可以表示为：
[0108]fs_fdec
＝f
dcs-f
(c[f
dcsc
,f
conv
(f
l_dec
)],s
l_dec
)
[0109]
其中c[f
dcsc
,f
conv
()]表示所提出的dcsconv和3
×
3标准卷积块(3
×
3conv)的特征拼接处理；s
l_dec
表示低分辨率尺寸图，用来指导dcs-f特征融合。
[0110]
第二处理模块用于对本级编码器输出的高分辨编码特征f
h_enc
进行处理，包括级联的深度转尺寸卷积模块dcsconv以及基于尺寸信息的特征融合模块dcs-f。
[0111]
第二处理模块用于高分辨编码特征f
h_enc
解码，来获取尺寸感知编码特征f
s_enc
：
[0112]fs_enc
＝f
dcs-f
(c[f
dcsc
,f
conv
(f
h_enc
)],s
h_dec
)
[0113]
其中，s
h_dec
表示高分辨率尺寸图，其可以由s
l_dec
上采样或者预训练高分辨深度图下采样获取。
[0114]
第三处理模块用于对第一处理模块、第二处理模块处理结果的融合，包括拼接单元，深度转尺寸卷积模块dcsconv，标准卷积模块，基于尺寸信息的特征融合模块dcs-f。
[0115]
拼接单元，用于将第一级尺寸感知解码特征f
s_fdec
上采样得到f
s_u_dec
并与尺寸感知编码特征f
s_enc
拼接得到拼接特征f
″
；
[0116]f″
＝c[f
s_u_dec
,f
s_enc
]
[0117]
将拼接后的特征作为输入，通过深度转尺寸卷积模块dcsconv得到自适应卷积特征f
dcsc
，通过标准卷积模块分别得到传统卷积特征f
conv
(f
″
)；
[0118]
基于尺寸信息的特征融合模块dcs-f将自适应卷积特征f
dcsc
以及传统卷积特征f
conv
(f
″
)进行融合，得到高分辨解码特征f
s_dec
：
[0119]fs_dec
＝f
dcs-f
(c[f
dcsc
,f
conv
(f
″
)],s
h_dec
)
[0120]
最终该解码特征f
s_dec
通过1
×
1标准卷积块来压缩特征通道进而用于生成对应分辨率的深度图。
[0121]
步骤4中，将深度转尺寸特征解码模块作为自监督单目深度估计网络的高级解码器，用于对目标帧图像预测得到深度图；
[0122]
基于上述自适应深度转尺寸卷积的自监督单目深度估计网络，本实施例提供了一种自适应深度转尺寸卷积的自监督单目深度估计方法，预测深度图的过程如下：
[0123]
步骤s1、获取待预测当前帧图像；
[0124]
步骤s2、基于多级编码器对当前帧图像进行多级编码得到多尺度特征，将每一级编码特征传输至对应级数的解码器中进行解码；
[0125]
步骤s3、通过第一个解码器得到一级深度图，第二级以及以上的解码器替换为深度转尺寸特征解码模块，接收上一级解码器的解码输出特征、本级的编码器传输的编码特征，进行深度转尺寸卷积以及基于尺寸信息的特征融合，生成对应分辨率的深度图；
[0126]
步骤s4、最后一级深度转尺寸特征解码模块输出的深度图即为对当前帧图像进行预测得到的深度图。
[0127]
本实施例中，通过自适应深度转尺寸卷积获取的特征解决了视频不同帧之间不同深度下尺度模糊的问题，基于场景深度与目标尺度之间的关系，显式处理视频连续帧由于场景深度变化而导致物体大小变化，提高了场景结构提取的准确度，基于尺寸信息的特征
融合模块dcs-f来高效融合自适应尺寸特征和传统卷积特征，提取了同一卷积尺度下帧内不同物体的特征中包含场景的重要信息，进一步提高了深度图估计的准确度。
[0128]
为说明本实施例方法的效果，进行了深度估计实验，度估计性能明显提升，结果如下表1所示，将本实施例的方法运用于cadepth上在kitti数据集进行的实验。
[0129]
表1
[0130][0131]
表1中，ours指本实施例的方法，其余的方法(method)为现有的自监督单目深度估计方法，其中：
[0132]
monodepth2[7]为godard等人提出的自监督单目深度估计网络，其利用源帧重建最小误差代替平均误差和自适应掩模来分别处理物体遮挡和运动物体的深度预测问题。
[0133]
lee et al[42]lee等人强调运动物体正向投影的重要性，基于实例分割的语义信息建立光度损失一致性和几何损失一致性，实现对背景和目标区域添加额外自监督信号。
[0134]
hrdepth[43]liu等人提供了一个高分辨率单目深度评估网络并证明预测更准确的物体边界可以提高深度预测性能。
[0135]
wang et al[24]为wang等人提出基于点云对齐约束的尺寸几何损失函数来提供尺寸一致性约束。
[0136]
cadepth[14]为yan等人提出的基于注意力机制特征增强的自监督单目深度估计网络，其包含结构感知模块和细节强调模块分别在全局和局部上增强深度特征。
[0137]
骨干网络backbone分别采用残差网络resnet18和resnet50，absrel为绝对相对误差，sqrel为平方相对误差，rmse为平方根平均误差，rmse(log)为指数平方根平均误差，δ为精度阈值。计算公式具体如下：
[0138][0139][0140][0141][0142][0143]
其中，分别代表预估深度值和真值，i代表像素索引，n代表每个深度图的像素个数，δ代表精度阈值，通常取值为1.25,1.252,1.253。
[0144]
通过表1可以看出，可以看到使用本实施例的方法的实验结果明显提升。
[0145]
实施例2
[0146]
基于实施例1，本实施例中提供一种自适应深度转尺寸卷积的自监督单目深度估计系统，包括：
[0147]
图像获取模块，用于获取待预测当前帧图像；
[0148]
多级编码单元，用于对当前帧图像进行多级编码得到多尺度特征，将每一级编码特征传输至对应级数的解码器中进行解码；
[0149]
多级解码单元，用于通过第一个解码器得到第一级深度图，第二级以及以上的解码器替换为深度转尺寸特征解码模块，接收上一级解码器的解码输出特征图与本级的编码器传输的编码特征图，进行卷积核随图像深度值自适应变化的深度转尺寸卷积，以及基于尺寸信息的特征融合，生成对应分辨率的深度图；
[0150]
深度图输出单元，通过最后一级深度转尺寸特征解码模块输出的深度图，即为对当前帧图像进行预测得到的深度图。
[0151]
此处需要说明的是，本实施例中的各个模块与实施例1中的各个步骤一一对应，其具体实施过程相同，此处不再累述。
[0152]
以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。
[0153]
上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

技术特征：
1.一种自适应深度转尺寸卷积的自监督单目深度估计方法，其特征在于，包括如下步骤：获取待预测当前帧图像；基于多级编码器对当前帧图像进行多级编码得到多尺度特征，将每一级编码特征传输至对应级数的解码器中进行解码；通过第一个解码器得到第一级深度图，第二级以及以上的解码器替换为深度转尺寸特征解码模块，接收上一级解码器的解码输出特征图与本级的编码器传输的编码特征图，进行卷积核随图像深度值自适应变化的深度转尺寸卷积，以及基于尺寸信息的特征融合，生成对应分辨率的深度图；最后一级深度转尺寸特征解码模块输出的深度图即为对当前帧图像进行预测得到的深度图。2.如权利要求1所述的一种自适应深度转尺寸卷积的自监督单目深度估计方法，其特征在于：深度转尺寸特征解码模块，包括第一处理模块、第二处理模块和第三处理模块，每个处理模块包括级联的深度转尺寸卷积模块以及基于尺寸信息的特征融合模块；深度转尺寸卷积模块，被配置为基于卷积核随图像深度值自适应变化的深度转尺寸卷积操作，得到自适应尺寸特征和传统卷积特征；基于尺寸信息的特征融合模块对卷积操作后的特征基于尺寸信息进行融合；第一处理模块，用于对上一级解码器的解码特征进行处理，包括深度转尺寸卷积模块以及标准卷积模块，以及基于尺寸信息的特征融合模块；第二处理模块用于对本级编码器输出的高分辨编码特征进行处理，包括级联的深度转尺寸卷积模块以及基于尺寸信息的特征融合模块；第三处理模块用于对第一处理模块、第二处理模块处理结果的融合，包括依次连接的拼接单元，深度转尺寸卷积模块，标准卷积模块以及基于尺寸信息的特征融合模块。3.如权利要求1或2所述的一种自适应深度转尺寸卷积的自监督单目深度估计方法，其特征在于，卷积核的自适应变化为：与图像深度值成反比例变化。4.如权利要求2所述的一种自适应深度转尺寸卷积的自监督单目深度估计方法，其特征在于，深度转尺寸卷积模块，具体为对于待处理图像针对不同图像深度设置一个卷积分支，每个卷积分支包括自适应卷积模块与标准卷积模块，针对自适应卷积模块，还设置有双线性插值采样位置确定模块，用于确定卷积过程中的采样位置；标准卷积模块，根据固定的尺度以及确定的采样位置，采用滑动窗口操作进行卷积，得到传统卷积特征；自适应卷积模块，根据物体的大小确定卷积核的大小，根据确定的采样位置对输入图像，采用滑动窗口操作进行自适应卷积，得到自适应尺寸特征。5.如权利要求2所述的一种自适应深度转尺寸卷积的自监督单目深度估计方法，其特征在于，基于尺寸信息的特征融合模块用于融合自适应尺寸特征和传统卷积特征，被配置为执行以下过程：对于待融合的自适应尺寸特征和传统卷积特征进行拼接，得到初始特征；基于尺寸信息的通道注意力块执行通道注意力操作，确定全局通道权重，对初始特征
进行增强得到通道注意增强特征；基于尺寸信息的空间注意力块，执行空间注意力操作，确定空间注意权重m
s
；基于空间注意权重对自适应尺寸特征进行增强，将自适应尺寸特征增强后的特征与传统卷积特征拼接，并通过通道注意权重进行增强，将增强后的特征连接初始特征，处理后得到最终的融合特征。6.如权利要求5所述的一种自适应深度转尺寸卷积的自监督单目深度估计方法，其特征在于：全局通道权重的确定方法，具体的：从输入彩色图对应的场景深度图中生成的归一化尺寸差异图；将尺寸差异图与初始特征拼接后进行卷积操作实现融合；对卷积融合后的特征进行全局平均池化操作后，使用两层标准卷积块进行卷积操作，激活后得到全局通道权重。7.如权利要求5所述的一种自适应深度转尺寸卷积的自监督单目深度估计方法，其特征在于：空间注意权重的确定方法，包括如下过程：从输入彩色图对应的场景深度图中生成的归一化尺寸差异图；将通道注意增强特征与尺寸差异图拼接后进行卷积操作实现融合；对卷积融合后的特征进行通道平均池化和通道最大池化，将池化后的两层特征拼接后进行标准卷积操作，激活后得到空间注意权重。8.一种自适应深度转尺寸卷积的自监督单目深度估计系统，其特征在于，包括：图像获取模块，用于获取待预测当前帧图像；多级编码单元，用于对当前帧图像进行多级编码得到多尺度特征，将每一级编码特征传输至对应级数的解码器中进行解码；多级解码单元，用于通过第一个解码器得到第一级深度图，第二级以及以上的解码器替换为深度转尺寸特征解码模块，接收上一级解码器的解码输出特征图与本级的编码器传输的编码特征图，进行卷积核随图像深度值自适应变化的深度转尺寸卷积，以及基于尺寸信息的特征融合，生成对应分辨率的深度图；深度图输出单元，通过最后一级深度转尺寸特征解码模块输出的深度图，即为对当前帧图像进行预测得到的深度图。9.如权利要求8所述的一种自适应深度转尺寸卷积的自监督单目深度估计系统，其特征在于：深度转尺寸特征解码模块，包括第一处理模块、第二处理模块和第三处理模块，每个处理模块包括级联的深度转尺寸卷积模块以及基于尺寸信息的特征融合模块；深度转尺寸卷积模块，被配置为基于卷积核随图像深度值自适应变化的深度转尺寸卷积操作，得到自适应尺寸特征和传统卷积特征；基于尺寸信息的特征融合模块对卷积操作后的特征基于尺寸信息进行融合；第一处理模块，用于对上一级解码器的解码特征进行处理，包括深度转尺寸卷积模块以及标准卷积模块，以及基于尺寸信息的特征融合模块；第二处理模块用于对本级编码器输出的高分辨编码特征进行处理，包括级联的深度转
尺寸卷积模块以及基于尺寸信息的特征融合模块；第三处理模块用于对第一处理模块、第二处理模块处理结果的融合，包括依次连接的拼接单元，深度转尺寸卷积模块，标准卷积模块以及基于尺寸信息的特征融合模块。10.如权利要求8所述的一种自适应深度转尺寸卷积的自监督单目深度估计系统，其特征在于：深度转尺寸卷积模块，具体为对于待处理图像针对不同图像深度设置一个卷积分支，每个卷积分支包括自适应卷积模块与标准卷积模块，针对自适应卷积模块，还设置有双线性插值采样位置确定模块，用于确定卷积过程中的采样位置；标准卷积模块，根据固定的尺度以及确定的采样位置，采用滑动窗口操作进行卷积，得到传统卷积特征；自适应卷积模块，根据物体的大小确定卷积核的大小，根据确定的采样位置对输入图像，采用滑动窗口操作进行自适应卷积，得到自适应尺寸特征。

技术总结
本公开涉及图像处理技术领域，提出了一种自适应深度转尺寸卷积的自监督单目深度估计方法及系统，通过自适应深度转尺寸卷积获取的特征解决了视频不同帧之间不同深度下尺度模糊的问题，基于场景深度与目标尺度之间的关系，显式处理视频连续帧由于场景深度变化而导致物体大小变化，提高了场景结构提取的准确度，基于尺寸信息的特征融合模块DcS-F来高效融合自适应尺寸特征和传统卷积特征，提取了同一卷积尺度下帧内不同物体的特征中包含场景的重要信息，进一步提高了深度图估计的准确度。度。度。

技术研发人员：李帅周华松高艳博元辉蔡珣
受保护的技术使用者：山东大学威海工业技术研究院
技术研发日：2023.07.13
技术公布日：2023/9/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

自适应深度转尺寸卷积的自监督单目深度估计方法及系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

自适应深度转尺寸卷积的自监督单目深度估计方法及系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表