一种矿井安全隐患场景三维重建中自监督深度估计方法

未命名 07-27 阅读:67 评论:0


1.本发明涉及三维重建技术领域,具体是一种矿井安全隐患场景三维重建中自监督深度估计方法。该方法对矿井安全隐患场景的深度测量、三维场景重建,实现仿真模拟推演,通过得到的虚拟三维场景实现预知矿井安全隐患场景的功能。


背景技术:

2.随着智慧矿山等概念的提出,如何对矿井安全隐患场景进行三维重建,实现仿真模拟推演,为矿井的安全生产提供强有力的技术保障是亟待解决的问题。对矿井安全隐患场景的深度估计是实现三维重建的重要组成部分。深度估计在增强现实、无人驾驶和机器人等方面有着广泛的应用,早期使用深度传感器(lidar和dof)实现深度估计,在矿井中配备这种深度传感器需要高额的成本且需要连续运行,使得其使用受到了限制。而自监督单目深度估计可以不需要这种设备预测单幅图像中像素的深度,同时,由于矿井隐患场景的图像可用的地面真实深度数据有限,采用无需精确的地面真值数据的无监督学习方法更为契合。因此,面对矿井隐患场景的无监督单目深度估计受到了研究人员的广泛关注。
3.现有的自监督单目深度估计方法通常使用对立体图像对或单目序列的几何约束作为监督,并取得了很大的进展。eigen,d发表的《depth map prediction from a single image usinga multi-scale deep network》介绍了相关的技术内容。然而,当前大多数自监督单目深度估计主要解决日间图像的深度估计问题,矿井图像往往是在低光照且环境复杂的条件下获取得到,由于能见度低以及光照不均匀的影响,矿井图像的深度估计极其不稳定。cyclegan通过在图像级别和特征级别将低光照信息转换为良好光照条件下的日间信息,从而对低光照图像进行深度估计,但使用低光照作为输入的cyclegan网络很难得到自然的日间图像或特征,因此性能有限。monodepth2是一种有效的自监督单目深度估计方法,将cyclegan处理的图像直接输入到monodepth2中,由于其复杂的环境和不均匀的光照,也无法估计深度细节。
4.现有技术具有以下缺陷,第一:monodepth2的深度估计网络基于u-net框架,解码器只是利用级联和一个基本卷积来融合高层和低层特征。这些操作不能保留足够的细节或精确地恢复空间信息,导致在复杂环境中的深度特征不能有效表示。
5.第二:在训练时仍采用良好光照条件的图像,测试时则直接将低光照图像使用cyclegan处理后作为输入,很难得到自然的良好光照条件下的图像特征。


技术实现要素:

6.针对上述现有技术的缺点,对应的解决方案如下:
7.第一,在编码器解码器中间采用自注意力机制的位置感知模块,用以获取场景结构的上下文信息和更好的特征表示。
8.第二,在对网络训练的过程中,使用正常光照图像和通过cyclegan处理得到的低光照图像进行训练。再采用映射图像增强(mie)算法处理由cyclegan输出的图像,以满足保
持亮度一致性的需要,解决低光照和光照不均匀带来的影响。
9.一种矿井安全隐患场景三维重建中自监督深度估计方法,构建模型,分别是正常光照图像和低光照图像的深度估计网络和姿态估计网络,
10.具体步骤如下:
11.s1:将正常光照图像通过cyclegan转换为低光照的夜间图像
12.s2:生成的低光照图像输入到mie模块处理;
13.s3:将正常光照图像送入到深度估计网络的编码器中,输出得到特征图将经s2处理的低光照图像送入到深度估计网络的编码器中,输出得到特征图中,输出得到特征图
14.s4:分辨率最低的特征图输入到位置感知模块;
15.s5:经位置感知模块后输入到解码器中,将分别输出特征图s5:经位置感知模块后输入到解码器中,将分别输出特征图所对应的深度图
16.s6:将正常光照图像和低光照图像的相邻帧图像s6:将正常光照图像和低光照图像的相邻帧图像和输入到位姿估计网络,计算出六自由度相对位姿信息t
t
→s,结合深度估计网络得到的深度图构建出原视图的重建视图
17.其中,深度估计网络和位姿估计网络都采用编码器-解码器结构。
18.所述mie模块处理是通过使用亮度映射函数b'=γ(b)实现的:
[0019][0020]
其中,γ是单子映射函数,它将输入亮度映射到单个特定输出,假设输入图像的频率分布首先预设频率参数σ,将大于预设参数的频率进行剪裁,以避免噪声信号的放大,然后将剪裁的频率均匀地填充到每个亮度级别,最后通过下列公式获得
[0021][0022]
其中cdf
min
和cdf
max
分别表示cdf的最小值和最大值,l表示亮度级别的数量;
[0023]
所述s3中的编码器部分采用resnet18作为主干网络,去除resnet18最后的平均池化层和全连接层,分别为最大池化层、layer2、layer3、layer4、layer5。
[0024]
所述位置感知模块通过聚合其他位置的位置特征来加强查询位置的特征,假设该模块的输入特征和输出特征分别为a和z,则该模块可以表示为:
[0025][0026][0027]
其中,s
ij
衡量第j个位置对第i个位置的影响;n表示像素点的总数;wk、wq、wv分别表示key、query和value,由a线性变换得到。
[0028]
所述s5中,正常光照图像的深度用作伪标签以约束低光照图像的深度;相似性损
失定义为:
[0029][0030]
其中x∈[1,n],n是和的像素数,x是指第x个像素。
[0031]
所述s5重建视图中,
[0032]
p'=kt
t

siz
k-1
p
[0033]
i'
t
=w
t
(i
t-1
,p')
[0034]
其中,k是相机内参矩阵,p是像素的齐次坐标;p'是p经过t
t

t-1
变换后的坐标,w(
·
)是可微双线性采样器,用于获取i
t-1
中p'处的像素并在i
t
中的p处制定线性插值像素。
[0035]
所述重建视图中利用结构相似性指标结合l1损失作为光度损失l
ph
来约束重建视图,损失函数可以表示为:
[0036][0037]
其中α取0.75。
[0038]
本发明具有以下效果:第一,现有的单目深度估计网络解码器只采用级联的方式连接高层低层特征,不仅会造成许多细节丢失,而且不能很好的利用上下文信息,在编码器-解码器中间加入利用注意力机制的位置感知模块,以获取场景的上下文信息,增强了细节处的特征表示,加强了对复杂背景处的深度估计效果。
[0039]
第二,将正常光照图像以及低光照图像分别输入到网络中训练,二者的深度图在理论上是一致的,利用相似性损失约束低光照图像的深度估计。同时,加入的映射图像增强模块使得低光照图像的亮度和对比度明显提高,从而为其带来更高的可见性,保留更多的细节。
附图说明
[0040]
图1是整体网络框架示意图;
[0041]
图2是位置感知模块示意图;
[0042]
图3是矿井安全隐患场景深度估计效果。
具体实施方式
[0043]
本发明讲述了一种用于低光照矿井图像的无监督单目深度估计的方法,其主要目的是提高低光照环境中无监督单目深度估计的准确性。该方法主要包括这几部分:1.采用正常光照图像和低光照图像共同训练的模式,使用正常光照的深度图作为伪标签训练低光照图像,并使用相似损失约束深度估计;2.在应用到的深度估计网络中加入利用注意力机制的位置感知模块。整体网络模型图如图1所示。
[0044]
整个模型可以看作由四个网络组成,分别是正常光照图像和低光照图像的深度估计网络和姿态估计网络。其中两组深度估计网络和姿态估计网络使用同一个网络架构。网络的输入将使用正常光照图像和cyclegan将正常光照图像处理成的低光照图像深度
估计网络和位姿估计网都采用编码器-解码器结构,其中深度估计网络用来获取用来获得的深度图理论上,不同光照情况下的同一场景图像的深度图理论上是一样的,因此我们采用将正常光照图像的深度图作为伪标签约束低光照图像的深度。所以在这里加入相似损失约束低光照图像的深度图。姿态估计网络用以估计前后帧图像的相对位姿变化。获取到相机的内参矩阵后,通过图像重建公式计算出相对位姿,并结合深度网络的得到的深度图构建出原视图的重建视图。理想情况下,网络的效果足够好的重建视图应该与原视图是一致的,所以我们在这里加入重构损失来约束重建视图。
[0045]
第一部分:获得特征图
[0046]
首先,cyclegan将正常光照图像处理成的低光照图像再使用mie模块对低光照图像处理,其中mie模块是通过使用亮度映射函数b'=γ(b)实现的:
[0047][0048]
其中,γ是一个单子映射函数,它将输入亮度映射到单个特定输出,假设输入图像的频率分布我们首先预设频率参数σ,我们将大于预设参数的频率进行剪裁,以避免噪声信号的放大,然后将剪裁的频率均匀地填充到每个亮度级别,最后通过下列公式获得
[0049][0050]
其中cdf
min
和cdf
max
分别表示cdf的最小值和最大值,l表示亮度级别的数量(在彩色图像中通常为256)。
[0051]
将分别输入到深度估计网络的编码器中,编码器部分采用resnet18作为主干网络。但去除了resnet18最后的平均池化层和全连接层。分别在最大池化层、layer2、layer3、layer4、layer5获得特征图第二部分:获得深度图
[0052]
首先将编码器输出的分辨率最低的特征图输入到位置感知模块,如图2所示,位置感知模块旨在通过聚合其他位置的位置特征来加强查询位置的特征,我们假设该模块的输入特征和输出特征分别为a和z,则该模块可以表示为:
[0053][0054][0055]
其中,s
ij
衡量第j个位置对第i个位置的影响。
[0056]
然后,将经过位置感知模块的深度特征输入到解码器中,为减少网络的计算量,在高层特征处采用跳跃连接。图像通过整个网络后输出深度图本发明所提出的网络框架将正常光照图像和相应生成的低光照图像作为输入,因此两个图像的估计深度图应该是一致的。由于正常光照图像在深度估计中的固有优势,低光照图像的估计深度应尽可能
接近正常光照图像,即正常光照图像的深度用作伪标签以约束低光照图像的深度。因此,相似性损失定义为:
[0057][0058]
其中x∈[1,n],n是和的像素数,x是指第x个像素。
[0059]
第三部分:重建视图
[0060]
将正常光照图像和低光照图像的相邻帧图像和输入到位姿估计网络,计算出六自由度相对位姿信息t
t
→s。结合第二部分中深度估计网络得到的深度图构建出原视图的重建视图
[0061]
p'=kt
t

siz
k-1
p
[0062]
i'
t
=w
t
(i
t-1
,p')
[0063]
其中,k是相机内参矩阵,p是像素的齐次坐标;p'是p经过t
t

t-1
变换后的坐标,w(
·
)是一个可微双线性采样器,用于获取i
t-1
中p'处的像素并在i
t
中的p处制定线性插值像素。
[0064]
理想情况下,网络的效果足够好的重建视图应该与原视图是一致的,利用结构相似性指标(ssim)结合l1损失作为光度损失l
ph
来约束重建视图,损失函数可以表示为:
[0065][0066]
其中α取0.75。
[0067]
实验测试阶段均使用低光照夜间图像,编码器主干网络均为resnet18,其中前三个指标越高代表预测效果越好,后三个指标越低代表效果越好,最后的结果表明,本发明的方法在对低光照矿井图像深度估计具有良好的效果,所有指标均得到提升。
[0068]
实验结果:
[0069][0070]
如图3所示,左边是输入的图像,经过我们的网络方法输出得到右边的深度图像。效果图就是通过我们的方法可以准确的构建矿井安全隐患场景的深度图,为三维重建提供了有效的深度信息。

技术特征:
1.一种矿井安全隐患场景三维重建中自监督深度估计方法,其特征在于,首先分别构建正常光照图像和低光照图像的深度估计网络和姿态估计网络模型,其中,深度估计网络和位姿估计网络都采用编码器-解码器结构,处理方法的步骤如下:s1:将正常光照图像通过cyclegan转换为低光照的夜间图像s2:生成的低光照图像输入到mie模块处理;s3:将正常光照图像送入到深度估计网络的编码器中,输出得到特征图将经s2处理的低光照图像送入到深度估计网络的编码器中,输出得到特征图输出得到特征图s4:分辨率最低的特征图输入到位置感知模块;s5:经位置感知模块后输入到解码器中,将分别输出特征图c
n5
所对应的深度图s6:将正常光照图像和低光照图像的相邻帧图像s6:将正常光照图像和低光照图像的相邻帧图像和输入到位姿估计网络,计算出六自由度相对位姿信息t
t

s
,结合深度估计网络得到的深度图构建出原视图的重建视图2.根据权利要求1所述矿井安全隐患场景三维重建中自监督深度估计方法,其特征在于,所述mie模块处理是通过使用亮度映射函数b'=γ(b)实现的:其中,γ是单子映射函数,它将输入亮度映射到单个特定输出,假设输入图像的频率分布首先预设频率参数σ,将大于预设参数的频率进行剪裁,以避免噪声信号的放大,然后将剪裁的频率均匀地填充到每个亮度级别,最后通过下列公式获得大,然后将剪裁的频率均匀地填充到每个亮度级别,最后通过下列公式获得其中cdf
min
和cdf
max
分别表示cdf的最小值和最大值,l表示亮度级别的数量。3.根据权利要求1所述矿井安全隐患场景三维重建中自监督深度估计方法,其特征在于,所述s3中的编码器部分采用resnet18作为主干网络,去除resnet18最后的平均池化层和全连接层,分别为最大池化层、layer2、layer3、layer4、layer5。4.根据权利要求1所述矿井安全隐患场景三维重建中自监督深度估计方法,其特征在于,所述位置感知模块通过聚合其他位置的位置特征来加强查询位置的特征,假设该模块的输入特征和输出特征分别为a和z,则该模块可以表示为:的输入特征和输出特征分别为a和z,则该模块可以表示为:其中,s
ij
衡量第j个位置对第i个位置的影响;n表示像素点的总数;w
k
、w
q
、w
v
分别表示
key、query和value,由a线性变换得到。5.根据权利要求1所述矿井安全隐患场景三维重建中自监督深度估计方法,其特征在于,所述s5中,正常光照图像的深度用作伪标签以约束低光照图像的深度;相似性损失定义为:其中x∈[1,n],n是和的像素数,x是指第x个像素。6.根据权利要求1所述矿井安全隐患场景三维重建中自监督深度估计方法,其特征在于,所述s5重建视图中,p'=kt
t

s
i
z
k-1
pi
t
'=w
t
(i
t-1
,p')其中,k是相机内参矩阵,p是像素的齐次坐标;p'是p经过t
t

t-1
变换后的坐标,w(
·
)是可微双线性采样器,用于获取i
t-1
中p'处的像素并在i
t
中的p处制定线性插值像素。7.根据权利要求6所述矿井安全隐患场景三维重建中自监督深度估计方法,其特征在于,所述重建视图中利用结构相似性指标结合l1损失作为光度损失l
ph
来约束重建视图,损失函数可以表示为:其中α取0.75。

技术总结
本发明公开了一种矿井安全隐患场景三维重建中自监督深度估计方法,首先分别构建正常光照图像和低光照图像的深度估计网络和姿态估计网络模型,在编码器解码器中间采用自注意力机制的位置感知模块,用以获取场景结构的上下文信息和更好的特征表示;在对网络训练的过程中,使用正常光照图像和通过CycleGAN处理得到的低光照图像进行训练,再采用映射图像增强(MIE)算法处理由CycleGAN输出的图像,以满足保持亮度一致性的需要,解决低光照和光照不均匀带来的影响。增强了细节处的特征表示,加强了对复杂背景处的深度估计效果。加入的映射图像增强模块使得低光照图像的亮度和对比度明显提高,从而为其带来更高的可见性,保留更多的细节。的细节。的细节。


技术研发人员:寇旗旗 徐帅 程德强 王子强 张华强 陈俊辉 王奕 赵麟敖 程志威 马祥 姬广凯 李龙 郑丽娟 张辉敏
受保护的技术使用者:中国矿业大学
技术研发日:2023.03.15
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐