基于神经网络的静态场景重建方法

未命名 08-27 阅读：124 评论：0

1.本发明涉及三维重建和自动驾驶领域，具体涉及一种基于神经网络的静态场景重建方法。

背景技术：

2.当今时代自动驾驶业务与技术不断发展，其中基于地图的自动驾驶技术路线凭借高可靠性和高准确性获得了众多研发单位关注，因此利用三维重建技术构建高精度三维地图对发展自动驾驶技术意义重大。
3.一方面高精地图可以辅助自动驾驶车辆进行定位与位姿解算，尤其是当组合导航系统等定位传感器失效时，高精度地图可以帮助车辆进行高精度的位姿解算，维持自动驾驶功能的正常使用；另一方面，在特殊运营园区(如工厂、仓库等场景)，高精地图可以赋能低成本自动驾驶运输设备高精定位和感知的能力；此外，大规模的高精三维地图对于自动驾驶技术中的数据闭环有着重要意义，利用重建且标定好的三维地图可以对新采集的感知数据进行自动化标注，且还可以利用三维地图进行数据渲染和生成，用于获取更多的训练数据，还可以用于模拟极端场景的感知数据。
4.高精度三维重建通常利用两类传感器：视觉相机和激光雷达。视觉相机和激光雷达各自具备不同的优势和特点，例如视觉相机可以捕捉稠密且丰富的颜色信息和语义信息，但是缺乏准确的深度信息观测；与之相反，激光雷达可以获取准确的稀疏深度信息，但是缺乏稠密的颜色和外观信息。
5.使用纯视觉图像进行三维重建是指利用已知相机内外参的多视角图像来构建所观测场景的三维空间结构和外观，其中相机的外参(即位姿)通常来自基于视觉的structure from motion(sfm)算法。场景的三维空间结构一般利用稠密的三维点云进行表达。为了获得高质量3d点云，常见的做法是为每一张rgb图像预测一张稠密的深度图，然后利用多视角的深度图及不同视角的pose来剔除外点，并将剩余的内点投影至3d空间以此形成重建后的三维地图。
6.激光雷达作为一种主动式深度传感器，利用自身发射的激光扫描周围场景并根据发射与接收到激光信号的时间差来测量周围环境的深度。常见的激光雷达根据自身发射的激光线数不同可以得到不同稠密程度的深度测量信息，但高线数的激光雷达往往意味着更高的成本，因此量产车型或路端设备上的激光雷达线数将不会太高，这也就意味着我们在车端、路端可以获取的激光雷达深度信息将是相对稀疏的，这是利用激光雷达构建稠密三维地图是将会面临的一个问题。除此以外，激光雷达通常仅能获取深度信息和反射强度信息，而无法获得周围环境的颜色和纹理信息。
7.基于激光雷达的三维重建流程本身更加简单，根据不同时刻的点云位姿将其投影至统一的三维空间即可获得重建结果。为了解决激光雷达观测缺乏颜色和语义信息的问题，一种可行做法是同时利用视觉图像和激光雷达进行三维重建，即利用视觉和激光多模融合进行三维重建。
8.视觉图像和激光雷达的多模态融合有几种不同的融合方式，根据多模态数据的融合方式可定义两种方法：直接融合法及特征融合法。其中，直接融合法根据相机与雷达的标定信息和来自视觉图像的定位(位姿)或者来自组合导航系统的定位信息，可以直接将激光雷达测量的稀疏深度点投影到相机坐标性和相机的成像平面获取对应的颜色/纹理信息，然后根据位姿信息将多帧的带有纹理信息的稀疏深度点反投影到统一的世界坐标系，进而实现基于坐标系变换的直接融合。特征融合法相比于直接融合法更加复杂，整体可以分成两个阶段：第一阶段利用神经网络提取和融合来自相机图像和激光雷达稀疏深度点的特征信息，并输出与图像对齐的稠密深度。需要说明的是，在上述背景技术部分公开的信息仅用于对本技术的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

9.本发明的主要目的在于改进现有的静态场景重建方法，提出一种基于神经网络的静态场景重建方法，可单独利用视觉图像或同时利用视觉图像及激光雷达稀疏深度进行稠密深度估计，根绝神经网络预测的稠密深度图进行静态场景三维重建。
10.本发明为达上述目的提出以下技术方案：
11.一种基于神经网络的静态场景重建方法，包括以下步骤：
12.s1、使用车载相机例如如单目相机采集车辆周围环境视觉图像。
13.s2、判断是否有车载激光雷达数据输入，如无激光雷达数据(即仅包含视觉图像数据)则执行s3步骤，若有激光雷达数据输入则执行s7步骤。
14.s3、使用2d卷积神经网络提取各帧视觉图像的图像特征，其中该卷积神经网络按照mvs网络训练流程进行端到端训练。
15.s4、基于可微分单应变换算法使用s3中提取的视觉图像构造匹配代价空间。此过程中，可根据划分的候选深度值将相邻视角中极线上的候选匹配点特征变换至当前参考视图，并计算参看视图中的参考像素特征和待匹配点特征的点积相似度，最终融合多个视角的匹配代价体获得最终匹配代价空间。在一些实施例中，此步骤为无参步骤，即无需使用神经网络且无可优化参数。
16.s5、使用3d卷积神经网络对步骤s4中构造的匹配代价空间进行正则化，并输出预测得到的稠密深度图。
17.s6、基于步骤s5或s9预测的稠密深度图，根据s10获取的视觉图像语义分割结果和多视图几何一致性校验结果剔除各帧深度图中的不可靠外点。
18.s7、在有车载激光雷达输入的情况下，使用2d卷积神经网络编码器对单目视觉图像和激光雷达稀疏深度提取特征。
19.s8、使用2d卷积神经网络解码器对步骤s7中提取的特征图像和稀疏深度特征进行融合，并输出预测的初始稠密深度结图。
20.s9、对步骤s8中预测的初始深度图进行精调，并输出最终预测的稠密深度图。
21.s10、使用视觉图像语义分割算法对各帧输入图像进行语义分割。
22.s11、基于步骤s6中得到的结果，将多视图深度图反投影至三维空间融合形成最终静态场景重建结果。
23.本发明上述技术方案所述的场景重建方法，基于神经网络对视觉图像和激光雷达稀疏深度进行处理，可应用于仅有视觉图像输入和同时具有视觉图像和激光雷达输入的情况，利用所述神经网络预测稠密深度图，结合基于视觉图像的语义分割结果和稠密深度预测结果，实现更加稠密准确的场景重建效果。
附图说明
24.图1是本发明基于神经网络的静态场景重建方法的流程图。
25.图2是本发明所采用构造匹配代价空间示意图。
26.图3是本发明所采用多视角几何一致性检验示意图。
27.图4是本发明所采用深度补全网络结构示意图。
具体实施方式
28.下面结合附图和具体的实施方式对本发明作进一步说明。
29.本发明的具体实施方式提供了一种基于神经网络的静态场景重建方法，在一些实施例中，该静态场景重建方法包括基于神经网络的纯视觉静态场景三维重建方法，基于神经网络的视觉与激光雷达多模融合静态场景重建方法；其中，视觉输入为车载摄像头拍摄的位姿已知的视觉图像，所述激光雷达输入为车载激光雷达采集的位姿已知的激光点云数据；纯视觉静态场景三维重建方法基于多视图立体视觉算法为各帧图像预测深度信息，利用视觉语义分割算法识别图像中的动态区域，在多视图融合重建阶段将动态区域予以剔除，最终获得静态区域的三维重建结果；视觉与激光雷达多模融合重建模块基于深度补全算法，使用神经网络对激光雷达点云的稀疏深度和视觉图像进行特征融合并输出稠密深度；视觉语义分割基于神经网络，对输入的视觉图像进行逐像素的语义类别分类，可用于识别行人车辆等动态区域；多视图深度融合模块利用本系统预测的深度图，进行多视图几何一致性校验并输出最终的静态区域三维点云结果。参考图1，在一些实施例中，本发明的静态场景重建方法具体包括如下步骤s1～s13：
30.s1、采用车载单目相机实时采集车辆周围环境的图像信息，采集图像之前需要进行的准备工作包括：使用张氏标定法和棋盘格对单目相机进行标定，使标定后的相机图像无畸变，并获得该标定相机的内参矩阵信息；与车载其他传感器进行时钟同步标定，为采集的每帧视觉图像提供时间戳信息。完成图像的采集工作之后，采集获取车辆行驶过程中的位姿信息，将各帧图像对应的相机位姿作为已知信息用于后续静态场景三维重建流程。
31.s2、判断是否有车载激光雷达数据输入，如无激光雷达数据，即仅包含视觉图像数据，则仅利用已知相机内参和位姿的多视角视觉图像进行三维重建，执行s3步骤；若有激光雷达数据输入，则获取激光雷达观测数据及对应时间戳信息，在激光雷达采集数据之前，应当对激光雷达进行标定，即获取激光雷达和其他车载传感器(如车载单目相机)的相对位姿关系，执行s7步骤。
32.s3、s3-s5步骤为使用神经网络对输入的多视角视觉图像进行稠密深度估计，该步骤参照多视图立体视觉(mvs)网络流程设计，其中s3步骤利用2d卷积神经网络对输入的视觉图像提取视觉特征用于构造匹配代价空间(s4步骤)以及预测稠密深度图(s5步骤)，该卷积神经网络作为mvs网络的特征提取器以有监督方式进行训练。具体而言，该卷积神经网络
使用了经典的fpn网络结构，包括基于2d卷积层的编码器和基于2d转置卷积层的解码器，其中编码器网络以分辨率为(h，w，3)的单帧图像作为输入，利用卷积层、批归一化层和激活函数层提取图像特征，解码器网络以编码器提取的特征作为输入，利用转置卷积层、批归一化层和激活函数层作解码图像特征，输出三种不同分辨率和通道数的图像特征，包括(h/4，w/4，128)、(h/2，w/2，64)以及(h，w，32)的图像特征。在此fpn网络中，使用了relu激活函数。
33.s4、根据可微分单应变换和特征点积相似度构造匹配代价空间，如图2所示，给定几张不同视角下的已知位姿的相机图像，选定一张参考图像(reference image)，剩余几张为源图像(source image)，为了给参考图像中的每个像素预测深度，从参考视角的光心穿过某个参考像素点(reference point)可以发射一条光线(ray)，由于参考视角与相邻视角(source view)之间的相机内外参信息已知，这条光线投影到不同的相邻视角下均可得到一条极线(epipolar line)。为了预测这条光线所观测的3d物体的位置，在参考视角的成像平面前方对深度进行离散化，并划定一些离散的候选深度(d1，d2，d3，...)，每个不同的深度都对应了光线上一个不同的3d位置(candidate 3d point)，将这些不同的3d位置投影到相邻视角下，即可得到相邻视角的极线上的离散像素点(sampled source point)。如果可以利用网络提取的特征来对参考点(reference point)和相邻视角的待匹配点(sampled source point)进行匹配，根据匹配关系便可得到参考视角和相邻视角中观测的同一3d点的位置，便找到了候选深度中的最佳匹配深度。上述过程中根据候选深度d进行可微分单应变换的过程可表示为：其中p0表示参考视角下的某像素坐标，k0和ki分别表示参考视角和第i相邻视角的相机内参，r表示两视角之前的旋转矩阵，t表示两视角之间的平移向量，d表示p0对应的候选深度，pi表示p0按照候选深度d和相机内外参变换到第i相邻视角下的像素坐标。在获得变换之后的像素坐标后，便可以根据p0和pi的对应特征计算点积相似度，由此对每个像素执行上述计算便可获得参考视角图像和第i相邻视角的匹配代价体，最终将多个相邻视角对应的匹配代价体进行加权求和即可获得最终的匹配代价体，又称匹配代价空间。
34.s5、利用3d卷积神经网络对代价空间进行正则化，其中此网络为基于3d卷积层的u-net网络，激活函数为relu激活函数。具体而言，该网络以维度为(h，w，d，c)的匹配代价空间为输入，其中d和c分别表示候选深度数量和通道数量，3d u-net网络利用自身3d卷积层和归一化层对匹配代价空间进行正则化，主要用于平滑噪声和和改善输出结果，最终该网络输出维度为(h，w，d)的概率空间，表达了每个像素点在d候选深度上的概率，对概率空间的各像素按d维度进行加权求和，即可获得各像素最终的预测深度。
35.s6、根据上述计算过程获得稠密深度预测结果后，由于每张图像对应的原始预测结果中含有较多不可靠的外点，s6步骤利用多视角一致性检验将多视图对应的稠密深度结果中的外点予以剔除，该过程如图3所示。以一个参考视角和一个相邻视角为例，将参考视图的将最终深度预测表示为d0，将相邻视角的深度图表示为考虑参考图像坐标中的任意像素p0，我们将2d点p0转换为具有深度值d0(p0)的3d点p0。然后我们将p0反投影到第i相邻视图并获得相邻视图中的点pi。使用mvs网络在第i相邻视图估计的深度di(pi)，可以将pi投射到3d点pi。最后将pi投影到参考视图并得到那么p0处可定义两个重投影误差
和空间几何误差和空间几何误差和空间几何误差其中d0(p0)和d0(pi)是参考视图中p0和pi的投影深度。基于上述计算的两个误差以及给定的误差阈值，则参考视角关于第i相邻视角的内点子集可表示为：其中τ表示阈值，我们将τ
reproj
和τ
geo
分别设置为1.0和0.01。最终经过验证的掩码是n-1相邻视图中所有{p0}i的交集。
36.s7、如图4所示，输入数据包含激光雷达稀疏深度时，步骤s7分别使用编码器网络提取视觉图像特征和稀疏深度特征，其中编码器网络均为2d卷积神经网络，激活函数为relu激活函数，与解码器网络一起端到端进行有监督训练。
36.s8、使用解码器网络融合步骤s7中提取的图像特征和深度特征，并输出预测的初始稠密深度图，其中解码器网络为2d转置卷积神经网络，激活函数为relu激活函数。
37.s9、s8中的初始深度预测结果又将输入空间传播网络cspn中进行精调，输出最终预测的稠密深度结果，上述解码器网络与cspn网络与s7中所述编码器网络一起端到端进行训练。
39.s10、语义分割环节可选择使用不同预训练模型，例如pspnet和segformer等开源网络，其中语义分割类别设置为19类，包括路面等10类静态区域、行人等8类动态区域以及天空等1类无效区域。在多视图校验环节剔除动态区域及无效区域的外点对于获得高质量的静态场景点云结果有重要作用。
40.s11、根据上述s1-s10步骤的计算和结果，将多视图对应的内点投影至统一的坐标系三维空间中，即可获得最终重建的静态场景重建结果。
41.本发明的背景部分可以包含关于本发明的问题或环境的背景信息，而不一定是描述现有技术。因此，在背景技术部分中包含的内容并不是申请人对现有技术的承认。
42.以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中，参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点，但应当理解，在不脱离专利申请的保护范围的情况下，可以在本文中进行各种改变、替换和变更。

技术特征：
1.一种基于神经网络的静态场景重建方法，其特征在于，包括以下步骤：s1、通过至少一个车载相机如单目相机采集周围环境视觉图像；s2、判断是否有车载激光雷达数据输入，如无激光雷达数据输入则执行步骤s3，若有激光雷达数据输入则执行步骤s7；s3、使用2d卷积神经网络提取各帧视觉图像的图像特征，其中该卷积神经网络按照mvs网络训练流程进行端到端训练；s4、基于可微分单应变换算法使用步骤s3中提取的视觉图像特征构造匹配代价空间；s5、使用3d卷积神经网络对步骤s4中构造的匹配代价空间进行正则化，并输出预测得到的稠密深度图；s6、基于步骤s5或s9预测的稠密深度图，根据步骤s10获取的视觉图像语义分割结果和多视图几何一致性校验结果剔除各帧深度图中的不可靠外点；s7、使用2d卷积神经网络编码器对视觉图像和激光雷达稀疏深度提取特征；s8、使用2d卷积神经网络解码器对步骤s7中提取的特征图像和稀疏深度特征进行融合，并输出预测的初始稠密深度结图；s9、对步骤s8中预测的初始深度图进行精调，并输出最终预测的稠密深度图；s10、使用视觉图像语义分割算法对各帧输入图像进行语义分割；s11、基于步骤s6中得到的结果，将多视图深度图反投影至三维空间融合形成最终静态场景重建结果。2.如权利要求1所述的基于神经网络的静态场景重建方法，其特征在于，利用视觉图像预测稠密深度，或者同时利用视觉图像和激光雷达稀疏深度预测稠密深度。3.如权利要求1所述的基于神经网络的静态场景重建方法，其特征在于，在仅有视觉图像输入的情况下，使用卷积神经网络提取图像特征，用于构造匹配代价空间以及预测稠密深度图，卷积神经网络作为多视图立体视觉(mvs)网络的特征提取器以有监督方式进行训练。4.如权利要求1所述的基于神经网络的静态场景重建方法，其特征在于，步骤s4中根据可微分单应变换和特征点积相似度构造匹配代价空间，其中可微分单应变换环节使用的图像内参矩阵及外参矩阵为已知信息，深度假设值为人工指定信息；特征点积相似度环节使用的图像特征为s3步骤中提取的图像特征。5.如权利要求1所述的基于神经网络的静态场景重建方法，其特征在于，步骤s5中，所述3d卷积神经网络作为多视图立体视觉(mvs)网络的正则化环节以有监督方式进行训练。6.如权利要求1所述的基于神经网络的静态场景重建方法，其特征在于，步骤s8中使用解码器融合步骤s7中提取的图像特征和深度特征，并输出预测的初始稠密深度图，其中解码器为2d卷积神经网络，与步骤s7使用的编码器一起端到端进行有监督训练。7.如权利要求1所述的基于神经网络的静态场景重建方法，其特征在于，步骤s9中使用cspn网络对预测的初始深度图进行精调，该cspn网络在冻结步骤s7、s8的编解码器网络后进行端到端有监督训练。8.如权利要求1所述的基于神经网络的静态场景重建方法，其特征在于，在步骤s6中所述多视图几何一致性校验通过对步骤s9预测的稠密深度计算重投影误差和空间几何
误差来滤除稠密深度预测结果中的不可靠外点，其中和的定义为：的定义为：其中d0(p0)和d0(p
i
)是参考视图中p0和p
i
的投影深度，d0表示参考图像深度，d
i
表示第i相邻视角图像深度；的计算过程为将参考图像坐标中的任意像素p0，投影转换为具有深度值d0(p0)的3d点p0，然后将p0反投影到第i相邻视图并获得相邻视图中的点p
i
，使用第i相邻视图对应的预测深度d
i
(p
i
)，将p
i
投射到3d点p
i
，最后将p
i
投影到参考视图并得到其中，指定两个误差对应的误差阈值τ
reproj
和τ
geo
，将参考图像中大于该误差的像素作为外点剔除，则剩余内点为：9.如权利要求8所述的基于神经网络的静态场景重建方法，其特征在于，所述误差阈值τ
reproj
和τ
geo
分别设置为1.0和0.01。10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序由处理器执行时，实现如权利要求1至9任一项所述的静态场景重建方法。

技术总结
一种基于神经网络的静态场景重建方法，其中，采集周围环境视觉图像，并可输入车载激光雷达采集的位姿已知的激光点云数据；基于多视图立体视觉算法为各帧图像预测深度信息，利用视觉语义分割算法识别图像中的动态区域，在多视图融合重建阶段将动态区域予以剔除，获得静态区域的三维重建结果；对激光雷达点云的稀疏深度和视觉图像进行特征融合并输出稠密深度；对输入的视觉图像进行像素级语义类别分类，可用于识别行人车辆等动态区域；利用预测的深度图进行多视图深度融合，进行多视图几何一致性校验并输出最终的静态区域三维点云结果。本凤方法可应用于仅有视觉图像输入和同时具有视觉图像和激光雷达输入的情况，实现更加稠密准确的场景重建效果。确的场景重建效果。确的场景重建效果。

技术研发人员：李志恒丁宜康
受保护的技术使用者：清华大学深圳国际研究生院
技术研发日：2023.03.20
技术公布日：2023/8/24

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

基于神经网络的静态场景重建方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于神经网络的静态场景重建方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表