一种用于鱼眼相机的语义特征引导场景深度估算方法与流程

未命名 10-18 阅读：154 评论：0

1.本发明涉及场景感知的技术领域，特别涉及一种用于鱼眼相机的语义特征引导场景深度估算方法。

背景技术：

2.场景的深度估计是车辆的视觉感知领域中的一项重要任务，通过估计图像中每个像素到摄像机的距离，为场景的三维重建和距离感知等方面提供了深度信息。与深度测量装置（深度相机、激光雷达）相比，基于图像的深度估计有着更高广阔的使用范围。
3.随着人工智能技术的快速发展，由于深度学习具有强大的自学习能力，为车辆的场景深度估计提供了新的思路。目前的深度学习方法多集中于基于传统摄像机的图像，使用标注好的场景深度图样本，完成深度估计的任务。由于很多车载摄像头往往会使用有着更大观察范围的鱼眼相机，而鱼眼图像畸变的现象容易导致预测深度值产生较大误差，且鱼眼图像数据集含有的深度样本信息较少，难以支持鱼眼图像进行直接有监督的深度估计方法。

技术实现要素：

4.本发明所要解决的技术问题是克服现有技术的不足，提供了一种观测范围广、预测深度精度较高、感知结果准确且能够满足场景深度估计需求的用于鱼眼相机的语义特征引导场景深度估算方法。
5.本发明所采用的技术方案是：一种用于鱼眼相机的语义特征引导场景深度估算方法，其方法内容如下：首先设计语义信息感知模块，对输入的畸变的鱼眼图像进行语义信息提取；然后建立场景深度感知模块，利用语义信息引导对深度特征的感知；接着建立相机位姿感知模块，得到相机的位姿信息；最后使用场景深度图信息和相机位姿信息重构图像，设计损失函数训练模型，优化网络参数。具体包括以下步骤：步骤一：设计语义信息感知模块子步骤1.1：设计语义编码器语义编码器由一个二维卷积层、三个残差模块和一个特征融合模块组成，其中每个残差模块均包含一个二维卷积层。卷积层对输入图像进行处理得到特征图f1；残差模块1对特征图f1进行处理得到特征图f2；残差模块2采用了扩张卷积层来增大图形的感受野，对特征图f2进行处理得到特征图f3；残差模块3的卷积层中额外增加了两个通道来学习像素的坐标特征和相机参数特征，提取图像的畸变特征信息，对特征图f3进行处理得到特征图f4；最后将特征图f2、f3和f4一起输入特征融合模块得到特征图f5。
6.子步骤1.2：设计语义解码器语义解码器由三个反卷积层、三个特征融合模块和一个卷积层组成。将特征图f5输入反卷积层，进行上采样恢复至特征图f4尺寸的特征图f4’，然后将f4和f4’进行特征融合后生成特征图f4”；再将f4”作为输入，进行上采样恢复至特征图f3尺寸的特征图f3’，然
后将f3和f3’进行特征融合后生成特征图f3”；再将f3”作为输入，进行上采样恢复至特征图f2尺寸的特征图f2’，然后将f2和f2’进行特征融合后生成特征图f2”；最后输入一层卷积层，生成场景的语义分割信息图。
7.步骤二：设计场景深度感知模块子步骤2.1：设计深度编码器深度编码器采用和语义编码器一样的骨干网络，将输入图像经过编码器后得到特征图f5。
8.子步骤2.2：设计语义引导的深度解码器深度解码器由四个反卷积层、三个特征融合模块和三个语义特征映射的卷积层组成。语义特征映射的公式如式(1)所示：
ꢀꢀ
(1)；其中f表示语义特征，k是卷积核，w是卷积权重，v表示卷积化的输入信息，p是像素坐标。
9.先将特征图f5输入反卷积层，进行上采样恢复至特征图f4尺寸的特征图d4，将f4和d4进行特征融合后生成特征图d4’,同时将语义解码器中得到的语义特征图f4”输入卷积层做语义特征映射，然后和d4’特征融合生成深度图d4”；再将d4”作为输入，进行上采样恢复至特征图f3尺寸的特征图d3，将f3和d3进行特征融合后生成特征图d3’,同时将语义解码器中得到的语义特征图f3”输入卷积层做语义特征映射，然后和d4’特征融合生成深度图d3”；再将d3”作为输入，进行上采样恢复至特征图f2尺寸的特征图d2，将f2和d2进行特征融合后生成特征图d2’,同时将语义解码器中得到的语义特征图f2”输入卷积层做语义特征映射，然后和d2’特征融合生成深度图d2”；最后输入一层卷积层，得到场景的预测深度图。
10.步骤三：设计模型的损失函数并训练模型该场景深度估计网络的损失函数由两部分组成，分别是语义分割的像素交叉熵损失如式(2)所示和深度平滑损失如式(3)所示：
ꢀꢀ
(2)；其中，是像素属于类别s的预测概率，是像素属于类别s的真实概率；
ꢀꢀ
(3)；其中和分别表示纵向和横向的梯度，深度平滑损失能够保证场景深度图中，物体轮廓等位置处深度变化较大，其余位置场景深度图像尽可能平滑，促进场景深度图的平滑性；综上所述，所设计的模型的完整损失如式(4)所示，其中是控制语义分割模块的损失在全部损失中的权重，的大小为0.3；为加权因子，控制深度平滑损失的权重,设为0.1， (4)；使用woodscape鱼眼图像数据集和woodscape鱼眼图像语义标签作为训练集，设置初始学习率为0.0002，训练过程中学习率自动下降，设置adam迭代器的参数β1、β2大小分别为0.9和0.999，批量大小设置为8。使用上述损失函数进行反馈来训练模型，每个epoch之后
计算训练损失和验证损失，比较每个epoch的验证损失，保存验证损失最小的模型参数。
11.本发明的有益效果是：本发明运用语义信息引导深度估计方法，能够解决鱼眼相机在进行深度估计时，由于图像畸变大，导致同一物体的深度估计不平滑的问题，能够有效提高用鱼眼相机进行深度估计时的精度。
附图说明
12.图1是模型结构示意图；图2是语义信息感知模块和深度感知模块的网络结构图。
具体实施方式
13.当前，场景的深度估计是车辆的视觉感知领域中的一项重要任务，通过估计图像中每个像素到摄像机的距离，为场景的三维重建和距离感知等方面提供了深度信息。与深度测量装置（深度相机、激光雷达）相比，基于图像的深度估计有着更高广阔的使用范围。随着人工智能技术的快速发展，由于深度学习具有强大的自学习能力，为车辆的场景深度估计提供了新的思路。
14.目前的深度学习方法多集中于基于传统摄像机的图像，使用标注好的场景深度图样本，完成深度估计的任务。但是很多车载摄像头往往会使用有着更大观察范围的鱼眼相机，但是鱼眼图像畸变的现象容易导致预测深度值产生较大误差，并且鱼眼图像数据集含有的深度样本信息较少，难以支持鱼眼图像直接的有监督深度估计方法。
15.本发明公开了一种基于语义引导的鱼眼相机场景深度估计方法。本发明公开的方法采用了端到端的神经网络结构，利用语义分割的感知结果引导对鱼眼图像的场景深度估计。该方法使用鱼眼相机，具有观测范围广的特点；所运用的语义信息引导深度估计方法，具有预测深度精度较高、感知结果准确的特点，能够满足场景深度估计的需求。
16.本发明设计了一种基于语义引导的鱼眼相机场景深度估计方法，该方法使用鱼眼相机，具有观测范围广的特点；所运用的语义信息引导深度估计方法，具有预测深度精度较高、感知结果准确的特点。
17.本发明采用的技术方案如下：一种基于语义引导的鱼眼相机场景深度估计方法，其特征在于：首先设计语义信息感知模块，对输入的畸变的鱼眼图像进行语义信息提取；然后建立场景深度感知模块，利用语义信息引导对深度特征的感知；接着建立相机位姿感知模块，得到相机的位姿信息；最后使用场景深度图信息和相机位姿信息重构图像，设计损失函数训练模型，优化网络参数。整体的模型架构如图1所示，具体包括以下步骤：步骤一：设计语义信息感知模块子步骤1.1：设计语义编码器语义编码器由一个二维卷积层、三个残差模块和一个特征融合模块组成，其中每个残差模块均包含一个二维卷积层。卷积层对输入图像进行处理得到特征图f1；残差模块1对特征图f1进行处理得到特征图f2；残差模块2采用了扩张卷积层来增大图形的感受野，对特征图f2进行处理得到特征图f3；残差模块3的卷积层中额外增加了两个通道来学习像素的坐标特征和相机参数特征，提取图像的畸变特征信息，对特征图f3进行处理得到特征图f4；最后将特征图f2、f3和f4一起输入特征融合模块得到特征图f5。
18.子步骤1.2：设计语义解码器语义解码器由四个反卷积层、三个特征融合模块和一个卷积层组成。将特征图f5输入反卷积层，进行上采样恢复至特征图f4尺寸的特征图f4’，然后将f4和f4’进行特征融合后生成特征图f4”；再将f4”作为输入，进行上采样恢复至特征图f3尺寸的特征图f3’，然后将f3和f3’进行特征融合后生成特征图f3”；再将f3”作为输入，进行上采样恢复至特征图f2尺寸的特征图f2’，然后将f2和f2’进行特征融合后生成特征图f2”；最后输入一层卷积层，生成场景的语义分割信息图。
19.步骤二：设计场景深度感知模块子步骤2.1：设计深度解码器深度编码器采用和语义编码器一样的骨干网络，将输入图像经过编码器后得到特征图f5。
20.子步骤2.2：设计语义引导的深度解码器深度解码器由四个反卷积层、三个特征融合模块和三个语义特征映射的卷积层组成。语义特征的映射公式如式(1)所示。其中f表示语义特征，k是卷积核，w是卷积权重，v表示卷积化的输入信息，p是像素坐标。
21.ꢀꢀꢀ
(1)；先将特征图f5输入反卷积层，进行上采样恢复至特征图f4尺寸的特征图d4，将f4和d4进行特征融合后生成特征图d4’,同时将语义解码器中得到的语义特征图f4”输入卷积层做语义特征映射，然后和d4’特征融合生成深度图d4”；再将d4”作为输入，进行上采样恢复至特征图f3尺寸的特征图d3，将f3和d3进行特征融合后生成特征图d3’,同时将语义解码器中得到的语义特征图f3”输入卷积层做语义特征映射，然后和d4’特征融合生成深度图d3”；再将d3”作为输入，进行上采样恢复至特征图f2尺寸的特征图d2，将f2和d2进行特征融合后生成特征图d2’,同时将语义解码器中得到的语义特征图f2”输入卷积层做语义特征映射，然后和d2’特征融合生成深度图d2”；得到场景的预测深度图。场景深度感知模块的结构图如图2所示。
22.步骤三：设计模型的损失函数并训练模型该场景深度估计网络的损失函数由两部分组成，分别是语义分割的像素交叉熵损失如式(2)所示和深度平滑损失如式(3)所示。
23.ꢀꢀꢀꢀ
(2)；其中，是像素属于类别s的预测概率，是像素属于类别s的真实概率。
24.ꢀꢀꢀꢀꢀꢀꢀ
(3) ；其中和分别表示纵向和横向的梯度，深度平滑损失能够保证场景深度图中，物体轮廓等位置处深度变化较大，其余位置场景深度图像尽可能平滑，促进场景深度图的平滑性。
25.综上所述，所设计的模型的完整损失如式(4)所示，其中是控制语义分割模块的损失在全部损失中的权重，的大小为0.3。为加权因子，控制深度平滑损失的权重,设为0.1。
26.ꢀꢀ
(4)；使用woodscape鱼眼图像数据集和woodscape鱼眼图像语义标签作为训练集，设置初始学习率为0.0002，训练过程中学习率自动下降，设置adam迭代器的参数β1、β2大小分别为0 .9和0 .999，批量大小设置为8。使用上述损失函数进行反馈来训练模型，每个epoch之后计算训练损失和验证损失，比较每个epoch的验证损失，保存验证损失最小的模型参数。
27.本发明的优点及显著效果：该方法运用语义信息引导深度估计方法，能够解决鱼眼相机在进行深度估计时，由于图像畸变大，导致同一物体的深度估计不平滑的问题，能够有效提高用鱼眼相机进行深度估计时的精度。
28.虽然本发明的实施例是以实际方案来描述的，但是并不构成对本发明含义的限制，对于本领域的技术人员，根据本说明书对其实施方案的修改及与其他方案的组合都是显而易见的。

技术特征：
1.一种用于鱼眼相机的语义特征引导场景深度估算方法，其特征在于：首先设计语义信息感知模块，对输入的畸变的鱼眼图像进行语义信息提取；然后建立场景深度感知模块，利用语义信息引导对深度特征的感知；接着建立相机位姿感知模块，得到相机的位姿信息；最后使用场景深度图信息和相机位姿信息重构图像，设计损失函数训练模型，优化网络参数；具体包括以下步骤：步骤一：设计语义信息感知模块子步骤1.1：设计语义编码器语义编码器由一个二维卷积层、三个残差模块和一个特征融合模块组成，其中每个残差模块均包含一个二维卷积层；卷积层对输入图像进行处理得到特征图f1；残差模块1对特征图f1进行处理得到特征图f2；残差模块2采用了扩张卷积层来增大图形的感受野，对特征图f2进行处理得到特征图f3；残差模块3的卷积层中额外增加了两个通道来学习像素的坐标特征和相机参数特征，提取图像的畸变特征信息，对特征图f3进行处理得到特征图f4；最后将特征图f2、f3和f4一起输入特征融合模块得到特征图f5；子步骤1.2：设计语义解码器语义解码器由三个反卷积层、三个特征融合模块和一个卷积层组成；将特征图f5输入反卷积层，进行上采样恢复至特征图f4尺寸的特征图f4’，然后将f4和f4’进行特征融合后生成特征图f4”；再将f4”作为输入，进行上采样恢复至特征图f3尺寸的特征图f3’，然后将f3和f3’进行特征融合后生成特征图f3”；再将f3”作为输入，进行上采样恢复至特征图f2尺寸的特征图f2’，然后将f2和f2’进行特征融合后生成特征图f2”；最后输入一层卷积层，生成场景的语义分割信息图；步骤二：设计场景深度感知模块子步骤2.1：设计深度编码器深度编码器采用和语义编码器一样的骨干网络，将输入图像经过编码器后得到特征图f5；子步骤2.2：设计语义引导的深度解码器深度解码器由四个反卷积层、三个特征融合模块和三个语义特征映射的卷积层组成；语义特征的映射公式如式(1)所示：
ꢀꢀ
(1)；其中f表示语义特征，k是卷积核，w是卷积权重，v表示卷积化的输入信息，p是像素坐标；先将特征图f5输入反卷积层，进行上采样恢复至特征图f4尺寸的特征图d4，将f4和d4进行特征融合后生成特征图d4’,同时将语义解码器中得到的语义特征图f4”输入卷积层做语义特征映射，然后和d4’特征融合生成深度图d4”；再将d4”作为输入，进行上采样恢复至特征图f3尺寸的特征图d3，将f3和d3进行特征融合后生成特征图d3’,同时将语义解码器中得到的语义特征图f3”输入卷积层做语义特征映射，然后和d4’特征融合生成深度图d3”；再将d3”作为输入，进行上采样恢复至特征图f2尺寸的特征图d2，将f2和d2进行特征融合后生成特征图d2’,同时将语义解码器中得到的语义特征图f2”输入卷积层做语义特征映射，然后和d2’特征融合生成深度图d2”；得到场景的预测深度图；
步骤三：设计模型的损失函数并训练模型该场景深度估计网络的损失函数由两部分组成，分别是语义分割的像素交叉熵损失如式(2)所示和深度平滑损失如式(3)所示：
ꢀꢀ
(2)；其中，是像素属于类别s的预测概率，是像素属于类别s的真实概率；
ꢀꢀ
(3)；其中和分别表示纵向和横向的梯度，深度平滑损失能够保证场景深度图中，物体轮廓等位置处深度变化较大，其余位置场景深度图像尽可能平滑，促进场景深度图的平滑性；综上所述，所设计的模型的完整损失如式(4)所示，其中是控制语义分割模块的损失在全部损失中的权重，的大小为0.3；为加权因子，控制深度平滑损失的权重,设为0.1；(4)；使用woodscape鱼眼图像数据集和woodscape鱼眼图像语义标签作为训练集，设置初始学习率为0.0002，训练过程中学习率自动下降，设置adam迭代器的参数β1、β2大小分别为0.9和0.999，批量大小设置为8；使用上述损失函数进行反馈来训练模型，每个epoch之后计算训练损失和验证损失，比较每个epoch的验证损失，保存验证损失最小的模型参数。

技术总结
本发明公开了一种用于鱼眼相机的语义特征引导场景深度估算方法，该方法首先设计语义信息感知模块，对输入的畸变的鱼眼图像进行语义信息提取；然后建立场景深度感知模块，利用语义信息引导对深度特征的感知；最后设计损失函数，采用端到端的方法进行模型训练，优化网络参数。该方法使用鱼眼相机，具有观测范围广的特点；所运用的语义信息引导深度估计方法，能够解决鱼眼相机在进行深度估计时，由于图像畸变大，导致同一物体的深度估计不平滑、精度低的问题。本发明可应用于场景感知的技术领域。域。域。

技术研发人员：邵锡晟
受保护的技术使用者：珠海博杰电子股份有限公司
技术研发日：2023.06.25
技术公布日：2023/10/11

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种绿色建筑电力能源碳排放智能计量装置 下一篇：基于VR的模拟现实环境高风险职业人群耐挫素质增强系统

一种用于鱼眼相机的语义特征引导场景深度估算方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种用于鱼眼相机的语义特征引导场景深度估算方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表