一种基于逆神经辐射场的视觉定位方法与流程

未命名 08-24 阅读：118 评论：0

1.本发明属于视觉定位领域，具体涉及一种基于逆神经辐射场的视觉定位方法。

背景技术：

2.近年来，业界已经研究了一种给定相机位姿参数，通过深度学习神经网络便能合成新视角下的图像的技术，称之为神经辐射场。其中，深度学习神经网络为多层感知机结构(mlp)。
3.视觉定位技术是当前业界对视频图像智能处理主要技术之一，在自动驾驶、无人机自主导航等民用和军事国防领域已经得到广泛的关注和应用。当前主流的视觉定位技术中，典型的应用如视觉slam方法，基本都是基于图像特征点提取和特征点匹配，再结合相机的参数进行显式的建模方法解算出自身的位置。该方法具有极大的局限性，需要要求拍摄的图像连续，且图像具有明显的纹理特征的场景下才能适用；另外，该方法初始化时间长，甚至出现初始化失败的情况，无法适应于实时性较高的场景。

技术实现要素：

4.本发明的目的在于针对解决背景技术中提出的问题，提出一种基于逆神经辐射场的视觉定位方法。
5.为实现上述目的，本发明所采取的技术方案为：
6.本发明提出的一种基于逆神经辐射场的视觉定位方法，包括：
7.采集三维渲染数据集和人工采集标注真实场景数据集。
8.构建包括第一卷积神经网络、第二卷积神经网络、多层感知机结构、编码器、解码器和前馈神经网络的深度学习神经网络模型。
9.利用三维渲染数据集和人工采集标注真实场景数据集对深度学习神经网络模型进行训练。
10.对训练好的深度学习神经网络模型进行模型轻量化处理和特定的人工智能加速硬件适配。
11.将适配后的深度学习神经网络模型部署至计算设备，利用相机拍摄图像输入至部署了深度学习神经网络模型的计算设备中，然后计算设备推理计算得到相机的位姿信息。
12.优选地，采集三维渲染数据集和人工采集标注真实场景数据集，包括：
13.三维渲染数据集是通过三维渲染引擎生成不同场景图像和对应的虚拟相机位姿信息，且所述不同场景的数量不少于100，每个场景通过虚拟相机生成的图像数量不少于500。
14.人工采集标注真实场景数据集是通过真实的相机对特定场景进行拍摄获取图像和对应的真实相机位姿信息，且获取图像的数量不少于10000。
15.优选地，构建包括第一卷积神经网络、第二卷积神经网络、多层感知机网络结构、编码器、解码器和前馈神经网络的深度学习神经网络模型，包括：
16.第一卷积神经网络为resnet50并在最后一层增加128维输出的全连接层，所述第二卷积神经网络为resnet18并在最后一层增加128维输出的的全连接层。
17.多层感知机网络结构的层数至少为四层，且输入特征维度为128，输出特征维度为128，隐藏层中至少有一层不少于1024个神经元。
18.将第一卷积神经网络输出的第一特征向量和第二卷积神经网络输出的第二特征向量进行对应特征加权相加的特征融合得到第一融合特征向量，且所述第一特征向量权重为w1，第二特征向量权重为w2，并w1+w2＝1.0。
19.将第一融合特征向量输入至编码器中进行特征提取，得到第一特征编码输出向量。
20.将第一特征编码输出向量输入多层感知机网络结构中得到第二特征编码输出向量。
21.将第二特征编码输出向量输入至解码器中，并将预设数量为m的查询键值向量输入至解码器中，经过解码得到m个解码特征输出。
22.最后将m个解码特征输出依次输入至对应数量的前馈神经网络中，得到相机的m个位姿信息，其中m的值为6。
23.优选地，利用三维渲染数据集和人工采集标注真实场景数据集对深度学习神经网络模型进行训练，包括：
24.首先利用三维渲染数据集对深度学习神经网络模型预训练得到预训练深度学习神经网络模型，然后再利用人工采集标注真实场景数据集对预训练深度学习神经网络模型进行修正训练，得到最终训练好的深度学习神经网络模型。
25.优选地，在利用三维渲染数据集预训练和人工采集标注真实场景数据集修正训练过程中，均采用如下步骤进行训练：
26.随机初始化深度学习神经网络模型的参数值和查询键值向量，从所述三维渲染数据集或人工采集标注真实场景数据集中选取图像，并将选取的图像统一缩放至1024
×
1024像素大小，图像划分为8
×
8个网格区域得到第一卷积神经网络的训练输入；
27.从第一卷积神经网络的输入中抽取比例为r的网格进行随机遮挡得到第二卷积神经网络的训练输入，其中0.3＜r＜0.6；
28.将第一卷积神经网络的训练输入和第二卷积神经网络的训练输入依次输入至第一卷积神经网络和第二卷积神经网络中，并结合损失函数对深度学习神经网络模型或预训练深度学习神经网络模型进行训练，且损失函数的公式如下：
29.l＝λ1l
loc
+λ2l
pos
[0030][0031][0032]
其中，l表示损失函数值，l
loc
表示相机位置损失值，l
loc
表示相机姿态损失值，x,y,z分别表示相机位置坐标的真值，x,y,z分别表示相机位置坐标的预测值，d
x
,dy,dz表示相机为生成场景图像时绕三个坐标轴的旋转角度真值，用于表示三个相机姿态，d
x
',dy',dz'表示三个相机姿态的预测值，λ1,λ2依次表示相机位置损失和姿态损失的权重，且0.5＜λ1＜1.0、3＜λ2＜7；
[0033]
根据损失函数值，使用反向传播计算深度学习神经网络模型的参数梯度大小，并利用梯度更新深度学习神经网络模型或预训练深度学习神经网络模型的参数值，直到损失函数收敛或达到训练次数时停止训练，得到预训练深度学习神经网络模型或最终训练好的深度学习神经网络模型，且人工采集标注真实场景数据集对预训练深度学习神经网络模型训练过程中，冻结编码器参数和解码器参数，使其在反向传播训练过程中不更新。
[0034]
优选地，对训练好的深度学习神经网络模型进行模型轻量化处理和特定的人工智能加速硬件适配，包括：
[0035]
将训练好的深度学习神经网络模型的参数进行量化处理，使得深度学习神经网络模型参数的数据类型从浮点型存储为整型得到第一深度学习量化参数模型。
[0036]
使用人工智能加速硬件配套的工具链对第一深度学习量化参数模型进行模型转换，得到适配所选定的人工智能加速硬件的第二深度学习量化参数模型。
[0037]
优选地，将适配后的深度学习神经网络模型部署至计算设备，利用相机拍摄图像输入至部署了深度学习神经网络模型的计算设备中，然后计算设备推理计算得到相机的位姿信息，包括：
[0038]
将第二深度学习量化参数模型加载至计算设备内存中。
[0039]
获取相机拍摄的图像，并将图像缩放至1024
×
1024像素大小。
[0040]
将缩放后的图像划分为8
×
8个网格区域得到第一输入图像。
[0041]
对第一输入图像选取比例为r的网格进行均匀遮挡第一输入图像得到第二输入图像。
[0042]
将第一输入图像和第二输入图像输入至加载了第二深度学习量化参数模型的计算设备内，最后计算设备计算得到相机自身的位姿信息。
[0043]
与现有技术相比，本发明的有益效果为：
[0044]
1、本基于逆神经辐射场的视觉定位方法利用相机拍摄的图像作为输入，直接逆向求解相机自身位姿实现视觉定位，解决现有技术中基于图像特征点的视觉定位方法实时性差、需要图像连续，且图像具有明显的纹理特征的问题；
[0045]
2、本基于逆神经辐射场的视觉定位方法采用改进的transformer深度学习神经网络模型，相对现有的transformer深度学习神经网络模型，参数量较少，可以很好地拟合高频信息，且在训练过程中原图像和随机遮挡的图像都用于提取并进行特征融合，更加对实际应用场景中的物体遮挡的适应能力更强；
[0046]
3、本基于逆神经辐射场的视觉定位方法中对深度学习神经网络模型训练的过程中分为预训练和修正训练，且预训练过程中采用三维渲染数据集，获取较为简单，且得到的场景较为丰富多样，再在修正训练过程中采用人工采集标注真实场景数据集，这样既能使得深度学习神经网络模型具有多场景适应能力由能针对真实场景有更准确的效果。
附图说明
[0047]
图1为本发明现有技术中transformer深度学习神经网络模型的结构示意图；
[0048]
图2为本发明基于逆神经辐射场的视觉定位方法中深度学习神经网络模型的模块框图；
[0049]
图3为本发明训练过程中对输入训练图像处理的示意图；
[0050]
图4为本发明训练完后对输入图像进行处理的示意图；
[0051]
图5为本发明测试试验时真实位置信息与通过本发明方法得到的位置信息的比对示意图。
具体实施方式
[0052]
下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0053]
需要说明的是，当组件被称为与另一个组件“连接”时，它可以直接与另一个组件连接或者也可以存在居中的组件。除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本技术。
[0054]
如图2-4所示，一种基于逆神经辐射场的视觉定位方法，包括：
[0055]
步骤s1、采集三维渲染数据集和人工采集标注真实场景数据集。
[0056]
具体为，三维渲染数据集是通过三维渲染引擎生成不同场景图像和对应的虚拟相机位姿信息，且所述不同场景的数量不少于100，每个场景通过虚拟相机生成的图像数量不少于500，本实施例中，采用的三维渲染引擎为three.js，通过three.js三维渲染引擎生成的不同场景的数量为150个，每个场景通过调整虚拟相机位置和拍摄角度渲染生成的图像数量为600个，总计采集的数据集数量为90000条，位姿信息包括相机位置和相机姿态，其中相机位置为三维坐标，表示为(x,y,z)，相机姿态为生成场景照片时相机绕三个坐标轴的旋转角度，表示为(d
x
,dy,dz)；
[0057]
人工采集标注真实场景数据集是通过真实的相机对特定场景进行拍摄获取图像和对应的真实相机位姿信息，且获取图像的数量不少于10000。本实施例中，采集的数据集的数量为10342条，特定场景为与实际部署应用的场景。
[0058]
步骤s2、构建包括第一卷积神经网络、第二卷积神经网络、多层感知机结构、编码器、解码器和前馈神经网络的深度学习神经网络模型。
[0059]
具体为，本实施例中的深度学习神经网络模型为改进的transformer深度学习神经网络模型，现有的transformer深度学习神经网络模型的结构示意图如图1所示，相对现有的transformer深度学习神经网络模型，参数量较少，可以很好地拟合高频信息。第一卷积神经网络为resnet50并在最后一层增加128维输出的全连接层，所述第二卷积神经网络为resnet18并在最后一层增加128维输出的的全连接层；
[0060]
多层感知机网络结构的层数至少为四层，且输入特征维度为128，输出特征维度为128，隐藏层中至少有一层不少于1024个神经元。
[0061]
本实施例中，多层感知机网络结构为四层，包括128维输入层、128维输出层、1024维和512维的隐藏层。
[0062]
将第一卷积神经网络输出的第一特征向量和第二卷积神经网络输出的第二特征向量进行对应特征加权相加的特征融合得到第一融合特征向量，且所述第一特征向量权重为w1，第二特征向量权重为w2，并w1+w2＝1.0。
[0063]
本实施例中，第一特征向量权重为w1＝0.75，第二特征向量权重为w2＝0.25。
[0064]
将第一融合特征向量输入至编码器中进行特征提取，得到第一特征编码输出向量。
[0065]
将第一特征编码输出向量输入多层感知机网络结构中得到第二特征编码输出向量。
[0066]
将第二特征编码输出向量输入至解码器中，并将预设数量为m的查询键值向量(query)输入至解码器中，经过解码得到m个解码特征输出。
[0067]
最后将m个解码特征输出依次输入至对应数量的前馈神经网络中，得到相机的m个位姿信息，其中m的值为6。
[0068]
本实施例中，得到的相机的6个位姿信息，分别为3个表示相机的位置坐标，另为3个表示相机的不同姿态。查询键值向量为可训练的参数，查询键值向量的元素初始值为大于0小于1的数。
[0069]
步骤s3、利用三维渲染数据集和人工采集标注真实场景数据集对深度学习神经网络模型进行训练。
[0070]
具体为，首先利用三维渲染数据集对深度学习神经网络模型预训练得到预训练深度学习神经网络模型，然后再利用人工采集标注真实场景数据集对预训练深度学习神经网络模型进行修正训练，得到最终训练好的深度学习神经网络模型(预训练过程中采用三维渲染数据集，获取较为简单，且得到的场景较为丰富多样，再在修正训练过程中采用人工采集标注真实场景数据集，这样既能使得深度学习神经网络模型具有多场景适应能力由能针对真实场景有更准确的效果)。
[0071]
在利用三维渲染数据集预训练过程中采用如下步骤进行训练：
[0072]
步骤s3.1、随机初始化深度学习神经网络模型的参数值和查询键值向量，从三维渲染数据集中选取图像，并将选取的图像统一缩放至1024
×
1024像素大小，图像划分为8
×
8个网格区域(即8行8列共64个网格区域)得到第一卷积神经网络的训练输入；
[0073]
步骤s3.2、从第一卷积神经网络的输入中抽取比例为r的网格进行随机遮挡得到第二卷积神经网络的训练输入，其中0.3＜r＜0.6，本实施例中，r＝0.5；
[0074]
步骤s3.3、将第一卷积神经网络的训练输入和第二卷积神经网络的训练输入依次输入至第一卷积神经网络和第二卷积神经网络中(通过各卷积神经网络进行图像高维特征提取得到相应的特性向量，并且利用深度学习神经网络模型向前推进得到相机的6个位姿信息)，并结合损失函数对深度学习神经网络模型进行训练(利用三维渲染数据集中选取的图像对应的相机位姿信息进行损失计算)，且损失函数的公式如下：
[0075]
l＝λ1l
loc
+λ2l
pos
[0076][0077][0078]
其中，l表示损失函数值，l
loc
表示相机位置损失值，l
loc
表示相机姿态损失值，x,y,z分别表示相机位置坐标的真值，x,y,z分别表示相机位置坐标的预测值，d
x
,dy,dz表示相机为生成场景图像时绕三个坐标轴的旋转角度真值，用于表示三个相机姿态，d
x
',dy',dz'表示三个相机姿态的预测值，λ1,λ2依次表示相机位置损失和姿态损失的权重，且0.5＜λ1＜
1.0、3＜λ2＜7；
[0079]
本实施例中，λ1＝0.6，λ2＝5。
[0080]
步骤s3.4、根据损失函数值，使用反向传播计算深度学习神经网络模型的参数梯度大小，并利用梯度更新深度学习神经网络模型的参数值，直到损失函数收敛或达到训练次数时停止训练，得到预训练深度学习神经网络模型；
[0081]
在利用人工采集标注真实场景数据集修正训练过程中采用如下步骤进行训练：
[0082]
步骤s3.5、随机初始化预训练深度学习神经网络模型的参数值和查询键值向量；
[0083]
步骤s3.6、冻结编码器参数和解码器参数，使其在反向传播训练过程中不更新，从人工采集标注真实场景数据集中选取图像以及对应的真实相机位姿信息作为训练数据，重复步骤s3.1-s3.4，得到最终训练好的深度学习神经网络模型。
[0084]
步骤s4、对训练好的深度学习神经网络模型进行模型轻量化处理和特定的人工智能加速硬件适配。
[0085]
具体为，将训练好的深度学习神经网络模型的参数进行量化处理，使得深度学习神经网络模型参数的数据类型从浮点型存储为整型得到第一深度学习量化参数模型；
[0086]
使用人工智能加速硬件配套的工具链对第一深度学习量化参数模型进行模型转换，得到适配所选定的人工智能加速硬件的第二深度学习量化参数模型。本实施例中，所选取的人工智能加速硬件为华为atlas200神经网络专用推理硬件，利用华为提供的模型转换工具链将模型转换为.om格式的文件，以便模型参数能被正确的加载到内存中进行推理计算。
[0087]
步骤s5、将适配后的深度学习神经网络模型部署至计算设备，利用相机拍摄图像输入至部署了深度学习神经网络模型的计算设备中，然后计算设备推理计算得到相机的位姿信息。
[0088]
具体为，步骤s5.1、将第二深度学习量化参数模型加载至计算设备内存中；
[0089]
步骤s5.2、获取相机拍摄的图像，并将图像缩放至1024
×
1024像素大小；
[0090]
步骤s5.3、将缩放后的图像划分为8
×
8个网格区域得到第一输入图像(即为第一卷积神经网络的输入)；
[0091]
步骤s5.4、对第一输入图像选取比例为r的网格进行均匀遮挡第一输入图像得到第二输入图像(即为第二卷积神经网络的输入)，r＝0.5；
[0092]
步骤s5.5、将第一输入图像和第二输入图像输入至加载了第二深度学习量化参数模型的计算设备内，最后计算设备计算得到相机自身的位姿信息。
[0093]
最后，为了验证本发明方法的效果，设计了测试试验，本发明利用四旋翼无人机进行低空飞行视觉定位测试。
[0094]
具体步骤如下：
[0095]
步骤1：经纬仪测量标记点准确位置，并以改位置为坐标原点建立坐标系；
[0096]
步骤2：无人机在不同高度(50m、100m、150m)，并在每个高度拍摄不同姿态角(0
°
、20
°
、40
°
)的传感器图像数据；
[0097]
步骤3：以图像数据作为输入，通过本发明方法进行视觉定位得到无人机自身位姿信息；
[0098]
步骤4：以无人机自身gps定位信息为真值，换算至步骤1中建立的坐标系中的坐标
作为真值坐标，比较真值坐标与通过本发明方法得到的位姿信息；
[0099]
得到的结果如图5所示。虚线表示真实位置信息，实线表示通过本发明方法得到的位置信息。可以看到，通过本发明的方法获取的视觉定位信息与真实位置信息基本重合，具有较高的精度。证明了本发明方法的有效性。
[0100]
本基于逆神经辐射场的视觉定位方法利用相机拍摄的图像作为输入，直接逆向求解相机自身位姿实现视觉定位，解决现有技术中基于图像特征点的视觉定位方法实时性差、需要图像连续，且图像具有明显的纹理特征的问题；本基于逆神经辐射场的视觉定位方法采用改进的transformer深度学习神经网络模型，相对现有的transformer深度学习神经网络模型，参数量较少，可以很好地拟合高频信息，且在训练过程中原图像和随机遮挡的图像都用于提取并进行特征融合，更加对实际应用场景中的物体遮挡的适应能力更强；本基于逆神经辐射场的视觉定位方法中对深度学习神经网络模型训练的过程中分为预训练和修正训练，且预训练过程中采用三维渲染数据集，获取较为简单，且得到的场景较为丰富多样，再在修正训练过程中采用人工采集标注真实场景数据集，这样既能使得深度学习神经网络模型具有多场景适应能力由能针对真实场景有更准确的效果。
[0101]
以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0102]
以上所述实施例仅表达了本技术描述较为具体和详细的实施例，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

技术特征：
1.一种基于逆神经辐射场的视觉定位方法，其特征在于：所述基于逆神经辐射场的视觉定位方法，包括：采集三维渲染数据集和人工采集标注真实场景数据集；构建包括第一卷积神经网络、第二卷积神经网络、多层感知机结构、编码器、解码器和前馈神经网络的深度学习神经网络模型；利用三维渲染数据集和人工采集标注真实场景数据集对深度学习神经网络模型进行训练；对训练好的深度学习神经网络模型进行模型轻量化处理和特定的人工智能加速硬件适配；将适配后的深度学习神经网络模型部署至计算设备，利用相机拍摄图像输入至部署了深度学习神经网络模型的计算设备中，然后计算设备推理计算得到相机的位姿信息。2.如权利要求1所述的基于逆神经辐射场的视觉定位方法，其特征在于：所述采集三维渲染数据集和人工采集标注真实场景数据集，包括：三维渲染数据集是通过三维渲染引擎生成不同场景图像和对应的虚拟相机位姿信息，且所述不同场景的数量不少于100，每个场景通过虚拟相机生成的图像数量不少于500；人工采集标注真实场景数据集是通过真实的相机对特定场景进行拍摄获取图像和对应的真实相机位姿信息，且获取图像的数量不少于10000。3.如权利要求1所述的基于逆神经辐射场的视觉定位方法，其特征在于：所述构建包括第一卷积神经网络、第二卷积神经网络、多层感知机网络结构、编码器、解码器和前馈神经网络的深度学习神经网络模型，包括：所述第一卷积神经网络为resnet50并在最后一层增加128维输出的全连接层，所述第二卷积神经网络为resnet18并在最后一层增加128维输出的的全连接层；所述多层感知机网络结构的层数至少为四层，且输入特征维度为128，输出特征维度为128，隐藏层中至少有一层不少于1024个神经元；将所述第一卷积神经网络输出的第一特征向量和第二卷积神经网络输出的第二特征向量进行对应特征加权相加的特征融合得到第一融合特征向量，且所述第一特征向量权重为w1，第二特征向量权重为w2，并w1+w2＝1.0；将所述第一融合特征向量输入至编码器中进行特征提取，得到第一特征编码输出向量；将所述第一特征编码输出向量输入多层感知机网络结构中得到第二特征编码输出向量；将所述第二特征编码输出向量输入至解码器中，并将预设数量为m的查询键值向量输入至解码器中，经过解码得到m个解码特征输出；最后将m个解码特征输出依次输入至对应数量的前馈神经网络中，得到相机的m个位姿信息，其中m的值为6。4.如权利要求3所述的基于逆神经辐射场的视觉定位方法，其特征在于：所述利用三维渲染数据集和人工采集标注真实场景数据集对深度学习神经网络模型进行训练，包括：首先利用三维渲染数据集对深度学习神经网络模型预训练得到预训练深度学习神经网络模型，然后再利用人工采集标注真实场景数据集对预训练深度学习神经网络模型进行
修正训练，得到最终训练好的深度学习神经网络模型。5.如权利要求4所述的基于逆神经辐射场的视觉定位方法，其特征在于：在利用三维渲染数据集预训练和人工采集标注真实场景数据集修正训练过程中，均采用如下步骤进行训练：随机初始化深度学习神经网络模型的参数值和查询键值向量，从所述三维渲染数据集或人工采集标注真实场景数据集中选取图像，并将选取的图像统一缩放至1024
×
1024像素大小，图像划分为8
×
8个网格区域得到第一卷积神经网络的训练输入；从第一卷积神经网络的输入中抽取比例为r的网格进行随机遮挡得到第二卷积神经网络的训练输入，其中0.3＜r＜0.6；将第一卷积神经网络的训练输入和第二卷积神经网络的训练输入依次输入至第一卷积神经网络和第二卷积神经网络中，并结合损失函数对深度学习神经网络模型或预训练深度学习神经网络模型进行训练，且损失函数的公式如下：l＝λ1l
loc
+λ2l
pospos
其中，l表示损失函数值，l
loc
表示相机位置损失值，l
loc
表示相机姿态损失值，x,y,z分别表示相机位置坐标的真值，x,y,z分别表示相机位置坐标的预测值，d
x
,d
y
,d
z
表示相机为生成场景图像时绕三个坐标轴的旋转角度真值，用于表示三个相机姿态，d
x
',d
y
',d
z
'表示三个相机姿态的预测值，λ1,λ2依次表示相机位置损失和姿态损失的权重，且0.5＜λ1＜1.0、3＜λ2＜7；根据损失函数值，使用反向传播计算深度学习神经网络模型的参数梯度大小，并利用梯度更新深度学习神经网络模型或预训练深度学习神经网络模型的参数值，直到损失函数收敛或达到训练次数时停止训练，得到预训练深度学习神经网络模型或最终训练好的深度学习神经网络模型，且人工采集标注真实场景数据集对预训练深度学习神经网络模型训练过程中，冻结编码器参数和解码器参数，使其在反向传播训练过程中不更新。6.如权利要求5所述的基于逆神经辐射场的视觉定位方法，其特征在于：所述对训练好的深度学习神经网络模型进行模型轻量化处理和特定的人工智能加速硬件适配，包括：将训练好的深度学习神经网络模型的参数进行量化处理，使得深度学习神经网络模型参数的数据类型从浮点型存储为整型得到第一深度学习量化参数模型；使用人工智能加速硬件配套的工具链对第一深度学习量化参数模型进行模型转换，得到适配所选定的人工智能加速硬件的第二深度学习量化参数模型。7.如权利要求6所述的基于逆神经辐射场的视觉定位方法，其特征在于：所述将适配后的深度学习神经网络模型部署至计算设备，利用相机拍摄图像输入至部署了深度学习神经网络模型的计算设备中，然后计算设备推理计算得到相机的位姿信息，包括：将第二深度学习量化参数模型加载至计算设备内存中；获取相机拍摄的图像，并将图像缩放至1024
×
1024像素大小；将缩放后的图像划分为8
×
8个网格区域得到第一输入图像；对第一输入图像选取比例为r的网格进行均匀遮挡第一输入图像得到第二输入图像；
将第一输入图像和第二输入图像输入至加载了第二深度学习量化参数模型的计算设备内，最后计算设备计算得到相机自身的位姿信息。

技术总结
本发明公开了一种基于逆神经辐射场的视觉定位方法，包括采集三维渲染数据集和人工采集标注真实场景数据集。本基于逆神经辐射场的视觉定位方法利用相机拍摄的图像作为输入，直接逆向求解相机自身位姿实现视觉定位，解决现有技术中基于图像特征点的视觉定位方法实时性差、需要图像连续，且图像具有明显的纹理特征的问题；对深度学习神经网络模型训练的过程中分为预训练和修正训练，且预训练过程中采用三维渲染数据集，获取较为简单，且得到的场景较为丰富多样，再在修正训练过程中采用人工采集标注真实场景数据集，这样既能使得深度学习神经网络模型具有多场景适应能力由能针对真实场景有更准确的效果。实场景有更准确的效果。实场景有更准确的效果。

技术研发人员：陈初杰瞿崇晓张永晋张子恒李彤李俊薇
受保护的技术使用者：中国电子科技集团公司第五十二研究所
技术研发日：2023.05.05
技术公布日：2023/8/23

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种防护式的脚轮支架的制作方法 下一篇：一种电磁与永磁隐形磁极混合励磁转子生产方法与流程

一种基于逆神经辐射场的视觉定位方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于逆神经辐射场的视觉定位方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表