一种基于神经辐射场的可扩展增量式视觉建图方法

未命名 07-20 阅读:265 评论:0


1.本发明属于机器人视觉建图领域,特别是一种基于神经辐射场的可扩展增量式视觉建图方法。


背景技术:

2.建图作为机器人同时定位与建图(slam)领域重要的一环,是机器人实现自主路径规划与任务执行的重要前提,现有方法多使用点云、体素栅格和符号距离场来离散的表征场景,尽管这些方法已经能实现实时的场景建图,但是在大型场景建图过程中很难兼顾表征质量与查询效率,这极大限制了场景稠密建图的高效性。
3.基于神经辐射场(neural implicit representation)的场景重建方法在三维重建领域取得巨大成功,通过对感知到的视觉rgb或rgbd图像的像素值进行采样,并运用体素渲染的方法隐式的训练到连续的神经网络中,从而保证了环境表征连续性,提升了表征质量。此外,相较于点云、体素网格和符号距离场等表征方式离散化存储方式,神经网络的网络参数存储占用更少,并且空间位置查询与读取的速度更快,数据访问效率更高。
4.中国专利公开号cnl12613609a公开了一种基于联合位姿优化的神经辐射场增强方法,通过利用神经辐射场新视角生成渲染原理,同时优化辐射场和位姿,但是本质上更加侧重于新视角生成领域,无法保证神经辐射场表征的几何完整性;中国专利公开号cn114004941a公开了一种基于神经辐射场的室内场景三维重建系统及方法,但该方法采用云-边-端协同的方式将整个室内场景隐式的训练到单一神经辐射场内,纵使减少了对端设备计算需求量,但是在云端计算复杂度和空间复杂度很高,训练速度缓慢,但是依旧无法适用于机器人在未知环境下的实时性需求;中国专利公开号cn113706714a公开了一种基于深度图像和神经辐射场的新视角合成方法,利用深度图生成目标对象的三维点云,再将点云转为网格并生成多张图片并最后训练为神经辐射场,过程冗余,计算开销大,无法应对实时的建图需求,应用到大型场景生成下,计算时间将呈几何式增长。综上可知,目前的基于神经辐射场的方法无法实现实时的场景建图需求,同时侧重于新视角生成,忽视了神经辐射场表征的几何一致性。此外,该类方法采用单一辐射场表征整个场景,受限于单一网络的容量,无法扩展到大型场景。


技术实现要素:

5.本技术的目的在于提供一种基于神经辐射场的可扩展增量式视觉建图方法,解决当前基于神经辐射场的建图方法无法扩展到大型场景的难题。
6.本技术第一方面提供一种基于神经辐射场的可扩展增量式视觉建图方法,其技术解决方案为:
7.s1,场景动态划分与隐式神经空间块搜索:
8.在建图过程中根据从视觉里程计得到的当前帧相机位姿与图像信息将场景动态地划分到多个尺寸一致且相互之间部分重叠的正方体空间内,每个正方体空间用一个基于
多层感知机的神经网络来隐式的表征这个空间的体素密度和颜色属性,即隐式神经空间块;
9.依据当前帧相机位姿与图像深度信息生成当前帧的视锥面,并根据其有效范围搜索与当前视锥面相关的隐式神经空间块;
10.s2,逐一优化搜索到的空间块:
11.获取与当前隐式神经空间块相关的所有关键帧,根据这些关键帧在当前隐式神经空间块内的平均深度值误差大小动态挑选m个关键帧;
12.在选定的关键帧及当前帧中稀疏采样n个像素点,并将这些像素点反投影到世界坐标下生成对应的空间射线;
13.利用体素渲染的方法生成对应射线的深度值与颜色,同时获取这些射线在与前一个隐式神经空间块重叠区域内多个位置点的体素密度与颜色值,对得到的预测值数据采用分步式优化方法依次对相机的位姿、隐式神经块表征的几何与纹理特征进行迭代优化;
14.如不为最后一个空间块,回退到s2开始,执行下一个空间块优化;
15.s3,更新关键帧关系表:
16.根据信息熵和位姿变化阈值决定当前帧是否创建为关键帧并记录到相关关系表内;
17.获取下一帧信息,回退到s1。
18.可选的,所述尺寸一致且相互之间部分重叠的正方体空间,包括:
19.正方体边长在4-10米之间,任意两二维坐标一致的相邻正方体空间之间有20%-50%的重叠区域。
20.可选的,所述s1的当前帧相机位姿,包括:
21.初始当前帧相机位姿t
raw
在计算前乘以一个累计漂移误差修正项t
drift
,得到优化前相机位姿t
old
,t
old
=t
drift
t
raw

22.当s2当前帧优化完毕后该修正项将以进行更新,式中,t
new
为优化后当前帧位姿。
23.可选的,所述s1的所述依据当前帧相机位姿与图像深度信息生成当前帧视锥面,并根据其有效范围搜索经过的隐式神经空间块,包括:
24.根据当前帧位姿对当前帧图像内像素进行均匀地采样n个像素并计算出射线方向ri=t
wc
k-1
[ui,vi],i∈{1,...,n},式中t
wc
为相机位姿,k为相机图像内参,n的像素点选取量在100以内;
[0025]
对每个射线从t
near
到min{di,t
far
}均匀的采样m个位置点xj=o
wc
+tjr,j∈{1,...,m},其中di是该射线根据深度值得到的终止点,t
near
为射线下限,t
far
为射线上限,其值由当前深度相机有效范围决定,m选取量在16-32之间;
[0026]
根据当前空间块的中心位置x
cur
、空间块半边长b
cur
以及任意两个相邻空间块间中心位置间距,根据判断所有跟当前帧相关的空间块,如果不存在便创建;
[0027]
根据空间点在空间块的数量降序排序待优化顺序。
[0028]
可选的,所述s2的动态挑选m个关键帧和稀疏采样n个像素点包括:
[0029]
关键帧数量m的范围在2-5之间,像素点数量n由n=(m+1)n
pix
确定,式中,n
pix
选取量在200-400之间。
[0030]
可选的,所述s2的分布式优化方法包括:
[0031]
判断当前空间块是否为待优化序列中的第一项;
[0032]
1)如为第一项,根据体素渲染的方法输出所有终止距离在该空间块的有效射线的预测深度值颜色向量在有限的迭代次数e
all
内优化以下目标函数:
[0033]
2)如不为第一项,获取当前帧前空间块,并作为知识传授方进行知识蒸馏优化当前空间块,知识蒸馏误差表示为l
dt
,λ
dt
为对应超参数,优化目标函数为:
[0034][0035]
式中e
cur
为当前迭代优化次数,设置迭代次数不超过20,当e
cur
<e
all
/3时,固定当前空间块的神经网络参数θ,仅优化当前帧位姿,如果在当前空间块范围内的深度点的数量超过阈值td,则当前帧的姿势被优化为t
new
,lg为预测深度值与真实深度值的l1范数平均误差,l
p
为预测颜色与真实颜色的l1范数平均误差,λg和λ
p
为手动设置的超参数;当e
all
/3≤e
cur
时,固定相机位姿,仅优化当前空间块的神经网络参数θ,l
fs
为所有射线上到终止点前的所有点的平均体素密度,λ
fs
为对应的超参数。
[0036]
可选的,所述分布式优化方法内的知识蒸馏方法,包括:
[0037]
从当前选定的射线中筛选经过当前空间块与前空间块的重叠区域的射线,从重叠区域近边界max{0,t
onear
}到远边界min{d,t
ofar
}中对每条射线均匀采样16-32个空间点,分别从两个空间块中预测这些点的体素密度值,并用平均l1范数计算两者的误差。
[0038]
可选的,所述根据体素渲染的方法输出所有终止距离在该空间块的有效射线的预测深度值颜色向量包括运用以下公式:
[0039]
式中n
sample
射线上采样点数量,范围设置在16-32之间,为射线的终止概率,oi=1-exp(-σiδi)为体素占据概率,δi=||x
i+1-xi||为射线上相邻两点的空间距离。
[0040]
本技术第二个方面提供一种电子设备,包括:至少一个处理器和存储器;
[0041]
所述存储器存储计算机执行指令;
[0042]
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一个方面以及第一个方面各种可能的设计所述的方法。
[0043]
本技术第三个方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一个方面以及第一个方面各种可能的设计所述的方法。
[0044]
本技术技术方案与现有技术相比,具有以下优点:
[0045]
(1)本技术提供一种基于神经辐射场的可扩展增量式视觉建图方法,在建图过程
中依据当前帧位姿与rgbd图像信息,动态地划分场景到多个隐式神经空间块内,在保证了神经辐射场表征环境的连续性与数据结构紧凑性优点的同时,解决了在大型场景下,现有方法因单一神经辐射场容量不足,无法完整的表征整个场景的问题;
[0046]
(2)本技术采用稀疏采样方法和分布式优化策略,相较于其他基于神经辐射场的方法,不仅能够实现实时地建图刷新效率,还能够同时优化初始相机位姿,减少视觉里程计带来的累计漂移误差;
[0047]
(3)本技术采用知识蒸馏的方法优化空间块之间的关联性,避免了划分的空间块在重叠区域带来的几何不连续,从根本上保证了整个表征场景的几何一致性。
附图说明
[0048]
图1为本技术实施例提供的一种基于神经辐射场的可扩展增量式视觉建图方法的流程示意图。
[0049]
图2为多隐式神经空间块下射线采样示意图。
具体实施方式
[0050]
参见图1,本技术实施例提供的一种基于神经辐射场的可扩展增量式视觉建图方法,是在隐式建图过程中根据从视觉里程计得到的位姿将场景增量式的划分为多个尺寸一致的且相互重叠正方体空间内,每个正方体空间用一个神经网络来隐式的表征这个空间的多维数据,本技术将基于多层感知机的神经网络表征的正方体空间称之为隐式神经空间块。并在当前帧优化过程中,选取与当前空间块相关的关键帧,逐一优化每个相关隐式神经空间块。最终避免用容量有限的单一神经网络表征整个场景带来的参数遗忘问题。包括步骤101-步骤112。
[0051]
程序开始执行后,首先执行步骤101,等待获取当前帧rgbd图像数据与对应的图像位姿数据,每个位姿数据都会乘以一个累计漂移误差修正项t
drift

[0052]
步骤102,隐式神经空间块查询与创建。程序根据当前帧位姿对当前帧图像内像素进行均匀地采样n个像素并计算出射线方向ri=t
wc
k-1
[ui,vi],i∈{1,...,n},式中t
wc
为相机位姿,k为相机图像内参。然后对每个射线从t
near
到min{di,t
far
}均匀的采样m个位置点xj=o
wc
+tjr,j∈{1,...,m},其中di是该射线的根据深度值得到的终止点。然后根据当前空间块的中心位置x
cur
、半边长b
cur
以及任意2个空间块间中心位置间距,我们根据判断所有跟当前帧相关的空间块,如果不存在便创建。最后根据空间点在空间块的数量降序排序待优化顺序,并进行下一步骤。
[0053]
步骤103,空间块选择。根据待优化顺序选择准备优化的空间块。
[0054]
步骤104,关键帧检索。从关键帧库112里查询跟当前控件块相关的关键帧并根据这些关键帧的归一化误差损失概率来带权重随机抽选n
frame-1帧关键帧与其位姿。
[0055]
步骤105,射线采样。如图2所示,在这些关键帧内随机采样共n
pix
个像素点并根据其位姿反投影出在世界坐标系下的射线。每条射线均匀采样m
sp
=m
strat
+m
imp
射线点,其中m
strat
是在射线上均匀采样的射线点数量,m
surf
是在深度值附近采样的射线点数量,并根据xj=o+tjr,j∈{1,...,m
sp
}得到所有点在世界坐标系下的坐标。
[0056]
步骤106,空间块优化。判断当前空间块是否为待优化序列中的第一项:
[0057]
(1)如为第一项,根据体素渲染的方法输出所有终止距离在该空间块的有效射线的预测深度值颜色向量颜色向量式中n
sample
射线上采样点数量,为射线的终止概率,oi=1-exp(-σiδi)为体素占据概率,δi=||x
i+1-xi||为射线上相邻两点的空间距离,在有限的迭代次数e
all
内优化以下目标函数:
[0058]
(2)如不为第一项,获取当前帧前空间块109,并作为知识传授方进行步骤107知识蒸馏优化当前空间块。从当前选定的射线中选取n
ol
条经过从当前空间块与前空间块109的重叠区域射线,并重新从重叠区域近边界max{0,t
onear
}到远边界min{d,t
ofar
}中对每条射线均匀采样m
sp
空间点,并预测出2个空间块在这些点的体素密度值,并用平均l1范数计算两者的误差,该误差表示为l
dt
,λ
dt
为对应超参数,优化目标函数为:
[0059][0060]
式中e
cur
为当前迭代优化次数,当e
cur
<e
all
/3时,固定当前空间块的神经网络参数θ,仅优化当前帧位姿,如果在当前空间块范围内的深度点的数量超过阈值td,则当前帧的姿势被优化为t
new
。lg为预测深度值与真实深度值的l1范数平均误差,l
p
为预测颜色与真实颜色的l1范数平均误差,λg和λ
p
为手动设置的超参数;当e
all
/3≤e
cur
时,固定相机位姿,仅优化当前空间块的神经网络参数θ。l
fs
为到所有射线上到终止点前的所有点的平均体素密度值,λg为对应的超参数值。
[0061]
步骤108,关键帧检测。在优化结束后执行110判断当前帧的信息熵以及位姿变换的角度和距离是否超过设置阈值,如果超过,执行步骤111,添加关键帧到关键帧库112中。
[0062]
步骤108执行完毕,将前空间块109保存为当前优化空间块,同时判断当前优化空间块是否为当前帧最后一个空间块:
[0063]
(1)是最后一个空间块,本实施例跳转回101步骤(rgbd图像与位姿输入),继续执行对下一帧的优化;
[0064]
(2)不是最后一个空间块,本实施例跳转回103步骤(空间块选择),继续执行对当前帧下一个待优化空间块的操作。
[0065]
本技术实施例在人为终止或101步骤(rgbd图像与位姿输入)无后续输入值时结束运行。
[0066]
本技术实施例还提供一种终端装置,包括:至少一个处理器和存储器;所述存储
[0067]
器,用于存储程序指令;所述处理器,用于调用并执行所述存储器中存储的程序指令,以使所述终端装置执行如前述实施例提供的基于神经辐射场的可扩展增量式视觉建图方法。
[0068]
本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得所述计算机执行如前述实施例提供的基于神经辐射场的可扩展增量式视觉建图方法。
[0069]
以上实施例仅用以说明本技术的技术方案,而非对进行其限制,本领域的普通技术人员应当理解,依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的范畴。

技术特征:
1.一种基于神经辐射场的可扩展增量式视觉建图方法,其特征在于,包括:s1,场景动态划分与隐式神经空间块搜索:在建图过程中根据从视觉里程计得到的当前帧相机位姿与图像信息将场景动态地划分到多个尺寸一致且相互之间部分重叠的正方体空间内,每个正方体空间用一个基于多层感知机的神经网络来隐式的表征这个空间的体素密度和颜色属性,即隐式神经空间块;依据当前帧相机位姿与图像深度信息生成当前帧视锥面,并根据其有效范围搜索与当前视锥面相关的隐式神经空间块;s2,逐一优化搜索到的空间块:获取与当前隐式神经空间块相关的所有关键帧,根据这些关键帧在当前隐式神经空间块内的平均深度值误差大小动态挑选m个关键帧;在选定的关键帧及当前帧中稀疏采样n个像素点,并将这些像素点反投影到世界坐标下生成对应的空间射线;利用体素渲染的方法生成对应射线的深度值与颜色,同时获取这些射线在与前一个隐式神经空间块重叠区域内多个位置点的体素密度与颜色值,对得到的预测值数据采用分步式优化方法依次对相机的位姿、隐式神经块表征的几何与纹理特征进行迭代优化;如不为最后一个空间块,回退到s2开始,执行下一个空间块优化;s3,更新关键帧关系表:根据信息熵和位姿变化阈值决定当前帧是否创建为关键帧并记录到相关关系表内;获取下一帧信息,回退到s1。2.根据权利要求1所述的基于神经辐射场的可扩展增量式视觉建图方法,其特征在于,所述尺寸一致且相互之间部分重叠的正方体空间,包括:正方体边长在4-10米之间,任意两二维坐标一致的相邻正方体空间之间有20%-50%的重叠区域。3.根据权利要求1所述的基于神经辐射场的可扩展增量式视觉建图方法,其特征在于,所述s1的当前帧相机位姿,包括:初始当前帧相机位姿t
raw
在计算前乘以一个累计漂移误差修正项t
drift
,得到优化前相机位姿t
old
,t
old
=t
drift
t
raw
;当s2当前帧优化完毕后该修正项将以进行更新,式中,t
new
为优化后当前帧位姿。4.根据权利要求1所述的基于神经辐射场的可扩展增量式视觉建图方法,其特征在于,所述s1的所述依据当前帧相机位姿与图像深度信息生成当前帧视锥面,并根据其有效范围搜索经过的隐式神经空间块,包括:根据当前帧位姿对当前帧图像内像素进行均匀地采样n个像素并计算出射线方向r
i
=t
wc
k-1
[u
i
,v
i
],i∈{1,...,n},式中t
wc
为相机位姿,k为相机图像内参,n的像素点选取量在100以内;对每个射线从t
near
到min{d
i
,t
far
}均匀的采样m个位置点x
j
=o
wc
+t
j
r,j∈{1,...,m},其中d
i
是该射线根据深度值得到的终止点,t
near
为射线下限,t
far
为射线上限,其值由当前深度相机有效范围决定,m选取量在16-32之间;根据当前空间块的中心位置x
cur
、空间块半边长b
cur
以及任意两个相邻空间块间中心位
置间距,根据判断所有跟当前帧相关的空间块,如果不存在便创建;根据空间点在空间块的数量降序排序待优化顺序。5.根据权利要求1所述的基于神经辐射场的可扩展增量式视觉建图方法,其特征在于,所述s2的动态挑选m个关键帧和稀疏采样n个像素点,包括:关键帧数量m的范围在2-5之间,像素点数量由n=(m+1)n
pix
确定,式中,n
pix
选取量在200-400之间。6.根据权利要求1所述的基于神经辐射场的可扩展增量式视觉建图方法,其特征在于,所述s2的分布式优化方法,包括:判断当前空间块是否为待优化序列中的第一项:1)如为第一项,根据体素渲染的方法输出所有终止距离在该空间块的有效射线的预测深度值颜色向量在有限的迭代次数e
all
内优化以下目标函数:2)如不为第一项,获取当前帧前空间块,并作为知识传授方进行知识蒸馏优化当前空间块,知识蒸馏误差表示为l
dt
,λ
dt
为对应超参数,优化目标函数为:式中e
cur
为当前迭代优化次数,设置迭代次数不超过20,当e
cur
<e
all
/3时,固定当前空间块的神经网络参数θ,仅优化当前帧位姿,如果在当前空间块范围内的深度点的数量超过阈值t
d
,则当前帧的姿势被优化为t
new
,l
g
为预测深度值与真实深度值的l1范数平均误差,l
p
为预测颜色与真实颜色的l1范数平均误差,λ
g
和λ
p
为手动设置的超参数;当e
all
/3≤e
cur
时,固定相机位姿,仅优化当前空间块的神经网络参数θ,l
fs
为所有射线上到终止点前的所有点的平均体素密度,λ
fs
为对应的超参数。7.根据权利要求5所述的分布式优化方法,其特征在于,所述的知识蒸馏方法,包括:从当前选定的射线中筛选经过当前空间块与前空间块的重叠区域的射线,从重叠区域近边界max{0,t
onear
}到远边界min{d,t
ofar
}中对每条射线均匀采样16-32个空间点,分别从两个空间块中预测这些点的体素密度值,并用平均l1范数计算两者的误差。8.根据权利要求5所述的分布式优化方法,其特征在于,所述根据体素渲染的方法输出所有终止距离在该空间块的有效射线的预测深度值颜色向量包括运用以下公式:式中n
sample
射线上采样点数量,范围设置在16-32之间,为射线的终止概率,o
i
=1-exp(-σ
i
δ
i
)为体素占据概率,δ
i
=||x
i+1-x
i
||为射线上相邻两点的空间距离。9.一种电子设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-7所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-7所述的方法。

技术总结
本申请提供一种基于神经辐射场的可扩展增量式视觉建图方法。所述方法通过在建图过程中根据当前帧相机位姿与图像深度信息动态地将场景划分为多个相互之间部分重叠的正方体空间,且每个正方体空间用一个神经网络来隐式地表征环境几何与纹理属性;在对相关正方体空间逐一优化的过程中,选取与当前空间块相关的关键帧,稀疏地采样各图像帧信息,并在该信息基础上运用分布式优化方法同时优化相关隐式神经空间块和当前帧位姿。本申请提供的方法能够在大型未知环境下实现基于神经辐射场的连续化重建与轻量化表征,解决了现有相关方法在大型场景下建图可扩展性差的难题。大型场景下建图可扩展性差的难题。大型场景下建图可扩展性差的难题。


技术研发人员:王禹林 向倍辰 谢中取 孙宇昕 吕梓逢
受保护的技术使用者:南京理工大学
技术研发日:2023.04.21
技术公布日:2023/7/18
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐