一种基于移动终端的物体三维重建方法

未命名 07-23 阅读:95 评论:0


1.本发明涉及计算机视觉技术领域,尤其涉及一种基于移动终端的物体三维重建方法。


背景技术:

2.虚拟现实与增强现实技术能够在教育医疗、智能制造、交通运输等经济民生领域发挥重大作用。近年来,人们的生产生活方式得到了极大地改变,对于线上产业的需求也空前迫切,而虚拟现实与增强现实技术是线上产业的发展支柱。随着“元宇宙”概念的兴起,包括虚拟现实与增强现实在内的相关技术领域的关注度更是达到了空前的高度。
3.近年来针对物体三维重建,国内外有多篇代表性研究工作,这些算法虽然可以有效地检测二维图片中的物体并重建三维模型,但存在诸多问题:
4.(1)模型结构复杂。为实现准确的三维重建,目前算法采用的模型参数过多,无法实现移动终端设备上的部署。
5.(2)几何结构信息不足。与基于点云输入数据的三维重建算法相比,单目图片输入缺少有效的几何结构信息。
6.(3)物体三维建模不准。在由实例分割结果重建物体三维模型时,目前方法依赖具体的拓扑结构,无法实现任意形状的三维重建,同时为保证运算效率,重建三维模型分辨率不高。


技术实现要素:

7.本发明的实施例提供了一种基于移动终端的物体三维重建方法,以实现有效地对物体进行三维重建。
8.为了实现上述目的,本发明采取了如下技术方案。
9.一种基于移动终端的物体三维重建方法,包括:
10.将卷积神经网络与自注意力相结合,构建轻量化的主干网络,利用主干网络提取原始图片的主干特征;
11.通过解码器从所述轻量化主干网络提取的主干特征中获取实例分割结果,构建多任务解码器模块;
12.采用占有函数的形式构建三维重建模块,利用所述轻量化主干网络、多任务解码器和三维重建模块组成三维重建模型,利用所述实例分割结果和损失函数对所述三维重建模型进行训练,得到训练好的三维重建模型;
13.获取移动终端设备采集的单目图像,将所述单目图像输入到训练好的三维重建模型,三维重建模型输出根据所述单目图像重建的三维物体。
14.优选地,所述的将卷积神经网络与自注意力相结合,构建轻量化的主干网络,利用主干网络提取原始图片的主干特征,包括:
15.将卷积神经网络与自注意力相结合,以浅层采用卷积、深层采用注意力机制的设
计原则,构建轻量化的主干网络,所述主干网络由嵌入操作和元注意力模块组成;
16.所述主干网络的计算公式如下:
[0017][0018]
其中χ0是输入图像,为网络输出,b为批量大小,h与w为图像的尺寸,m是网络深度;
[0019]
元注意力模块mb由未指定的token混合器和一个mlp多程感知机模块组成:
[0020]
χ
i+1
=mbi(χi)=mlp(tokenmixer(χi))
[0021]
其中
χi|i>0
是转发到第i个元模块的中间特征,主干网络由一个4维元模块分区与一个3维分区组成,其中4维元模块中的算子以卷积操作实现,3维元模块中的线性投影和注意力在3维张量上执行;
[0022]
通过所述主干网络从原始图片中提取主干特征。
[0023]
优选地,所述的通过解码器从所述轻量化主干网络提取的主干特征中获取实例分割结果,构建多任务解码器模块,包括:
[0024]
通过像素解码器从所述轻量化主干网络获取的主干特征中获取外观特征,通过深度解码器从所述轻量化主干网络获取的主干特征中获取几何结构特征,对所述外观特征和所述几何结构特征添加相应的位置编码信息;
[0025]
构建基于特征融合的实例分割解码器,该实例分割解码器包含深度注意力模块,自注意力模块,掩码注意力模块以及前向传播网络,将外观特征、结构特征、查询特征和位置掩码输入到所述实例分割解码器,通过位置掩码表示分割目标,结合掩码注意力机制,实现实例分割、语意分割的分割任务;
[0026]
利用所述像素解码器、深度解码器和基于特征融合的实例分割解码器构建多任务解码器模块。
[0027]
优选地,所述的采用占有函数的形式构建三维重建模块,包括:
[0028]
采用占有函数的形式构建三维重建模型,该三维重建模型以多任务解码器模块得到的实例分割特征作为输入,通过网络预测为该三维空间中每个点位分配占有概率[0,1]即二进制占有值,表示该点是否位于物体上,所述三维重建模块的构建步骤包括:
[0029]
对于空间中的任意一点,采用占有函数的形式对物体进行建模,根据其特征预测二进制占有值以表示该点是否位于物体上;
[0030]
采用条件批次归一化层对二进制占有值进行回归预测;
[0031]
通过隐形编码器将输入特征与二进制占有值编码成物体点高斯分布的均值与方差,并采样得到隐形编码z;
[0032]
将隐形编码z与物体点的分割特征相加,经过由卷积构成的形状预测模块得到最终的二进制占有值。
[0033]
优选地,所述的利用所述轻量化主干网络、多任务解码器和三维重建模块组成三维重建模型,利用所述实例分割结果和损失函数对所述三维重建模型进行训练,得到训练好的三维重建模型,包括:
[0034]
步骤s4-1:利用所述轻量化主干网络、多任务解码器和三维重建模块组成三维重
建模型,初始化三维重建模型的参数,该参数包含深度估计模块、实例分割模块、三维重建模型中卷积层、全连接层与归一化层中的参数;
[0035]
步骤s4-2:设置三维重建模型的训练参数,采用随机梯度下降算法对三维重建模型进行训练;
[0036]
步骤s4-3:对于深度估计任务,将连续的数据离散化,将回归任务转化为分类任务,使用交叉熵损失函数计算损失值;
[0037]
对于实例分割任务,采用的损失函数表示为:
[0038]
x
l
=soft max(m
l-1
+q
lklt
)v
l
+x
l-1
[0039]
其中l是层索引号,x
l
指第l层的n个c维查询特征,q
l
=fq(x
l-1
)∈rn×c,x0表示注意力机制解码器的输入查询特征,分别是fk(
·
)和fv(
·
)函数变换下的图像特征,h
l
和w
l
是图像特征的空间分辨率,fq,fk,fv是线性变换,
[0040]
在特征位置(x,y)处的注意掩模m
l-1
为:
[0041][0042]
其中是第l-1个自注意力解码器掩模预测的二值化输出,其分辨率与k
l
相同,m0是在将查询特征输入自注意力解码器之前从x0得到的二进制掩码预测;
[0043]
对于三维重建任务,采用的损失函数表示为:
[0044][0045]
其中lce与kl分别为交叉熵损失函数与kl散度,与分别为预测与标注二进制占有值,i与j分别为物体与物体点的标号,与分别为隐形编码z的预测分布与标注分布;
[0046]
步骤s4-4:将多个目标函数值相加得到总目标函数值,分别对三维重建模型中的所有参数求偏导数,通过随机梯度下降法对参数进行更新;
[0047]
步骤s4-5:重复进行步骤s4-3与步骤4-4,不断更新模型参数,直至三维重建模型收敛,最后输出训练好的三维重建模型的参数。
[0048]
优选地,所述的获取移动终端设备采集的单目图像,将所述单目图像输入到训练好的三维重建模型,三维重建模型输出根据所述单目图像重建的三维物体,包括:
[0049]
将训练好的三维重建模型部署在移动终端,获取移动终端采集的单目图像,将所述单目图像输入到训练好的三维重建模型,三维重建模型利用轻量化主干网络提取所述单目图像的主干特征,利用多任务解码器模块从所述主干特征中得到实例分割特征,将实例分割特征输入到三维重建模块,三维重建模块重建出所述单目图像对应的三维物体,三维重建模型输出重建的三维物体。
[0050]
由上述本发明的实施例提供的技术方案可以看出,本发明提出了轻量化主干网络、基于特征融合的实例分割以及三维模型表示方法,实现了对特征做出快速且有效的提取、外观特征与几何结构特征有效融合以及高分辨率三维模型的准确表示,使得本发明在三维重建应用中能够在保证高准确率三维重建的同时还拥有极高的运算效率。
[0051]
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0052]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0053]
图1为本发明实施例提供的一种基于移动终端的物体三维重建方法的处理流程图。
[0054]
图2为本发明实施例提供的轻量化主干网络结构图。
[0055]
图3为本发明实施例提供的多任务解码器结构图。
[0056]
图4为本发明实施例提供的三维重建模型结构图。
[0057]
图5为本发明实施例提供的三维重建模型的训练流程图。
[0058]
图6为本发明实施例提供的三维重建模型的整体结构图。
具体实施方式
[0059]
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0060]
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
[0061]
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0062]
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
[0063]
本发明提出了一种网络模型简单、高效率、高分辨率的三维重建模型,该模型以移动终端设备采集的彩色图片作为输入,由轻量化主干网络快速提取主干特征,该主干特征进一步经过深度估计模块并得到结构特征,随后与主干特征融合,并经过实例分割解码器得到室内像素级物体的特征,最后由该特征重建物体的三维模型。
[0064]
本发明实施例提供的一种基于移动终端的物体三维重建方法的处理流程如图1所示,包含以下处理步骤:
[0065]
步骤s1:将卷积神经网络与自注意力相结合,构建轻量化的主干网络,利用轻量化主干网络提取原始图片的主干特征。
[0066]
将卷积神经网络与自注意力相结合,以浅层采用卷积、深层采用注意力机制的设
计原则,构建轻量化的主干网络,对特征做出快速且有效的提取。
[0067]
为保证移动终端设备能够快速重建三维物体,本发明以一种维度一致的自注意力结构作为设计范式,通过延迟驱动的网络瘦身方法构建轻量化的主干网络,并能够将主干网络部署在手机终端,以更简单的模型实现更好的效果。
[0068]
本发明实施例提供的一种主干网络的具体结构如图2所示。该主干网络由嵌入操作和元注意力模块组成:
[0069]
所述主干网络的计算公式如下:
[0070][0071]
其中χ0是输入图像为网络输出,b为批量大小,h与w为图像的尺寸,m是网络深度。元注意力模块mb由未指定的token混合器和一个mlp(multilayer perceptron,多程感知机)模块组成:
[0072]
χ
i+1
=mbi(χi)=mlp(tokenmixer(χi)),
[0073]
其中χ
i|i>0
是转发到第i个元模块的中间特征。阶段stage定义为处理具有相同空间大小的特征的几个元模块的堆栈,图2中的n1×
表示s1具有n1个元模块。网络由一个4维元模块分区与一个3维分区组成,其中4维元模块中的算子以卷积操作实现,3维元模块中的线性投影和注意力在3维张量上执行,以利用注意力机制的全局建模能力,进而无需牺牲效率。网络前段为4维分区,用于提取局部特征,后段为3维分区,用于在保证效率的前提下提取全局特征。
[0074]
通过轻量化主干网络快速且有效地从原始图片中提取主干特征,该主干特征将作为后续模块的输入。
[0075]
步骤s2:利用多任务解码器从上述轻量化主干网络提取的主干特征中获取实例分割结果。
[0076]
本发明实施例提供的一种多任务解码器结构如图3所示。本发明采用三个解码器,从主干特征获取实例分割结果。三个解码器分别为像素解码器,深度解码器,基于特征融合的实例分割解码器,其中基于特征融合的实例分割解码器又包含深度注意力模块、自注意力模块、掩码注意力模块以及前向传播网络四个部分。
[0077]
步骤s2-1:像素解码器从上述轻量化主干网络获取的主干特征中获取高分辨率的外观特征。
[0078]
步骤s2-2:深度解码器从上述轻量化主干网络获取的主干特征中获取高分辨率的几何结构特征。
[0079]
步骤s2-3:对外观特征和几何结构特征添加相应的位置编码信息。其中外观特征的位置编码为可学习的一维向量,几何结构特征的编码信息,首先将连续的深度值转换为离散标签,并通过深度估计网络获取每个深度离散标签对应的特征编码,然后将深度特征图中不同位置对应的深度标签的特征编码作为初始位置编码,最后对初始位置编码进行卷积操作即可获得结构特征的位置编码。
[0080]
步骤s2-4:构建基于特征融合的实例分割解码器,其中包含深度注意力模块,自注意力模块,掩码注意力模块以及前向传播网络四个部分,其以外观特征、结构特征、查询特
征以及位置掩码为输入,通过位置掩码表示分割目标,结合掩码注意力机制,可实现实例分割、语意分割等多种形式的分割任务。在具体实现时,可叠加多个特征融合解码器,不同的解码器以不同分辨率的特征作为输入以获得最终分割结果。
[0081]
多任务解码器模块由以上所述像素解码器、深度解码器和基于特征融合的实例分割解码器组成。
[0082]
多任务解码模块从轻量化主干网络生成的主干特征中获取实例分割结果。该实例分割结果将作为之后的三维重建模块的输入,三维重建模块依据实例分割结果进行三维重建。
[0083]
步骤s3:采用占有函数的形式构建三维重建模块。
[0084]
在得到物体实例分割结果之后,可通过物体点的实例分割特征,经过三维重建模型得到最终的三维重建结果。本发明拟采用的三维重建模型如图4所示,为准确表示三维物体,本发明采用占有函数的形式构建三维重建模型。三维重建模型以多任务解码器模块得到的实例分割特征作为输入,通过网络预测为该三维空间中每个点位分配占有概率[0,1]即二进制占有值,表示该点是否位于物体上。
[0085]
三维重建模块的构建步骤包括:
[0086]
步骤s3-1:对于空间中的任意一点,采用占有函数的形式对物体进行建模,根据其特征预测二进制占有值以表示该点是否位于物体上。
[0087]
步骤s3-2:采用条件批次归一化层对二进制占有值进行回归预测。
[0088]
步骤s3-3:通过隐形编码器,将输入特征与二进制占有值编码成物体点高斯分布的均值与方差,并采样得到隐形编码z。
[0089]
步骤s3-4:隐形编码z与物体点的分割特征相加,经过由卷积构成的形状预测模块即可得到最终的二进制占有值。在模型训练时,如图4中的输入二进制占有值为标注数据,用于得到以及隐形编码z。在模型测试时,隐形编码z设为0。
[0090]
步骤s4:利用上述轻量化主干网络、多任务解码器和三维重建模块组成三维重建模型,对三维重建模型进行训练。
[0091]
利用随机梯度下降算法计算多任务损失函数,对三维重建模型中的参数进行更新直至收敛。本发明设计的三维重建模型可进行端到端的训练,模型涉及三个子任务,分别是深度估计、实例分割和三维重建。三维重建模型的训练流程如图5所示。
[0092]
步骤s4-1:初始化模型参数,具体包含深度估计模块、实例分割模块、三维重建模型中卷积层、全连接层与归一化层中的参数。
[0093]
步骤s4-2:设置训练参数。本三维重建模型采用随机梯度下降算法进行训练,在训练前需设置相关训练参数,包括学习率、冲量、批量大小与迭代次数。
[0094]
步骤s4-3:计算目标函数值。本模型训练时共计算三种目标函数值:
[0095]
(1)对于深度估计任务,本发明将连续的数据离散化,将回归任务转化为分类任务,因此可以使用交叉熵损失函数;
[0096]
(2)对于实例分割任务,本发明采用的损失函数可表示为:
[0097]
x
l
=soft max(m
l-1
+q
lklt
)v
l
+x
l-1

[0098]
其中l是层索引号,x
l
指第l层的n个c维查询特征,q
l
=fq(x
l-1
)∈rn×c。x0表示注意力机制解码器的输入查询特征。分别是fk(
·
)和fv(
·
)函数变换下的图像特
征,h
l
和w
l
是图像特征的空间分辨率,fq,fk,fv是线性变换。此外,在特征位置(x,y)处的注意掩模m
l-1
为:
[0099][0100]
其中是第l-1个自注意力解码器掩模预测的二值化输出(阈值为0.5),其分辨率与k
l
相同,m0是在将查询特征输入自注意力解码器之前从x0得到的二进制掩码预测。
[0101]
(3)对于三维重建任务,本发明采用损失函数可表示为:
[0102][0103]
其中lce与kl分别为交叉熵损失函数与kl散度,与分别为预测与标注二进制占有值,i与j分别为物体与物体点的标号,与分别为隐形编码z的预测分布与标注分布。本发明模型训练时的损失函数为以上全部损失函数的线性组合。
[0104]
步骤s4-4:将多个目标函数值相加得到总目标函数值,并分别对模型中的所有参数求偏导数,然后通过随机梯度下降法对参数进行更新。
[0105]
步骤s4-5:重复进行步骤s4-3与步骤4-4,不断更新模型参数,直至模型收敛,最后输出训练好的三维重建模型的参数。
[0106]
至此,已得到本发明实施例中三维重建模型的全部参数,最后只需对用户提供的单目图片中的物体进行重建即可。
[0107]
步骤s5:将训练好的三维重建模型部署在移动终端,获取移动终端采集的单目图像,将单目图像输入到训练好的三维重建模型,三维重建模型输出根据上述单目图像重建的三维物体。
[0108]
三维重建模型结构如图6所示,该模型以移动终端设备采集的单目图片作为输入,由轻量化主干网络快速提取主干特征,多任务解码器模块从主干特征中得到实例分割特征,将实例分割特征输入到三维重建模块,三维重建模块重建出所述单目图像对应的三维物体,三维重建模型输出重建的三维物体。
[0109]
综上所述,本发明实施例提出了轻量化主干网络、基于特征融合的实例分割以及三维模型表示方法,实现了对特征做出快速且有效的提取、外观特征与几何结构特征有效融合以及高分辨率三维模型的准确表示,使得本发明在三维重建应用中能够在保证高准确率三维重建的同时还拥有极高的运算效率,本发明有助于开发虚拟现实与增强现实相关应用产品,具有极高的应用价值。
[0110]
本发明主干网络以浅层采用卷积、深层采用注意力机制的设计原则,构建轻量化的主干网络,对特征做出快速且有效的提取。
[0111]
场景深度信息包含的结构特征有助于提升实例分割以及三维重建的效果,为此本发明设计了基于特征融合的实例分割解码器。
[0112]
三维模型的有效表示直接影响最终重建的效果,目前的三维模型表示方法大多基于离散数据,同时重建的复杂度随着分辨率的提升而显著增大。本发明将研究快速连续的三维模型表示方法,重建物体高分辨率的三维模型。
[0113]
本发明实施例创新性的提出了轻量化主干网络、基于特征融合的实例分割以及三
维模型表示方法,实现了对特征做出快速且有效的提取、外观特征与几何结构特征有效融合以及高分辨率三维模型的准确表示,使得本发明在三维重建应用中能够在保证高准确率三维重建的同时还拥有极高的运算效率。
[0114]
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
[0115]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0116]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0117]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

技术特征:
1.一种基于移动终端的物体三维重建方法,其特征在于,包括:将卷积神经网络与自注意力相结合,构建轻量化的主干网络,利用主干网络提取原始图片的主干特征;通过解码器从所述轻量化主干网络提取的主干特征中获取实例分割结果,构建多任务解码器模块;采用占有函数的形式构建三维重建模块,利用所述轻量化主干网络、多任务解码器和三维重建模块组成三维重建模型,利用所述实例分割结果和损失函数对所述三维重建模型进行训练,得到训练好的三维重建模型;获取移动终端设备采集的单目图像,将所述单目图像输入到训练好的三维重建模型,三维重建模型输出根据所述单目图像重建的三维物体。2.根据权利要求1所述的方法,其特征在于,所述的将卷积神经网络与自注意力相结合,构建轻量化的主干网络,利用主干网络提取原始图片的主干特征,包括:将卷积神经网络与自注意力相结合,以浅层采用卷积、深层采用注意力机制的设计原则,构建轻量化的主干网络,所述主干网络由嵌入操作和元注意力模块组成;所述主干网络的计算公式如下:其中χ0是输入图像,为网络输出,b为批量大小,h与w为图像的尺寸,m是网络深度;元注意力模块mb由未指定的token混合器和一个mlp多程感知机模块组成:χ
i+1
=mb
i

i
)=mlp(tokenmixer(χ
i
))其中
χi|i>0
是转发到第i个元模块的中间特征,主干网络由一个4维元模块分区与一个3维分区组成,其中4维元模块中的算子以卷积操作实现,3维元模块中的线性投影和注意力在3维张量上执行;通过所述主干网络从原始图片中提取主干特征。3.根据权利要求1或者2所述的方法,其特征在于,所述的通过解码器从所述轻量化主干网络提取的主干特征中获取实例分割结果,构建多任务解码器模块,包括:通过像素解码器从所述轻量化主干网络获取的主干特征中获取外观特征,通过深度解码器从所述轻量化主干网络获取的主干特征中获取几何结构特征,对所述外观特征和所述几何结构特征添加相应的位置编码信息;构建基于特征融合的实例分割解码器,该实例分割解码器包含深度注意力模块,自注意力模块,掩码注意力模块以及前向传播网络,将外观特征、结构特征、查询特征和位置掩码输入到所述实例分割解码器,通过位置掩码表示分割目标,结合掩码注意力机制,实现实例分割、语意分割的分割任务;利用所述像素解码器、深度解码器和基于特征融合的实例分割解码器构建多任务解码器模块。4.根据权利要求3所述的方法,其特征在于,所述的采用占有函数的形式构建三维重建模块,包括:采用占有函数的形式构建三维重建模型,该三维重建模型以多任务解码器模块得到的
实例分割特征作为输入,通过网络预测为该三维空间中每个点位分配占有概率[0,1]即二进制占有值,表示该点是否位于物体上,所述三维重建模块的构建步骤包括:对于空间中的任意一点,采用占有函数的形式对物体进行建模,根据其特征预测二进制占有值以表示该点是否位于物体上;采用条件批次归一化层对二进制占有值进行回归预测;通过隐形编码器将输入特征与二进制占有值编码成物体点高斯分布的均值与方差,并采样得到隐形编码z;将隐形编码z与物体点的分割特征相加,经过由卷积构成的形状预测模块得到最终的二进制占有值。5.根据权利要求4所述的方法,其特征在于,所述的利用所述轻量化主干网络、多任务解码器和三维重建模块组成三维重建模型,利用所述实例分割结果和损失函数对所述三维重建模型进行训练,得到训练好的三维重建模型,包括:步骤s4-1:利用所述轻量化主干网络、多任务解码器和三维重建模块组成三维重建模型,初始化三维重建模型的参数,该参数包含深度估计模块、实例分割模块、三维重建模型中卷积层、全连接层与归一化层中的参数;步骤s4-2:设置三维重建模型的训练参数,采用随机梯度下降算法对三维重建模型进行训练;步骤s4-3:对于深度估计任务,将连续的数据离散化,将回归任务转化为分类任务,使用交叉熵损失函数计算损失值;对于实例分割任务,采用的损失函数表示为:x
l
=softmax(m
l-1
+q
l
k
lt
)v
l
+x
l-1
其中l是层索引号,x
l
指第l层的n个c维查询特征,q
l
=f
q
(x
l-1
)∈r
n
×
c
,x0表示注意力机制解码器的输入查询特征,分别是f
k
(
·
)和fv(
·
)函数变换下的图像特征,h
l
和w
l
是图像特征的空间分辨率,f
q
,f
k
,fv是线性变换,在特征位置(x,y)处的注意掩模m
l-1
为:其中是第l-1个自注意力解码器掩模预测的二值化输出,其分辨率与k
l
相同,m0是在将查询特征输入自注意力解码器之前从x0得到的二进制掩码预测;对于三维重建任务,采用的损失函数表示为:其中lce与kl分别为交叉熵损失函数与kl散度,与分别为预测与标注二进制占有值,i与j分别为物体与物体点的标号,与分别为隐形编码z的预测分布与标注分布;步骤s4-4:将多个目标函数值相加得到总目标函数值,分别对三维重建模型中的所有参数求偏导数,通过随机梯度下降法对参数进行更新;步骤s4-5:重复进行步骤s4-3与步骤4-4,不断更新模型参数,直至三维重建模型收敛,最后输出训练好的三维重建模型的参数。
6.根据权利要求3所述的方法,其特征在于,所述的获取移动终端设备采集的单目图像,将所述单目图像输入到训练好的三维重建模型,三维重建模型输出根据所述单目图像重建的三维物体,包括:将训练好的三维重建模型部署在移动终端,获取移动终端采集的单目图像,将所述单目图像输入到训练好的三维重建模型,三维重建模型利用轻量化主干网络提取所述单目图像的主干特征,利用多任务解码器模块从所述主干特征中得到实例分割特征,将实例分割特征输入到三维重建模块,三维重建模块重建出所述单目图像对应的三维物体,三维重建模型输出重建的三维物体。

技术总结
本发明提供了一种基于移动终端的物体三维重建方法。该方法包括:利用轻量化的主干网络提取原始图片的主干特征;通过解码器从主干特征中获取实例分割结果,构建多任务解码器模块;采用占有函数的形式构建三维重建模块,利用轻量化主干网络、多任务解码器和三维重建模块组成三维重建模型;获取移动终端设备采集的单目图像,将单目图像输入到训练好的三维重建模型,三维重建模型输出根据单目图像重建的三维物体。本发明提出了轻量化主干网络、基于特征融合的实例分割以及三维模型表示方法,实现了对特征快速且有效的提取、外观特征与几何结构特征有效融合以及高分辨率三维模型的准确表示,能够在保证高准确率三维重建的同时还拥有极高的运算效率。有极高的运算效率。有极高的运算效率。


技术研发人员:曹原周汉 侯志明 李浥东 陈乃月 张慧
受保护的技术使用者:北京交通大学
技术研发日:2023.04.28
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐