基于LightSelf-Limited-Attention的混合网络结构光深度估计方法

未命名 07-16 阅读:117 评论:0

基于light self-limited-attention的混合网络结构光深度估计方法
技术领域
1.本发明属于计算机三维视觉技术领域,具体为一种基于light self-limited-attention的混合网络结构光深度估计方法。


背景技术:

2.物体的三维重建是计算机视觉中最重要和最具挑战性的问题之一。结构光三维测量技术是光学三维测量的重要方式,具有速度快和精度高等优点,在机器人引导、虚拟现实、人机交互、文物保护、机器人视觉、生物医学等领域有相当广阔的应用前景。其中,从结构光图像估计物体的深度信息是结构光三维测量技术的重要环节。
3.仅通过传统方式进行三维重建消耗的时间较长,对轮廓陡变、不连续以及物体细节丰富的物体难以实现高精度、高分辨率的相位测量,结果不够鲁棒。深度学习通过学习一种深层非线性网络结构,只需要简单的网络结构就可以实现复杂函数的逼近,在机器视觉、语音识别、自然语言处理与生物信息学等领域都获得了极好的效果。近年来,在结构光三维重建领域中也出现了基于深度学习的方法。g.e.spoorthi等人以大量仿真相位图证明深度学习网络可以克服传统展开算法中像素分类的不稳定性,feng等人通过实验证明深度神经网络可以显著提高从单个条纹图案进行相位解调的精度,具体来说,通过卷积网络预测中间结果,最终得到高精度相位图。hieu nguyen等人提出了一种端到端的方法,使用全卷积网络由条纹图得到深度图。其中,大部分方法都基于卷积网络,不利于上下文信息的特征捕获,而transformer的优势是利用注意力的方式捕获全局的上下文信息对目标建立远距离依赖,提取有力的特征,这两种网络优势互补。xinjun zhu等人开发了一种混合cnn-transformer模型用于通过条纹级次预测进行相位展开,在条纹级次预测方面取得了较好的效果。为提高混合cnn-transformer模型结构光深度估计的精度,本发明提出了一种基于light self-limited-attention的混合网络结构光深度估计方法。


技术实现要素:

4.有鉴于此,本发明旨在提出一种基于light self-limited-attention的混合网络结构光深度估计方法,用于完成结构光图像的深度估计任务,并取得了较高精度的深度估计结果。
5.为达到上述目的,本发明提出了一种基于light self-limited-attention的混合网络结构光深度估计方法,包括以下步骤:
6.s1:建立u型架构作为模型的总体结构;
7.s2:输入结构光图像,对其进行局部特征提取;
8.s3:模型经过4个阶段的下采样提取特征后再经过4个阶段的上采样恢复特征图的分辨率,在同一阶段使用跳跃连接;
9.s4:建立cnn-transformer相结合的基本模块捕获局部和全局特征并应用在每个
阶段的训练中,模块包括局部感知单元、轻型自限制注意力机制和前馈网络三部分;
10.s5:模型在深度估计时融合图像的多尺度特征输出结构光图像的深度图。
11.进一步地,步骤s1所述的模型总体结构使用encoder-decoder的u型结构,建立对称的decoder,并通过跳跃连接将encoder的同尺度特征融合到decoder中。
12.进一步地,步骤s2所述的对其进行局部特征提取的操作包括步长为2的3*3卷积、归一化操作和gelu激活函数。
13.进一步地,步骤s4所述的cnn部分包括卷积和深度卷积,transformer部分包括light self-limited-attention,二者提取的图像特征根据其性质分为局部特征和全局特征。
14.进一步地,步骤s4所述的cnn-transformer基本模块由三部分组成,包括:
15.局部感知单元,用于提取局部信息,可以定义为:
16.lpu(x)=dwconv(x)+x
17.其中,lpu代表局部感知单元模块,x∈rh×w×d,h
×
w是当前阶段输入的分辨率,d表示特征的维度,dwconv表示深度卷积,可减少卷积的运算量;
18.轻型自限制注意力机制,它包括轻型自注意力机制以节省计算成本和参数数量,以及限制自注意力以提高性能。限制自注意力具有位置信息模块和限制注意力模块,位置信息模块通过调整自注意力分数的分布增强位置信息,限制注意力模块在softmax函数之后使用外部位置偏差来限制一些较大的注意力权重值。由于需要处理的是图像信息,用x(原始输入)替换限制自注意力中的k(键)和v(值),可以显著降低计算成本。内外部位置偏差和动态尺度相互配合,轻型自限制注意力机制的公式定义为:
19.attention(q,x,x)=(softmax(qxt
×
ds+bi)+b0)x
20.其中,x是输入数据,q是查询矩阵,ds表示查询块附近的块具有较大的动态尺度和内部位置偏差值,bi和b0分别是内部位置偏差和外部位置偏差;
21.前馈网络,由两个线性层组成,通过gelu激活分离,第一层将尺寸扩大4倍,第二层将尺寸缩小相同的比例。
22.进一步地,基于light self-limited-attention的混合网络结构光深度估计装置包括:
23.数据输入模块,用于对输入的结构光图像进行局部特征提取;
24.数据处理模块,用于将模型经过4个阶段的下采样后再经过4个阶段的上采样操作恢复特征图的分辨率,每个阶段都经过一个cnn-transformer相结合的基本块,同尺度的特征使用跳跃连接进行特征融合;
25.结果输出模块,将特征图恢复成输入图像大小,输出结构光图像的深度图。
26.相对于现有技术,本发明所述的基于light self-limited-attention的混合网络结构光深度估计方法具有以下优势:
27.(1)本发明结合了cnn利用卷积不断提取高级特征和transformer利用注意力方式对目标建立长距离依赖的优势,局部特征和全局特征相融合,提高结构光图像深度估计的准确性。
28.(2)本发明将cnn-transformer相结合的基本模块分四个阶段应用在u型的总体架构中,同尺度特征相融合,进一步提高结果的准确性。
29.(3)本发明在cnn-transformer相结合的基本模块中使用了轻型自限制注意力机制,包括light self-attention机制以节省计算成本和参数数量,以及self-limited-attention以提高性能。用x替换lsa自注意力中的k(key)和v(value),显著降低了self-attention的参数和计算成本,并添加了外部位置偏差限制较大的注意力权重值。内外部位置偏差和动态尺度相互配合,使transformer获得更好的性能。
附图说明
30.构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
31.图1为本发明一种基于light self-limited-attention的混合网络结构光深度估计方法的流程图;
32.图2为本发明的模型总体架构图;
33.图3为本发明的cnn-transformer基本块结构图;
34.图4为本发明输入的结构光图像;
35.图5为本发明的深度图标签;
36.图6为本发明预测出的深度图;
具体实施方式
37.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
38.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
39.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“完整”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。物体可以不完整,包含完整应是最佳实施方法。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
40.下面将参考附图并结合实施例来详细说明本发明。
41.为更好理解上述技术方案,下面将结合说明书附图以及最佳实施方式,对上述技术方案进行详细地说明。
42.本发明提出了一种基于light self-limited-attention的混合网络结构光深度估计方法,下面结合附图和具体实施方式对本发明进行更详细地描述。
43.在本实施例中,包括以下步骤:
44.步骤1:准备数据集,将数据集按8∶1∶1的比例分为训练集、验证集和测试集,其中输入图像为附图4所示的条纹图,标签图像为附图5所示的深度图。
45.步骤2:搭建附图2所示的深度学习网络模型,输入结构光图像经过3*3卷积、归一化和gelu激活函数后得到下采样特征图,得到的特征图经过附图3所示的cnn-transformer基本模块,该模块主要包括局部感知单元、轻型注意力机制和前馈网络。
46.局部感知单元主要由深度卷积和残差结构组成,此模块可以有效的提取图像的局部特征;
47.轻型自限制注意力机制,包括轻型自注意力机制以节省计算成本和参数数量,以及自限制注意力机制以提高性能。本发明使用的轻型自限制注意力机制由多头自注意力机制改进而来,多头自注意力机制的公式定义如下:
48.attention(q,k,v)=softmax(qkt)v
49.其中,q、k、v∈r
m2
×d分别是查询、关键字和值的矩阵,m2是窗口的块数,d是通道数。可以把多头自注意力机制的公式简化成:
50.attention(q,x,x)=softmax(qxt)x
51.自限制注意力机制具有位置信息模块和有限注意力模块,位置信息模块通过调整自注意力分数的分布增强位置信息,有限注意力模块在softmax函数之后使用外部位置偏差来限制一些较大的注意力权重值。内外部位置偏差和动态尺度相互配合,轻型自限制注意力机制的公式定义为:
52.attention(q,x,x)=(softmax(qxt
×
ds+bi)+b0)x
53.其中,ds表示查询块附近的块具有较大的动态尺度和内部位置偏差值,bi和b0分别是内部位置偏差和外部位置偏差;
54.利用由两个线性层组成的前馈网络进一步传播。每次下采样和上采样后都用cnn-transformer基本模块进行学习。模型总体遵从encoder-decoder的u型结构,encoder提取高层语义特征信息,decoder恢复图像的分辨率,encoder和decoder是对称关系,通过跳跃连接将encoder的同尺度特征融合到decoder中。
55.步骤3:使用训练集数据训练模型,使用验证集验证模型的效果。本发明使用nvidia rtx 3090(24gb)显卡进行实验,模型代码基于pytorch,训练使用的批处理大小为4,初始学习率是2e-3,总共训练轮次为200,优化器使用adam,训练网络使用的损失函数为均方误差(mse)。
56.步骤4:保存在验证集上损失最小的模型,在测试集上测试模型的性能,输出相应的深度图,输出的深度图如附图6所示。
57.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作地任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.基于light self-limited-attention的混合网络结构光深度估计方法,其特征在于:包括如下步骤:s1:建立u型架构作为模型的总体结构;s2:输入结构光图像,对其进行局部特征提取;s3:模型经过4个阶段的下采样提取特征后再经过4个阶段的上采样恢复特征图的分辨率,在同一阶段使用跳跃连接;s4:建立cnn-transformer相结合的基本模块捕获局部和全局特征并应用在每个阶段的训练中,模块包括局部感知单元、轻型自限制注意力机制和前馈网络三部分;s5:模型在深度估计时融合图像的多尺度特征输出结构光图像的深度图。2.根据权利要求1所述的基于light self-limited-attention的混合网络结构光深度估计方法,其特征在于:所述的模型总体结构使用encoder-decoder的u型结构,建立对称的decoder,并通过跳跃连接将encoder的同尺度特征融合到decoder中。3.根据权利要求2所述的基于light self-limited-attention的混合网络结构光深度估计方法,其特征在于:所述的对其进行局部特征提取的操作包括步长为2的3*3卷积、归一化操作和gelu激活函数。4.根据权利要求4所述的基于light self-limited-attention的混合网络结构光深度估计方法,其特征在于:所述的cnn部分包括卷积和深度卷积,transformer部分包括light self-limited-attention,二者提取的图像特征根据其性质分为局部特征和全局特征。5.根据权利要求4所述的基于light self-limited-attention的混合网络结构光深度估计方法,其特征在于:所述的cnn-transformer基本模块由三部分组成,包括:局部感知单元,用于提取局部信息,可以定义为:lpu(x)=dwconv(x)+x其中,lpu代表局部感知单元模块,x∈r
h
×
w
×
d
,h
×
w是当前阶段输入的分辨率,d表示特征的维度,dwconv表示深度卷积,可减少卷积的运算量;light self-limited-attention包括轻型自注意力机制以节省计算成本和参数数量,以及自限制注意力以提高性能。自限制注意力具有位置信息模块和限制注意力模块,位置信息模块通过调整自注意力分数的分布增强位置信息,限制注意力模块在softmax函数之后使用外部位置偏差来限制一些较大的注意力权重值。由于需要处理的是图像信息,用x(原始输入)替换自限制注意力中的k(键)和v(值),可以显著降低计算成本。内外部位置偏差和动态尺度相互配合,轻型自限制注意力机制的公式定义为:attention(q,x,x)=(softmax(qx
t
×
ds+b
i
)+b0)x其中,x是输入数据,q是查询矩阵,ds表示查询块附近的块具有较大的动态尺度和内部位置偏差值,b
i
和b0分别是内部位置偏差和外部位置偏差;前馈网络,由两个线性层组成,通过gelu激活分离,第一层将尺寸扩大4倍,第二层将尺寸缩小相同的比例。6.基于light self-limited-attention的混合网络结构光深度估计系统,其特征在于:包括:数据输入模块,用于对输入的结构光图像进行局部特征提取;数据处理模块,用于将模型经过4个阶段的下采样后再经过4个阶段的上采样操作恢复
特征图的分辨率,每个阶段都经过一个cnn-transformer相结合的基本块,同尺度的特征使用跳跃连接进行特征融合;结果输出模块,将特征图恢复成输入图像大小,输出结构光图像的深度图。7.一种终端,其特征在于;所述终端包括一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的基于light self-limited-attention的混合网络结构光深度估计方法。8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现如权利要求1-5中任一所述的基于light self-limited-attention的混合网络结构光深度估计方法。

技术总结
本发明提供了一种基于Light Self-Limited-Attention的混合网络结构光深度估计方法,包括建立U型架构作为模型的总体结构;输入结构光图像,对其进行局部特征提取;模型经过4个阶段的下采样提取特征后再经过4个阶段的上采样恢复特征图的分辨率,在同一阶段使用跳跃连接;建立CNN-Transformer相结合的基本模块捕获局部和全局特征并应用在每个阶段的训练中,模块包括局部感知单元、轻型自我限制注意力机制和前馈网络三部分;模型在深度估计时融合图像的多尺度特征输出结构光图像的深度图。本发明能够从结构光图像中获得深度信息,提高结构光三维测量精度。提高结构光三维测量精度。提高结构光三维测量精度。


技术研发人员:朱新军 赵浩淼 宋丽梅 王红一
受保护的技术使用者:天津工业大学
技术研发日:2023.03.27
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐