基于迁移学习和宽度学习的RGB-D图像特征协同融合方法

未命名 10-09 阅读:165 评论:0

基于迁移学习和宽度学习的rgb-d图像特征协同融合方法
技术领域
1.本发明涉及计算机视觉及图像处理技术,尤其涉及一种基于迁移学习和宽度学习的rgb-d图像特征协同融合方法。


背景技术:

2.计算机视觉是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等的机器视觉,并进一步做图形处理,进行目标的分类识别、位姿判断和尺寸测量等。随着技术的不断发展,计算机视觉的研究也取得了突破性的进展。其中图像的分类识别是计算机视觉中最基础也是最重要的分支,对多媒体检索技术的发展有重要的推动作用。近年来越来越多的研究工作设计了大量的深度卷积神经网络用于rgb图像识别取得了很大的进展,已经广泛应用于交通监控、智能安防、智能机器人以及零部件自动化装配回等各行各业中。
3.但是在实际应用中,由于rgb图像自身的局限性,在实际应用的过程中容易受到光照背景,目标之间相互遮挡、重叠等因素的影响,存在目标识别率较低、无法正确分类的情况,无法满足实际应用中的需求。随着传感器技术的发展,出现了能够获取三维图像的设备,三维图像是在二维图像的基础上,增加了图像中物体的深度信息。近年来推出的rgb-d相机如kinect等,可以同时捕获物体的rgb图像和深度图像,深度图像包含了物体的空间几何形状信息,使得rgb图像和深度图像对彼此的信息有了有效的补充,可以提高图像识别的鲁棒性和准确率。因此,对于rgb图像和深度图像,如何充分融合两者信息是关键问题。目前探索rgb图像和深度图像数据跨模态互补的rgb-d融合网络分为单流网络架构和双流网络架构两种。单流网络架构通过串联两者数据来共同学习rgb图像和深度图像特征来得到特征图。但是这类算法对rgb图像与深度图像数据直接串联忽略了两者数据的差异性,所得到特征图并不能充分的表述图像。双流网络架构通过两个独立分支分别学习rgb图像和深度图像,然后通过一个在早期或晚期添加的共享网络层学习两者特征的联合表示,来获取最终的特征图。这类算法分别对深度图像和rgb图像进行特征提取,在特征层进行rgb特征与深度特征的融合,可以有效的提高图像分类的精度。但是,其用于特征提取的深度神经网络存在计算时间长,结构复杂等问题。
4.因此,本发明针对rgb图像和深度图像的特点,选取具有简单的平层网络结构,学习速度快,步骤少的宽度学习,引入迁移学习建立融合两者图像特征的网络结构,在rgb-d数据集上进行实验,表明该网络结构具有更高的分类精度和鲁棒性。


技术实现要素:

5.本发明针对现有rgb图像和深度图像无法充分融合的问题,提供了一种基于迁移学习和宽度学习的rgb-d图像特征协同融合方法,与传统神经网络模型相比准确率高,稳定性好。
6.本发明所提供的技术方案是一种基于迁移学习和宽度学习的rgb-d图像特征协同融合方法,具体按照以下步骤实施:
7.s1:从公开数据集中获取华盛顿rgb-d数据集,处理数据获得网络的输入;
8.s2:搭建神经网络resnet,在数据集imagenet上进行初步训练,得到初次训练的神经网络resnet,并进行保存;
9.s3:将初步训练得到的神经网络resnet,在rgb-d数据集上进行微调,移除神经网络resnet最后一层,输入数据后,rgb图像和深度图像分别在网络中输出一个特征向量,得到两种图像的特征;
10.s4:基于步骤s3中的rgb图像和深度图像两种特征向量,分别作为典型相关性分析cca层输入的两组没有显性相关关系的变量,最大化两组变量之间的相关系数,将两组变量统一映射到cca生成的特征空间上进行学习,根据cca特征融合策略,将并联矩阵作为融合特征,实现特征的融合降维;
11.s5:基于步骤s4中的融合特征,利用宽度学习生成特征节点和增强节点,利用岭回归的广义逆得到最终分类识别结果。
12.所述步骤s1包括以下步骤:
13.s11:从公开数据集中获取华盛顿rgb-d数据集,获得rgb图像和深度图像数据;
14.s12:图像预处理,分别将rgb图像和深度图像的大小调整为256*256。
15.所述步骤s2包括以下步骤:
16.s21:搭建resnet神经网络,所述神经网络resnet是由残差块组成的模块,每个模块使用若干个同样输出通道数的残差块组成,构建过程为:采用pytorch框架构建深度学习网络resnet。
17.s22:在数据集imagenet上进行初步训练,具体过程为:加载在数据集imagenet上训练完成的公开resnet参数;得到初次训练的神经网络resnet,并进行保存。
18.所述步骤s3包括以下步骤:
19.s31:移除预训练resnet神经网络最终的平均池化层和线性层。
20.s32:将数据处理后的rgb图像和深度图像分别输入到调整后的resnet神经网络模型,经过步骤s31构建的神经网络模型,获得rgb图像特征向量和深度图像特征向量。将输出的两个特征向量进行平均池化,并进行展平操作。
21.所述步骤s5包括以下步骤:
22.s51:将步骤s4中的融合特征,作为宽度学习的输入x
*
,生成n组特征映射,每组包含i个特征节点,生成随机权重矩阵w
ei
,其值呈高斯分布,则第i组映射特征如式所示:其中,表示激活函数,β
ei
表示随机生成的偏置。同时,宽度学习采用稀疏自编码思想优化输入权重w
ei

23.s52:特征节点zi经过非线性映射生成增强节点hj,定义生成m组增强节点,计算hj=ziw
hj

hj
,并对h进行缩放,计算使用激活函数,对增强节点进行激活,则第j组的增强节点可以表示为:
[0024][0025]
其中,ξ表示非线性激活函数,w
hj
和β
hj
表示固定的随机生成权重和偏置;
[0026]
因此,宽度学习的输出表示为:
[0027][0028]
其中w
bls
表示宽度学习的输出层权重,表示宽度学习的全部输入特征。
[0029]
s53:由s52步骤中可以得到且w
bls
是通过对的岭回归近似根据公式计算得到的:训练的权重w
bls
得到最终的分类结果和准确率:λ为特征值,i为单位矩阵。
[0030]
与现有技术相比,本发明的技术效果和优点如下:
[0031]
本发明提出了一种基于迁移学习和宽度学习的rgb-d图像特征协同融合方法,该模型能兼顾效率和准确,实现rgb-d图像的高效特征提取,使用典型相关性实现两种模态特征的融合降维,在完成图像分类识别任务的同时,降低了训练时间,提高了分类性能。
[0032]
本发明提出的技术方案采用迁移学习实现对rgb图像和深度图像的高效提取,可以避免因数据量小而不足以训练出较好的神经网络,同时有效的减小了训练时间。
[0033]
本发明提出的技术方案使用典型相关性分析融合特征,能够有效对rgb图像特征和深度图像特征进行整合,高效利用了rgb图像与深度图像之间的相关性,并降低了特征维度。
[0034]
本发明提出的技术方案使用宽度学习进行高效的实现图像的分类任务,简化了融合算法的时间复杂度,训练速度快,使得模型具有良好稳定性和鲁棒性,大大提高了图像分类识别的准确率,提高了工作效率。
附图说明
[0035]
为了更清楚地说明本发明具体实施方式中的技术方案,下面对具体实施方式描述中所需要使用的附图作简单的介绍:
[0036]
图1是本发明一种基于迁移学习和宽度学习的rgb-d图像特征协同融合方法的流程图。
[0037]
图2是本发明一种基于迁移学习和宽度学习的rgb-d图像特征协同融合方法的网络架构图。
[0038]
图3是本发明采用迁移学习的流程图。
[0039]
图4是本发明采用典型相关性分析融合rgb图像特征和深度图像特征的流程图。
[0040]
图5是本发明采用宽度学习进行分类识别的流程图。
[0041]
具体实现方式
[0042]
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
[0043]
在下面的阐述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
[0044]
本发明一种基于迁移学习和宽度学习的rgb-d图像特征协同融合方法,如图1所示,主要包括以下步骤:
[0045]
s1:从公开数据集中获取华盛顿rgb-d数据集,处理数据获得网络的输入;
[0046]
s2:搭建神经网络resnet,在数据集imagenet上进行初步训练,得到初次训练的神经网络resnet,并进行保存;
[0047]
s3:将初步训练得到的神经网络resnet,在rgb-d数据集上进行微调,移除神经网络resnet最后一层,输入数据后,rgb图像和深度图像分别在网络中输出一个特征向量,得到两种图像的特征;
[0048]
s4:基于步骤s3中的rgb图像和深度图像两种特征向量,分别作为典型相关性分析cca层输入的两组没有显性相关关系的变量,最大化两组变量之间的相关系数,将两组变量统一映射到cca生成的特征空间上进行学习,根据cca特征融合策略,将并联矩阵作为融合特征,实现特征的融合降维;
[0049]
s5:基于步骤s4中的融合特征,利用宽度学习生成特征节点和增强节点,利用岭回归的广义逆得到最终分类识别结果。
[0050]
所述步骤s1包括以下步骤:
[0051]
s11:从公开数据集中获取华盛顿rgb-d数据集,获得rgb图像和深度图像数据。这个数据集获取的具体过程为:将每个物体放置在一个转盘上,并使用3d相机对转盘的一个完整旋转周期进行录制。每个物体均包含3个视频序列,分别记录在不同高度的摄像机上。由此可以得到不同视角、不同光照条件下的常见日用品的rgb图像和深度图像,组成数据集。
[0052]
s12:在实验过程中对验证的数据集分成测试集和训练集两部分。rgb图像和深度图像预处理,将图像大小均调整为256*256;
[0053]
所述步骤s2包括以下步骤:
[0054]
s21:搭建resnet神经网络,所述神经网络resnet是由残差块组成的模块,每个模块使用若干个同样输出通道数的残差块组成,构建过程为:采用pytorch框架构建深度学习网络resnet。
[0055]
s22:在数据集imagenet上进行初步训练,具体过程为:加载在数据集imagenet上训练完成的公开resnet参数;得到初次训练的resnet神经网络,并进行保存。
[0056]
所述步骤s3包括以下步骤:
[0057]
s31:移除预训练resnet神经网络最终的平均池化层和线性层。
[0058]
s32:将数据处理后的rgb图像和深度图像分别输入到调整后的resnet神经网络模型,经过步骤s31构建的神经网络模型,获得rgb图像特征向量和深度图像特征向量。将输出的两个特征向量进行平均池化,并进行展平操作,最终获得rgb图像特征向量x={x1,x2,...xf}和深度图像特征向量y={y1,y2,...yf}。
[0059]
所述步骤s4包括以下步骤:
[0060]
s41:基于步骤s3中的rgb图像特征向量x={x1,x2,

xf}和深度图像特征向量y={y1,y2,...yf}分别作为典型相关性分析cca层输入的两组没有显性相关关系的变量;
[0061]
s42:计算x各分量的协方差矩阵∑
xx
,计算y各分量的协方差矩阵∑
yy
,计算x和y的互协方差矩阵∑
xy

[0062]
s43:计算矩阵计算矩阵a的奇异值分解,得到最大奇异值δ以及最大奇异值对应的左奇异向量u和右奇异向量v;
[0063]
s44:计算x和y的投影向量w
x
和wy,得到和由此得到线性组合α=w
xt
x和β=w
yt
y之间的相关性度最大;
[0064]
s45:根据cca特征融合策略,将并联矩阵作为融合特征,实现特征的融合降维。
[0065]
所述步骤s5包括以下步骤:
[0066]
s51:将步骤s4中的融合特征,作为宽度学习的输入。首先建立输入特征到特征节点的映射,先对输入特征进行z分数标准化,确保输入的数据归一化到0和1之间,再对进行增广,在训练集的最后增加一列,这样做是为了保证在生成特征节点时可以直接通过矩阵运算增加偏置项,使之变为x
*2f+1

[0067]
s52:生成随机权重矩阵w
ei
,w
ei
的值呈高斯;计算即对每个样本的特征进行一次权值的随机卷积和偏置,生成n组特征映射,每组包含i个特征节点;
[0068]
s53:对zi进行归一化,稀疏表示;采用lasso方法来解决稀疏过程中的优化问题,将随机特征微调到一组更加紧凑的特征。通过下式求解:
[0069][0070]
s54:由s52步骤可知,生成的特征节点是线性的。宽度学习的一个特性,就是可以利用增强节点对随机的特征节点进行补充。因而引入增强节点的目的就是为了增加网络中的非线性因素,使得特征节点经过非线性映射生成增强节点。与特征节点不同,增强节点的系数矩阵w
hj
不是随机矩阵,而是经过正交规范化后的随机矩阵,目的是将特征节点通过非线性映射到一个高维的子空间,使得网络的表达能力更强;
[0071]
s55:对增强节点进行激活,并设置s控制增强节点的收缩尺寸,防止增强节过多造成冗余。定义生成m组增强节点,计算hj=ziw
hj

hj
,并对h进行缩放,计算使用激活函数tansig,对增强节点进行激活,则第j组的增强节点可以表示为:
[0072][0073]
s56:宽度学习网络的最终输入为:宽度学习的输出表示为:且w
bls
是通过对的岭回归近似根据公式计算得到的:训练的权重w
bls
得到最终的分类结果和准确率,λ为特征值,i为单位矩阵:
[0074]
[0075]
本实施使用华盛顿rgb-d object数据集。rgb-d object数据集由51个类别300种不同视角、不同光照条件下的常见日用品的rgb-d图像组成,这些图像全部通过kinect摄像机获取,共278374幅。为了检验本发明提出的模型在多模态融合分类识别任务的效果,本发明与其他方法的分类准确率如表1所示;同时设计对比模型如表2所示,采用bls分别对彩色图像,深度图像以及两种图像简单拼接后的图像进行学习和分类。主要在识别率,训练时间,测试时间等方面进行对比。由表1、表2可以看出,本发明提出的算法能够有效学习彩色图像与深度图像的高维特征,极大提高了分类识别的准确率。这足以说明该算法的快速性和有效性。
[0076]
表1 rgb-d object数据集上的图像分类准确率比较
[0077]
方法准确率liner svm81.92%nonliner svm74.80%%random forest79.62%dkd86.00%hkdes82.40%ours87.19%
[0078]
表2 rgb-d object数据集上的对比分类准确率比较
[0079]
图像模态深度彩色拼接融合训练时间/s58.6253.5995.9113.60测试时间/s1.341.762.340.61识别率/%53.0765.3273.6287.19
[0080]
由上,本发明的一种基于迁移学习和宽度学习的rgb-d图像特征协同融合方法,采用迁移学习,使用在大型图像数据集imagenet上将训练好的resnet神经网络参数应用到rgb图像和深度图像的特征提取过程,快速的提升并学习到图像特征,通过典型相关性分析cca有效的融合两种图像的特征,同时cca的降维特性为简化模型提供了便利,同时本发明引入了宽度学习,提高了系统的运行速度,最终使得分类结果具有更高的准确性和可信度。
[0081]
以上所述实例仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并非局限于此,本发明的保护范围迎所述以权利要求的保护范围为准。在本领域技术人员的理解范围内,在本发明的精神和原则内所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围内。

技术特征:
1.基于迁移学习和宽度学习的rgb-d图像特征协同融合方法,其特征在于,包括以下步骤:s1:从公开数据集中获取rgb-d数据集;s2:搭建resnet神经网络,在数据集imagenet上进行初步训练,得到初次训练的resnet神经网络,并进行保存;s3:将初步训练得到的resnet神经网络,在rgb-d数据集上进行微调,移除神经网络resnet最后一层,输入数据后,rgb图像和深度图像分别在网络中输出一个特征向量,得到两种图像的特征;s4:基于步骤中s3中的rgb图像和深度图像两种特征向量,分别作为典型相关性分析cca层输入的两组没有显性相关关系的变量,最大化两组变量之间的相关系数,将两组变量统一映射到cca生成的特征空间上进行学习,根据cca特征融合策略,将并联矩阵作为融合特征,实现特征的融合降维;s5:基于步骤中s4中的融合特征,利用宽度学习生成特征节点和增强节点,利用岭回归的广义逆得到最终分类识别结果。2.根据权利要求1所述的基于迁移学习和宽度学习的rgb-d图像特征协同融合方法,其特征在于,步骤s1中,所述获取rgb-d数据,具体过程为:将每个物体放置在一个转盘上,并使用3d相机对转盘的一个完整旋转周期进行录制,每个物体均包含3个视频序列,分别记录在不同高度的摄像机上,由此可以得到不同视角、不同光照条件下的rgb图像和深度图像,组成数据集。3.根据权利要求2所述的基于迁移学习和宽度学习的rgb-d图像特征协同融合方法,其特征在于,步骤s2中,所述神经网络resnet是由残差块组成的模块,每个模块使用若干个同样输出通道数的残差块组成,构建过程为:采用pytorch框架构建神经网络resnet。4.根据权利要求3所述的基于迁移学习和宽度学习的rgb-d图像特征协同融合方法,其特征在于,步骤s2中,所述初步训练,具体过程为:加载在数据集imagenet上训练完成的公开的resnet参数,并保存。5.根据权利要求4所述的基于迁移学习和宽度学习的rgb-d图像特征协同融合方法,其特征在于,所述步骤s3中,在微调网络之后,移除神经网络resnet最后一层,输入数据后,rgb图像和深度图像分别在网络中输出一个特征向量,将输出的特征向量进行平均池化,并进行展平操作。6.根据权利要求5所述的基于迁移学习和宽度学习的rgb-d图像特征协同融合方法,其特征在于,所述步骤s4中,两组特征向量的融合的具体方式如下:cca的目的是为两组特征向量x和y找到一对投影轴w
x
和w
y
进行线性变换,使得线性组合α=w
xt
x和β=w
yt
y之间的相关度最大。7.根据权利要求6所述的基于迁移学习和宽度学习的rgb-d图像特征协同融合方法,其特征在于,步骤s5中,宽度学习分类识别的具体过程为:步骤s4中的融合特征作为输入样本x
*
,生成n组特征映射,每组包含i个特征节点,生成随机权重矩阵w
ei
,其值呈高斯分布,则第i组映射特征其中,表示激活函数,β
ei
表示随机生成的偏置,同时,宽度学习采用稀疏自编码思想优化输入权重w
ei
,定义生成m组增强节点,计算
h
j
=z
i
w
hj

hj
,并对h进行缩放,计算使用激活函数,对增强节点进行激活,则第j组的增强节点表示为其中,ξ表示非线性激活函数,w
hj
和β
hj
表示固定的随机生成权重和偏置;宽度学习的输出表示为:其中w
bls
表示宽度学习的输出层权重,表示宽度学习的全部输入特征。

技术总结
本发明提供一种基于迁移学习和宽度学习的RGB-D图像特征协同融合方法,包括以下步骤:获得RGB-D数据集,通过神经网络进行初步的训练,修改完结构在数据集中进行再次的训练;提取特征之后,将RGB图像特征和深度图像特征进行相关性分析融合;使用宽度学习对融合后的特征进行分类识别。本发明能够合理融合RGB图像和深度图像的特征,确保彩色图像和深度图像的特征信息能互相补充,利用宽度学习提高系统的运行速度,最终使得分类结果具有更高的准确性和可信度。和可信度。和可信度。


技术研发人员:李鹏越 胡东玫 邢吉伟 续欣莹
受保护的技术使用者:太原理工大学
技术研发日:2023.07.05
技术公布日:2023/10/6
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐