一种基于条件GAN网络的自适应特征融合的数据合成方法与流程
未命名
08-25
阅读:253
评论:0
一种基于条件gan网络的自适应特征融合的数据合成方法
技术领域
1.本发明涉及图像处理技术领域,尤其是涉及一种基于条件gan网络的自适应特征融合的数据合成方法。
背景技术:
2.实际应用中经常会有根据实际需求动态地为深度学习目标检测模型添加新目标类别的需求,即将新类别目标合成到既有的训练图像中,在根据训练样本对深度学习目标检测模型进行调整。而在将新类别目标合成到既有的训练图像中的过程中,目标的多样性、形状大小、几何形变以及光线变化等因素会产生至关重要的影响。现有的合成方法忽略了遮挡和透视的影响,这不仅导致合成的样本不能近似于真实拍摄的样本效果,而且由于无法维持前景的立体不变性而造成合成图像变形,此外,仅依赖现有的少量标注前景样本也不能满足合成样本的多样性。
技术实现要素:
3.本发明的主要目的在于提供一种基于条件gan网络的自适应特征融合的数据合成方法,拟在既有的训练样本中加入新的类别标签,即将新的目标类别合成至既有的训练样本中,再对源域模型进行自适应调整。
4.为实现上述目的,本发明采用以下内容:
5.一种基于条件gan网络的自适应特征融合的数据合成方法,包括以下步骤:
6.采集前景对象,并采用条件gan网络生成前景图像,所述条件gan网络可以输入条件,根据前景图像生成符合条件的多类型前景图像样本;
7.获取背景图像,并对背景图像进行预处理,根据局部的颜色和纹理提示对背景图像进行分割以获得拥有连续像素的区域,对每一个分割区域使用卷积神经网络预测深度图;
8.根据分割信息和深度信息对背景图像进行第一轮筛选,以筛选出符合面积要求以及投射角度要求的区域,记为第一候选区域;
9.根据前景图像中掩码区域的表面法线a与背景图像中第一候选区域的表面法线b进行第二轮筛选,从第一候选区域中筛选出a、b之间的夹角符合阈值的区域,记为第二候选区域;
10.计算出前景图像中掩码区域的单应性矩阵a,计算出第二候选区域的单应性矩阵b,从第二候选区域中筛选出单应性矩阵b与单应性矩阵a近似正交的作为最终的合成区域,再对前景图像进行图像的旋转变换,使得单应性矩阵a与单应性矩阵b正交;
11.将旋转变换后的前景图像以自适应的方式融合到最终的合成区域中以生成近似于真实采集的合成图像。
12.本发明上述技术方案与现有技术相比,具备如下有益效果:
13.为了使数据合成的样本更具丰富多样性,本发明利用条件gan网络生成大量的前
景图像,具体地,拟训练一个条件gan模型,生成器和判别器都增加额外信息c作为条件,此条件可以是类别信息或其他模态数据。通过将额外信息c输送给判别模型和生成模型,作为输入层的一部分,从而实现条件gan。这里,条件gan是一种带条件约束的gan,在生成器(g)和判别器(d)的建模中均引入条件变量。这个条件变量是类别,有利用生成多类别且各类别样本数量均衡的前景图像。
14.本发明提出的方法可以随机融合不同的前景图像和背景图像来增加新的合成样本数据。
15.在自然拍摄的图像中,前景目标对象通常包含在定义明确的背景区域中,对于常见的立体目标,一般要求将其包含在具有均匀颜色和纹理的区域中来近似此约束,由于背景图中每个分割区域的大小、形状以及投射角度各不相同,为了使前景目标自然地合成到背景图像中,本发明对背景图像中的区域共进行了三轮筛选,通过区域筛选,不仅不会使前景穿过强烈的图像不连续点,还保证了前景与合成区域的视角一致。
附图说明
16.下面结合附图对本发明的具体实施方式作进一步详细的说明。
17.图1是本发明实施例一种基于条件gan网络的自适应特征融合的数据合成方法的流程示意图;
18.图2是cgan网络的示意图;
19.图3是cgan网络生成前景图像的示意图;
20.图4是背景图像上的gpb-ucm分割结果示意图;
21.图5是fcrn中所提出的上采样方式示意图;
22.图6表示frcn中的上卷积结构图;
23.图7是对背景图像进行深度预测及平面拟合的示意图。
具体实施方式
24.为了更清楚地说明本发明,下面结合优选实施例对本发明做进一步的说明。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
25.本发明的实施例提出一种基于条件gan网络的自适应特征融合的数据合成方法,参阅图1,主要包括步骤s1~s6:
26.s1:采集前景对象,并采用条件gan网络生成前景图像,详细地说:
27.采用cgan(conditional adversarial nets条件生成式对抗网络(简称cgan)),生成器和判别器都增加额外信息c作为条件,此条件可以是类别信息或其他模态数据。通过将额外信息c输送给判别模型和生成模型,作为输入层的一部分,从而实现条件gan。
28.在生成模型中,先验输入噪声p(z)和条件信息c联合,条件gan的目标函数是带有条件概率的二元极小极大值博弈。
29.在生成器中,从前置随机分布中随机取出输入z,在与条件输入c进行拼接组合,形成一个全新的隐含表示g(z)。而在判别器中,真实数据x或生成数据g(z)都会和条件信息c共同输入以进行判别。
30.图2所示的是cgan的网络结构示意图,图3表示cgan网络生成前景图像的示意图。如此,通过构建cgan生成多类别的前景图像,可以根据需求,在不同类别中生成指定数量的前景图像样本。
31.而前景对象的采集可以有两种途径方式:一种是从已有的数据集中选取,另一种是重新拍摄图像作为前景图像样本。
32.当选择重新拍摄图像作为前景图像样本时,为了能够准确地获得前景对象的遮罩,这里选择使用grabcut算法,该算法使用高斯混合模型对前景对象中的前景和背景进行建模,然后在像素标签上构造一个马尔可夫随机场,最后在多次迭代后通过友好的人机交互提供准确的前景蒙版。
33.s2:获取背景图像,并对背景图像进行预处理,根据局部的颜色和纹理提示对背景图像进行分割以获得拥有连续像素的区域,对每一个分割区域使用卷积神经网络预测深度图,即使用基于颜色和纹理的gpb-ucm图像分割算法确定前景图像放置的区域位置,使用基于全卷积神经网络的图像深度预测算法得到背景图像的深度信息,详细地说:
34.2.1基于颜色和纹理的gpb-ucm图像分割算法
35.该算法是依靠图像边缘信息进行区域分割的算法,首先计算图中每个像素点作为边缘的概率gpb(globalized probability of boundary),接着利用改进的分水岭变换owt(oriented watershed transform)将上面的结果转换为多个闭合区域,最后使用ucm(ultrametric contour map)方法,设置不同阈值将闭合区域转换为区域树。
36.gpb是多尺度边界概率mpb(multiscale probability of boundary)和光谱边界概率spb(spectral probability of boundary)的加权线性组合,mpb是在图片的cie颜色空间的三个通道及其纹理通道上计算像素点的边缘概率的基础上引入了多尺度的概念,针对每一个尺度,计算四个通道的pb值的加权和,公式如下:
[0037][0038]
其中,i,s分别不同尺度和四个通道,α代表不同尺度下通道的权值。g是像素点的梯度方向函数,在像素点(x,y)处选取一个σ大小的圆区域,并按β角度划分为两部分,计算它们直方图的卡方距离。最后采用不同β角度下最大的响应来衡量不同像素点的边缘强度:
[0039][0040]
此外,图像的显著性分割曲线由对光谱变化聚类得到。首先,根据两个像素点i和j之间的mpb值构建一个稀疏对称的相似矩阵:
[0041][0042]
其中,ij表示两个像素点i和j之间的线段,ρ为常量系数,设定为0.1。该矩阵表示像素之间的相似度,之后令:
[0043]
[0044][0045]
由式(5)计算得到n+1维特征向量,并用高斯方向导数滤波器在每个特征向量的θ方向上进行卷积,从而得到spb的值:
[0046][0047]
其中,参数是特征值问题的物理定义。mpb表示图像的边缘信息,spb则是图像的显著边界线,将mpb和spb加权求和得到gpb值:
[0048][0049]
其中,ζ
i,s
和γ都为常数,之后对gpb值进行sigmoid变换,使其分布在[0,1]之间,表示该像素点作为边缘的概率,也将其称为像素的权重。然而,该值还受方向β的影响,本技术将该像素点(x,y)所取到的β对应的gpb最大值作为边缘概率。
[0050]
接着,取区域的最小值的边缘概率作为种子点位置,进行修正的owt算法,可以得到合适的区域和分水岭弧信息。最后,使用基于图合并的ucm算法,将分割后的图合并,得到较完整的区域。通过设定不同的阈值进行比较,确定阈值为0.2时最能表达背景图像区域分割的细节。
[0051]
参照图4,为对背景图像进行gpb-ucm分割的示例。图中从左至右依次为:输入的rcb图像;基于颜色和纹理的gpb-ucm分割图;在分割图上随机颜色填充;区域过滤:适合放置前景图像的区域使用随机颜色填充,不适合放置的区域保留原始图像的像素值。
[0052]
2.2基于全卷积神经网络的图像深度预测算法
[0053]
全卷积回归网络(fully convolutional residual networks,简称fcrn)算法使用resnet-50进行图片的特征提取,之后为了能预测深度信息,需要将提取到的特征再上采样。常用的上采样方法双线性插值和反卷积,双线性插值的方法会使特征图边缘模糊,噪声很大;而使用反卷积方法进行上采样,特征图上相邻像素点会有较大差异,有一定的可能性会带来棋盘效应,对深度信息的预测会带来严重的干扰。因此,fcrn提出了新颖的上采样结构,叫做上卷积模块(up-convolutional blocks),详见图5所示。由图5可知,首先使用2
×
2的上池化层放大特征图,实际就是用0进行插值,接着,经过一个5
×
5的卷积层,使得填补0的位置不再全部为0,最后经过relu激活函数得到上采样结果,通过此操作可以有效的减少反卷积带来的棋盘效应。
[0054]
在图5a)的基础上,fcrn还引入了残差块的概念,将卷积前后的特征图的参数进行叠加,这样就得到了图5b)的上投影结构(up projection blocks),这样的结构一方面通过引入更多参数来加深网络深度,另一方面也在上采样过程中更好的保留了网络浅层的特征信息,经过实验,发现这种结构对提取图像的深度信息更有效。此外,由于上投影结构中在上池化层后出现了很多0值,接着使用5
×
5的卷积层,这让网络难以训练。因此,fcrn算法又进一步改进,将一个5
×
5的大尺寸卷积核用3
×
3、2
×
3、3
×
2、2
×
2多个卷积核替代,并将卷积结果按空间关系合并,不仅得到的结果与原来5
×
5的大尺寸卷积结果相同,而且减少了
卷积次数,加快上采样过程,具体实现如图6所示。通过四次上采样可以得到大尺度的特征图,在进行回归可以预测各个像素的深度信息。
[0055]
利用上述方法得到的深度信息depth,可以将图像上的像素点的二维坐标(u,v)转换为三维相机坐标(x,y,z),公式如下:
[0056][0057]
其中,w、h分别是深度图的宽度和高度,f是相机的焦距。之后,根据三维坐标使用ransac算法拟合区域平面,该方法是通过对数据进行随机采样来估计最佳平面的学习技术,通常,数据中的异常(噪声)不会影响拟合平面。首先,先从样本点中随机选择能够确定模型参数的最小数量样本组成一个样本子集,其次是根据阈值确定与拟合模型的关系,在阈值内的称为内点,反之则为外点(异常点),重复多次以上操作,通过计算内点数量占总数据点的比例,最大即为拟合的最佳平面,最终根据该拟合平面可以得到平面法向量,具体过程参见图7所示。
[0058]
综上,使用基于颜色和纹理的gpb-ucm图像分割算法可以得到前景图像放置的具体区域位置,使用基于全卷积神经网络的图像深度预测算法可以得到背景图像的深度信息,进而利用ransac拟合平面得到传送带表面的平面法向量,根据法向量进行透视变换,使缺陷前景具有景深的效果,合成的缺陷样本更加真实。
[0059]
s3:根据分割信息和深度信息对背景图像进行第一轮筛选,以筛选出符合面积要求以及投射角度要求的区域,记为第一候选区域。
[0060]
具体地,根据分割信息对背景图像中每一个分割区域进行遍历,以过滤掉宽高过小、面积过小以及宽高比过小的区域;根据深度信息过滤掉投射角度过小的区域。
[0061]
s4:根据前景图像中掩码区域的表面法线a与背景图像中第一候选区域的表面法线b进行第二轮筛选,从第一候选区域中筛选出a、b之间的夹角符合阈值的区域,记为第二候选区域。
[0062]
具体地,本技术采用ransac算法计算前景图像中掩码区域的表面法线a与背景图像中第一候选区域的表面法线b。ransac算法是一种迭代算法,可以从一组包含外部点的数据中正确估计数学模型的参数。给定一个包含n个数据点的集合p,假定集合p中的大多数点可以由模型生成,并且至少n个点(n<n)用于拟合模型的参数,具体的迭代方法如下:
[0063]
(1)从集合p中随机选择n个数据点,即计算单应矩阵的四个点;
[0064]
(2)使用这n个数据点来拟合模型m;
[0065]
(3)将集合p中的剩余点代入模型m中,计算出内部点数m;
[0066]
(4)比较当前模型m和之前的最佳模型的内点数量,并记录最大内点模型参数和对应的内点数量;
[0067]
(5)重复上述步骤(1)~(4),直到完成所有迭代,找到内部点数最大的模型m作为拟合结果,最终得到拟合平面的表达式:
[0068]
ax+by+cz+d=0
ꢀꢀ
(9)
[0069]
[a;b;c]
t
是拟合平面的法线向量,d是常数,假设前景图像与背景图像某个区域的
(h1,h2)的值小于阈值,则将背景图像中的此片区域视为最终可合成的候选区域。
[0093]
s6:将旋转变换后的前景图像以自适应的方式融合到最终的合成区域中以生成近似于真实采集的合成图像。
[0094]
这里,可将筛选出的最终的合成区域与前景图像掩码区域进行快速傅立叶计算以获得放置前景图像的安全区域,这样能够确保前景合成后不会超出背景的边界。
[0095]
本技术所提出的数据合成方法,利用gan网络生成大量的前景图像,具体地,拟训练一个类条件gan模型,在不使用手动注释的类标签基础上,利用鉴别器特征空间中的聚类产生的标签为条件,无监督地生成前景图像;可实现随机融合不同的前景图像和背景图像来增加新的合成样本数据。而为了使前景目标能够自然地合成到背景图像中,本发明对背景图像中的区域共进行了三轮筛选,通过区域筛选,不仅不会使前景穿过强烈的图像不连续点,还保证了前景与合成区域的视角一致。
[0096]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
技术特征:
1.一种基于条件gan网络的自适应特征融合的数据合成方法,其特征在于,包括以下步骤:采集前景对象,并采用条件gan网络生成前景图像,所述条件gan网络可以输入条件,根据前景图像生成符合条件的多类型前景图像样本;获取背景图像,并对背景图像进行预处理,根据局部的颜色和纹理提示对背景图像进行分割以获得拥有连续像素的区域,对每一个分割区域使用卷积神经网络预测深度图;根据分割信息和深度信息对背景图像进行第一轮筛选,以筛选出符合面积要求以及投射角度要求的区域,记为第一候选区域;根据前景图像中掩码区域的表面法线a与背景图像中第一候选区域的表面法线b进行第二轮筛选,从第一候选区域中筛选出a、b之间的夹角符合阈值的区域,记为第二候选区域;计算出前景图像中掩码区域的单应性矩阵a,计算出第二候选区域的单应性矩阵b,从第二候选区域中筛选出单应性矩阵b与单应性矩阵a近似正交的作为最终的合成区域,再对前景图像进行图像的旋转变换,使得单应性矩阵a与单应性矩阵b正交;将旋转变换后的前景图像以自适应的方式融合到最终的合成区域中以生成近似于真实采集的合成图像。2.根据权利要求1所述的一种基于条件gan网络的自适应特征融合的数据合成方法,其特征在于,其中,所述的采集前景对象包括两种方式,第一种方式是从已有的图像数据集中选取前景图像样本,第二种方式是重新拍摄图像作为前景图像样本。3.根据权利要求2所述的一种基于条件gan网络的自适应特征融合的数据合成方法,其特征在于,当选择重新拍摄图像作为前景图像样本时,使用grabcut算法获得前景图像样本的遮罩。4.根据权利要求1所述的一种基于条件gan网络的自适应特征融合的数据合成方法,其特征在于,其中,所述对背景图像进行预处理的方式为:使用基于颜色和纹理的gpb-ucm图像分割算法确定前景图像放置的区域位置,使用基于全卷积神经网络的图像深度预测算法得到背景图像的深度信息。5.根据权利要求1所述的一种基于条件gan网络的自适应特征融合的数据合成方法,其特征在于,其中,所述第一轮筛选的具体方式为:根据分割信息对背景图像中每一个分割区域进行遍历,以过滤掉宽高过小、面积过小以及宽高比过小的区域;根据深度信息过滤掉投射角度过小的区域。6.根据权利要求1所述的一种基于条件gan网络的自适应特征融合的数据合成方法,其特征在于,其中,根据ransac算法计算前景图像中掩码区域的表面法线a与背景图像中第一候选区域的表面法线b。
技术总结
本发明旨在提供一种基于条件GAN网络的自适应特征融合的数据合成方法,拟在既有的训练样本中加入新的类别标签,即将新的目标类别合成至既有的训练样本中,再对原有的目标检测模型进行自适应调整。具体地,利用GAN网络生成大量的前景图像,由于背景图中每个分割区域的大小、形状以及投射角度各不相同,为了使前景目标自然地合成到背景图像中,本发明对背景图像中的区域共进行了三轮筛选,通过区域筛选,不仅不会使前景穿过强烈的图像不连续点,还保证了前景与合成区域的视角一致,最终以自适应融合的方式实现前景图像与背景图像的合成并能生成近似于真实采集的合成图像。生成近似于真实采集的合成图像。生成近似于真实采集的合成图像。
技术研发人员:袁雪
受保护的技术使用者:苏州图之源科技有限公司
技术研发日:2023.04.24
技术公布日:2023/8/22
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
