一种抗样本扰动的语义分割方法和装置与流程
未命名
08-15
阅读:88
评论:0
1.本发明涉及人工智能计算机视觉技术领域,尤其涉及一种抗样本扰动的语义分割方法和装置。
背景技术:
2.语义分割是人工智能计算机视觉中一个重要的技术领域。通过对场景中的目标物体进行分割,可以在无人驾驶等场景达到更好的实现人机交互。目前语义分割常用于无人驾驶领域、遥感影像绘制等。语义分割算法中像素分类的准确性、类别预测准确性以及抗样本扰动对语义分割算法性能至关重要。
3.神经网络在训练初期由于使用随机梯度下降优化器和batch大小会导致数据分布差异大,模型训练前期处于欠拟合状态且损失函数波动较大。
技术实现要素:
4.为了解决以上技术问题,本发明提供了一种抗样本扰动的语义分割方法。能够提升目标分割的准确性和稳定性,提升语义分割模型的分割性能。
5.本发明的技术方案是:
6.一种抗样本扰动的语义分割方法,包括
7.(1)使用无人机挂载的视频采集装置用于获取外界航拍视频流;
8.(2)将采集到的航拍视频流切分成帧做数据预处理操作;
9.(3)将处理后的图片输入到deeplabv3编码器的特征提取网络resnet中进行特征提取;
10.(4)将特征提取网络最后一层卷积提取到的特征输送到aspp中对特征进一步细化处理,最后经过1x1卷积输送到解码器中;
11.(5)将特征提取网络提取到的低级特征输送到解码器中,联同编码器特征进行拼接并进行语义分割。
12.进一步的,所述无人机挂载的视频采集装置为200万像素摄像头,视频流以每秒30帧的速率切分成帧,每隔30帧取一帧做数据预处理操作。
13.进一步的,所述数据预处理操作包括:数据清洗、数据增强。
14.数据清洗操作包括:冗余图片剔除操作和低质量模糊图片剔除操作。冗余图片剔除操作使用差异值哈希算法(dhash)比较两张图片的汉明距离(hamming distance)将图像相似度大于90%的图像删除。低质量模糊图片剔除操作使用拉普拉斯算子(laplacian)通过设置分位值参数将低质量的图片剔除。拉普拉斯算子使用二阶微分,二阶微分表达式如公式1所示:
[0015][0016]
首先引入一阶一维连续函数求导:
[0017][0018]
由公式2推导一阶一维离散函数求导,令δx=1:
[0019][0020]
由公式3推导二阶一维离散函数在x轴方向的导数:
[0021]f″
(x)=(f
′
(x))
′
=(f(x)-f(x-1))
′
=f
′
(x)-f
′
(x-1)
[0022]
=[f(x+1)-f(x)]-[f(x)-f(x-1)]
[0023]
=f(x+1)+f(x-1)-2f(x)公式4
[0024]
同理可得二阶一维离散函数在y轴方向的导数:
[0025]f″
(y)=f(y+1)+f(y-1)-2f(y)公式5
[0026]
由公式4、公式5推导二阶微分拉普拉斯算子:
[0027][0028]
公式6即为拉普拉斯算子在空域的二阶微分形式,以此为基础构造拉普拉斯滤波器。
[0029]
数据增强操作,随机抽取清洗后的图片做平滑滤波、多角度旋转、水平翻转、图片拼接、剪裁、颜色扰动操作。多角度旋转角度划分间隔为45度;图片拼接操作中随机抽取4张图片进行拼接,剪裁操作。
[0030]
进一步的,
[0031]
将数据预处理后的图片输送到deeplabv3编码器的特征提取网络resnet中提取数据特征。特征提取网络resnet中使用了门控残差块机制(gate-residual blockmechanism)和混合域注意力机制(hybridattention mechanism)共同控制特征输出。
[0032]
所述混合域注意力机制,包含通道注意力机制和空间注意力机制。通道注意力机制使用通道相似度度量算法和softmax函数得到通道特征注意力矩阵。空间注意力模型使用像素梯度差和门控残差块得到细化的空间特征注意力矩阵。通道注意力矩阵和空间注意力矩阵与初始特征图分别以哈达玛积(hadamard product)的方式进行融合。
[0033]
所述通道相似度度量算法,使用皮尔森相关系数(pearson correlation coefficient,pcc)衡量两个通道之间的相关性。使用deep-wise的方式将相似度高的通道进行逐像素融合。通道相似度度量计算如公式7所示:
[0034][0035]
其中xi,xj为两个不同的特征通道,n表示变量数。
[0036]
所述所述的门控残差块机制,其特征在于resnet的残差块结构中使用门控机制和通道相似度控制流入下一层网络的特征信息。在门控机制中使用sigmoid函数对输入的特
征图进行权重重分配。resnet残差块的结构调整为批归一化(bn)+卷积(conv)+激活函数(leaky_relu),门控残差块数学表达如公式8、公式9所示:
[0037][0038]
output=x+f(x2)
ꢀꢀꢀ
公式9
[0039]
本发明还公开了一种抗样本扰动的语义分割算法装置,
[0040]
包括:
[0041]
存储器,用于存储计算机可读介质和程序和无人机航拍数据集。
[0042]
cpu处理器,用于运行所述机器可读程序,执行权利要求1至8任一所述的方法。
[0043]
显卡,用于神经网络训练过程中加速对每张图像的特征提取和推理速度,执行前述任一项所述的方法。
[0044]
所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行前述任一项所述的方法。
[0045]
本发明通过门控残差块机制以减少网络训练中出现的内部协变量偏移问题,同时提出了新的混合域注意力机制,通过使用通道相似度度量算法将通道信息进行融合提升特征的表达能力。
[0046]
本发明的有益效果是
[0047]
本发明提出了一种新的混合域注意力机制算法,进一步提升目标分割定位的准确性、稳定性。提出的一种新的门控残差块结构,使用皮尔森相关系数计算通道之间的相关性,相关性高的通道进行特征融合,进一步增强特征表达。
[0048]
本发明充分考虑了通道注意力和空间注意力之间的联系,根据设计的通道相关性融合规则将两个特征进行融合,优势在于能够强化通道注意力对具体目标特征分布的确定,联合空间注意力机制在空间维度加强目标特征信息定位,进一步增强通道和空间维度特征的表征能力。
[0049]
本发明充分考虑了网络模型在训练过程中由于内部协变量偏移对模型产生的负面影响,在做卷积操作之前首先使用批归一化操作对特征进行归一化,剔除特征中的冗余信息和噪声特征。在残差块的短连接过程中使用通道相关性增强目标特征信息的定位性能。
附图说明
[0050]
图1是本发明的语义分割流程示意图;
[0051]
图2是deeplabv3++框架示意图;
[0052]
图3是数据预处理流程示意图;
[0053]
图4是门控残差块示意图;
[0054]
图5是混合域注意力机制示意图;
[0055]
图6是deeplabv3++网络模型示意图。
具体实施方式
[0056]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例
中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0057]
本发明提出了门控残差块机制,通过改变现有残差块的常规布局并添加门控机制降低网络训练初期由于数据分布不稳定造成的内部协变量偏移影响。此外提出了新的混合域注意力机制进一步提升特征的长距离表达能力和模型语义分割性能。
[0058]
在训练视觉语义分割模型时,为了增强语义分割的准确性和鲁棒性,在数据预处理阶段通常使用图像去冗余、图像质量检测和数据增强的方法提升模型的抗干扰性。将数据预处理后的图片输送到deeplabv3语义分割编码器的特征提取网络中提取目标特征信息,不同数据分布特征信息提取的稳定性,感受野的大小控制影响语义分割性能。特征提取过程中的另一部分低级特征信息输送到解码器中,将编码器和解码器的特征进行融合进行语义分割操作。
[0059]
针对以上问题,本发明硬件设施包括:一个容量为1t存储器、至少一个8核cpu处理器和至少一张型号为rtx3080ti及以上型号的英伟达(nvidia)显卡。
[0060]
实现过程如下:
[0061]
1)使用无人机挂载的视频采集装置用于获取外界航拍视频流;
[0062]
2)将采集到的航拍视频流切分成帧做数据预处理操作;
[0063]
3)将处理后的图片输入到deeplabv3编码器的特征提取网络resnet中进行特征提取;
[0064]
4)将特征提取网络最后一层卷积提取到的特征输送到aspp中对特征进一步细化处理,最后经过1x1卷积输送到解码器中;
[0065]
5)将特征提取网络提取到的低级特征输送到解码器中,联同编码器特征进行拼接并进行语义分割。
[0066]
无人机挂载的视频采集装置为200万像素摄像头,并对摄像头内置参数进行设定和镜头校正。
[0067]
视频流以每秒30帧的速率切分成帧,每隔30帧取一帧做数据预处理操作。
[0068]
数据预处理操作包括:数据清洗、数据增强。数据清洗操作包括:冗余图片剔除操作和低质量模糊图片剔除操作。冗余图片剔除操作使用差异值哈希算法(dhash)比较两张图片的汉明距离(hamming distance)将图像相似度大于90%的图像删除。差异值哈希算法对图片进行哈希转换时,通过左右两个像素大小的比较得到最终哈希序列。具体步骤:(1)对图像进行resize操作;(2)将上述步骤中处理后的图片进行灰度化;(3)计算像素差异值,获得最终的哈希值;(4)计算汉明距离。低质量模糊图片剔除操作使用拉普拉斯算子(laplacian)通过设置分位值参数将不满足要求的低质量的图片剔除。拉普拉斯算子使用二阶微分,二阶微分表达式如公式1所示:
[0069][0070]
首先引入一阶一维连续函数求导:
[0071]
[0072]
由公式2推导一阶一维离散函数求导,令δx=1:
[0073][0074]
由公式3推导二阶一维离散函数在x轴方向的导数:
[0075]f″
(x)=(f
′
(x))
′
=(f(x)-f(x-1))
′
=f
′
(x)-f
′
(x-1)
[0076]
=[f(x+1)-f(x)]-[f(x)-f(x-1)]
[0077]
=f(x+1)+f(x-1)-2f(x)公式4
[0078]
同理可得二阶一维离散函数在y轴方向的导数:
[0079]f″
(y)=f(y+1)+f(y-1)-2f(y)公式5
[0080]
由公式4、公式5推导二阶微分拉普拉斯算子:
[0081][0082]
公式6即为拉普拉斯算子在空域的二阶微分形式,以此为基础构造拉普拉斯滤波器。
[0083]
做数据增强操作,随机抽取清洗后的图片做多角度旋转、水平翻转、图片拼接、剪裁操作。多角度旋转角度划分间隔为45度;图片拼接操作中随机抽取4张图片进行拼接,拼接后的图片尺寸大于单张图片时,进行剪裁。
[0084]
将数据预处理后的图片输入到deeplabv3编码器的特征提取网络resnet中提取数据特征。特征提取网络resnet中使用了门控残差块机制和混合域注意力机制共同控制特征输出。
[0085]
混合域注意力机制包含通道注意力机制和空间注意力机制。通道注意力机制使用通道相似度度量算法和softmax函数得到通道特征注意力矩阵。空间注意力模型使用像素梯度差计算像素相关性再使用门控残差块得到细化的空间特征注意力矩阵。通道注意力矩阵和空间注意力矩阵与初始特征图分别以哈达玛积的方式进行融合。
[0086]
使用皮尔森相关系数衡量两个通道之间的相关性。使用deep-wise的方式将相似度高的通道进行逐像素融合。通道相似度度量计算如公式7所示:
[0087][0088]
其中xi,xj为两个不同的特征通道,n表示变量数。
[0089]
resnet的残差块结构中使用门控机制和通道相似度控制流入下一层网络的特征信息。在门控机制中使用sigmoid函数对输入的特征图进行权重重分配。为降低网络训练过程中内部协变量偏移造成的影响,对resnet残差块结构进行了调整,调整后的残差块为批归一化(bn)+卷积(conv)+激活函数(leaky_relu)。门控残差块数学表达如公式8、公式9所示:
[0090]
[0091]
output=x+f(x2)
ꢀꢀꢀ
公式9
[0092]
最后为了降低模型在训练的初始阶段由于随机梯度下降和batch大小不同致使训练初期数据分布差异大导致模型欠拟合损失函数波动大,因此在训练的早期阶段需要设置dropout并将神经元失活概率p设置为0.8,模型迭代10次后将其关闭,模型继续正常训练。
[0093]
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
技术特征:
1.一种抗样本扰动的语义分割方法,其特征在于,包括如下步骤:(1)使用视频采集装置用于获取外界航拍视频流;(2)将采集到的航拍视频流切分成帧做数据预处理操作;(3)将处理后的图片输入到deeplabv3编码器的特征提取网络resnet中进行特征提取;(4)将特征提取网络最后一层卷积提取到的特征输送到aspp中对特征进一步细化处理,最后经过1x1卷积输送到解码器中;(5)将特征提取网络提取到的低级特征输送到解码器中,联同编码器特征进行拼接并进行语义分割。2.根据权利要求1所述的方法,其特征在于,使用无人机挂载视频采集装置,所述视频采集装置采用200万像素摄像头,视频流以每秒30帧的速率切分成帧,每隔30帧取一帧做数据预处理操作。3.根据权利要求2所述的方法,其特征在于,所述数据预处理操作包括:数据清洗、数据增强;数据清洗操作包括:冗余图片剔除操作和低质量模糊图片剔除操作;冗余图片剔除操作使用差异值哈希算法(dhash)比较两张图片的汉明距离(hamming distance)将图像相似度大于90%的图像删除;低质量模糊图片剔除操作使用拉普拉斯算子(laplacian)通过设置分位值参数将低质量的图片剔除;拉普拉斯算子使用二阶微分,二阶微分表达式如公式1所示:首先引入一阶一维连续函数求导:由公式2推导一阶一维离散函数求导,令δx=1:由公式3推导二阶一维离散函数在x轴方向的导数:f
″
(x)=(f
′
(x))
′
=(f(x)-f(x-1))
′
=f
′
(x)-f
′
(x-1)=[f(x+1)-f(x)]-[f(x)-f(x-1)]=f(x+1)+f(x-1)-2f(x)
ꢀꢀꢀꢀ
公式4同理可得二阶一维离散函数在y轴方向的导数:f
″
(y)=f(y+1)+f(y-1)-2f(y)
ꢀꢀꢀꢀ
公式5由公式4、公式5推导二阶微分拉普拉斯算子:
公式6即为拉普拉斯算子在空域的二阶微分形式,以此为基础构造拉普拉斯滤波器;数据增强操作包括,将随机抽取清洗后的图片做平滑滤波、多角度旋转、水平翻转、图片拼接、剪裁、颜色扰动操作;多角度旋转角度划分间隔为45度;图片拼接操作中随机抽取4张图片进行拼接,剪裁操作。4.根据权利要求1或3所述的方法,其特征在于,将数据预处理后的图片输送到deeplabv3编码器的特征提取网络resnet中提取数据特征;特征提取网络resnet中使用了门控残差块机制(gate-residual blockmechanism)和混合域注意力机制(hybridattention mechanism)共同控制特征输出。5.根据权利要求4所述的方法,其特征在于,所述混合域注意力机制,包含通道注意力机制和空间注意力机制;通道注意力机制使用通道相似度度量算法和softmax函数得到通道特征注意力矩阵;空间注意力模型使用像素梯度差和门控残差块得到细化的空间特征注意力矩阵;通道注意力矩阵和空间注意力矩阵与初始特征图分别以哈达玛积(hadamard product)的方式进行融合。6.根据权利要求5所述的方法,其特征在于,所述通道相似度度量算法,使用皮尔森相关系数(pearson correlation coefficient,pcc)衡量两个通道之间的相关性;使用deep-wise的方式将相似度高的通道进行逐像素融合;通道相似度度量计算如公式7所示:其中x
i
,x
j
为两个不同的特征通道,n表示变量数。7.根据权利要求5所述的方法,其特征在于,所述门控残差块机制,resnet的残差块结构中使用门控机制和通道相似度控制流入下一层网络的特征信息;在门控机制中使用sigmoid函数对输入的特征图进行权重重分配;resnet残差块的结构调整为批归一化(bn)+卷积(conv)+激活函数(leaky_relu),门控残差块数学表达如公式8、公式9所示:output=x+f(x2)
ꢀꢀꢀꢀ
公式9。8.一种抗样本扰动的语义分割装置,其特征在于,包括:存储器,用于存储计算机可读介质和程序及航拍数据集;cpu处理器,用于运行所述机器可读程序,执行权利要求1至7任一所述的方法;显卡,用于神经网络训练过程中加速对每张图像的特征提取和推理速度,执行权利要求1至7任一所述的方法。9.根据权利要求8所述的装置,其特征在于,所述计算机可读指令存储在计算机可读介质中,该计算机可读指令在被cpu处理器运行时,执行权利要求1至7任一所述的方法。10.根据权利要求8所述的装置,其特征在于,
至少设置一个容量为1t存储器、一个8核cpu处理器和一张型号为rtx3080ti及以上型号的英伟达(nvidia)显卡。
技术总结
本发明提供一种抗样本扰动的语义分割方法和装置,属于人工智能计算机视觉技术领域,包括:使用视频采集装置捕获外界视频流;将视频流切分成帧进行数据增强操作;将处理后的图片输入到DeeplabV3编码器使用残差网络(ResNet)进行特征提取;将提取到的特征一部分输入到空洞空间金字塔池化层(Atrous Spatial Pyramid Pooling,简称:ASPP)对特征做进一步细化处理,另一部分特征输送到解码器连同编码器中经ASPP处理后的特征进行特征拼接并对目标进行语义分割。通过使用通道相似度度量算法将通道信息进行融合提升特征的表达能力。将通道信息进行融合提升特征的表达能力。将通道信息进行融合提升特征的表达能力。
技术研发人员:郑群
受保护的技术使用者:浪潮软件集团有限公司
技术研发日:2023.05.10
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
