一种基于域变换的自适应位置约束稀疏对抗样本生成方法
未命名
10-19
阅读:144
评论:0
1.本发明属于机器学习的对抗样本攻击技术领域,具体涉及一种基于域变换的自适应位置约束稀疏对抗样本生成方法。
背景技术:
2.对抗样本是指人为制造出的一种针对机器学习模型的输入样本,它们被设计成在人眼无法察觉的情况下,能够欺骗机器学习模型产生错误的输出结果。对抗样本攻击是机器学习模型安全性领域中一个重要的问题,尤其是在安全相关领域和人工智能应用中,对抗样本攻击对模型的鲁棒性和安全性造成了极大的威胁。
3.深度神经网络模型在处理各种分类和识别任务方面已经取得了巨大成功。然而,深度神经网络在面对对抗攻击时,容易受到针对其模型结构的对抗攻击。对抗攻击可以通过添加一些人类不可察觉的微小扰动来欺骗深度神经网络模型,使其产生错误的输出结果。对抗样本的攻击方式包括无限范数攻击、l1、l2范数攻击、l0范数攻击等。其中l0范数攻击是一种针对机器学习模型的修改固定像素个数攻击方式,与其他攻击方式不同的是,它可以限制修改像素的个数,从而使得对抗样本更加难以被人眼察觉。同时,为了进一步提升攻击的鲁棒性和可靠性,稀疏矩阵被用作改动像素生成位置的掩码矩阵,这也使得l0范数攻击可以被称为稀疏攻击方法。同时,对抗攻击根据是否指定攻击目标类别,分为目标攻击和无目标攻击。
4.在当前的对抗样本生成方法中,为了欺骗深度神经网络模型,攻击者通常会添加大量噪声和扰动到原始图像中,以使得攻击后的图像与原始图像看起来相似度更高。然而,这种方法容易受到模型对噪声和扰动的敏感度影响,同时也会导致添加的扰动过重,使得攻击后的图像不够自然,影响了攻击的鲁棒性和可靠性。因此,研究如何设计一种能够在欺骗深度神经网络的同时,尽量减小添加的扰动量,增强攻击的鲁棒性和可靠性,成为当前对抗攻击领域的研究热点之一。
5.现有的图像稀疏对抗攻击方法中,由于没有对扰动位置添加约束,扰动像素点相对明显,现实世界中,人类总是更多地关注一张图像中地高频部分,高频部分的颜色、纹理更为丰富,因此更适合添加对抗性扰动。针对这一问题,本发明提出了一种基于域变换的自适应位置约束稀疏对抗样本生成方法。
技术实现要素:
6.本发明的目的是解决现有技术的不足,提出了一种基于域变换的自适应位置约束稀疏对抗样本生成方法,来减少对抗样本数据改动的可见性,同时提供目标攻击和非目标攻击两种攻击方式的生成方法构建,能够适应不同场景下的对抗样本生成需求。
7.本发明是通过以下技术方案实现的:
8.一种基于域变换的自适应位置约束稀疏对抗样本生成方法,本方法首先将原始图像样本输入到编码器中,得到深度特征,然后利用两个解码器对深度特征进行解码,其中第
一解码器用来生成限定范围内的全局性扰动数据,第二解码器用来生成二值化掩码矩阵来控制保留扰动像素位置;然后将第一解码器得到的全局性扰动数据和第二解码器得到的掩码矩阵进行点乘操作,得到初步的稀疏扰动矩阵;
9.将原始图像样本输入到小波变换层中,得到对应的高频特征图像,然后利用自适应二值化算法对输出进行二值化,再对输出进行归一化处理,得到一个能够限定扰动附加区域的高频位置限制二值化矩阵;然后将该该二值化矩阵与稀疏扰动矩阵进行相乘,得到最终的对抗扰动,将对抗扰动附加到原图上,得到最终的对抗样本图像。
10.在上述技术方案中,所述第一解码器的输出进行非线性映射输出到[-eps,+eps]之间,其中eps为能够接受的最大扰动数值。
[0011]
在上述技术方案中,所述第二解码器的输出映射到[0,1]之间,得到概率矩阵,然后再经过二值化操作映射成0,1编码,得到二值化掩码矩阵,该掩码矩阵保留限定扰动区间范围内的像素扰动情况。
[0012]
在上述技术方案中,在二值化时引入随机量化算子,当p(x)=1时进行二值量化,p(x)=0时保留原有值,p(x)是指一个概率,p(x)服从伯努利分布。
[0013]
在上述技术方案中,本发明根据对抗攻击场景设计了无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型,所述无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型均执行上述基于域变换的自适应位置约束稀疏对抗样本生成方法;通过判断输入的原始图像样本中是否含有指定输出类别的标签,来判断对抗攻击场景是目标攻击还是无目标攻,进而选择对应的对抗样本生成模型进行对抗样本的生成。
[0014]
在上述技术方案中,无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型在训练时的损失函数均包括三个部分:生成损失、二值损失和模型识别损失,其中两个模型的生成损失和二值损失的损失函数完全相同,两个模型的模型识别损失函数有如下区别:
[0015]
目标攻击对抗样本生成模型的模型识别损失函数为:
[0016]
loss(pred,target)=crossentropyloss(pred,target)
[0017]
其中pred为白盒目标模型输出的预测值,target为目标类别值,crossentroyloss为交叉熵损失函数;
[0018]
无目标攻击对抗样本生成模型的模型识别损失函数为:
[0019]
loss(pred,target)=1-crossentropyloss(pred,target)
[0020]
其中pred为白盒目标模型输出的预测值,target为输入数据真实的标签类别值,crossentroyloss为交叉熵损失函数;
[0021]
综合loss函数如下:
[0022]
loss=α
·
l
gen
+β
·
l
bin
+γ
·
l
rec
[0023]
其中,l
gen
、l
bin
、l
rec
分别代表生成损失、二值损失和模型识别损失,α、β、γ为调和系数。
[0024]
本发明的优点和有益效果为:
[0025]
本发明主要用来解决当前图像分类模型l0对抗攻击方法产生的对抗样本视觉隐藏度不高的问题,通过将扰动附加区域限制在高频区域,使得添加的扰动像素点附加位置可以限定在色彩变化明显、纹理变化剧烈的所需区域范围内,能够显著提高模型产生的对抗样本的扰动不可见性。同时,本发明产生的对抗样本能够保留相对较好的攻击效果。同时
本发明提供了目标攻击和非目标攻击两种攻击方式的生成方法构建,能够适应不同场景下的对抗样本生成需求。
附图说明
[0026]
图1为本发明的基于域变换的自适应位置约束稀疏对抗样本生成方法的架构图。
[0027]
图2为根据不同的对抗攻击场景自动选择相应的模型进行对抗样本的生成的流程图。
[0028]
对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据以上附图获得其他的相关附图。
具体实施方式
[0029]
为了使本技术领域的人员更好地理解本发明方案,下面结合具体实施例进一步说明本发明的技术方案。
[0030]
实施例一
[0031]
一种基于域变换的自适应位置约束稀疏对抗样本生成方法,参见附图1,本方法首先将原始图像样本输入到编码器中(原始图像样本为一张白盒目标模型能够识别正确的图像),得到深度特征,然后利用两个解码器对深度特征进行解码,其中第一解码器用来生成限定范围内的全局性扰动数据,第二解码器用来生成二值化掩码矩阵来控制保留扰动像素位置。
[0032]
具体的讲:所述第一解码器的输出进行非线性映射输出到[-eps,+eps]之间,其中eps为能够接受的最大扰动数值,从而生成全局性扰动数据并限定了扰动的区间范围;所述第二解码器的输出映射到[0,1]之间,得到概率矩阵,然后再经过二值化操作映射成0,1编码,得到二值化掩码矩阵,该掩码矩阵保留限定扰动区间范围内的像素扰动情况,进一步的,本发明为了实现反向传播,在二值化时引入随机量化算子,当p(x)=1时进行二值量化,p(x)=0时保留原有值,p(x)是指一个概率,p(x)服从伯努利分布。
[0033]
然后,将第一解码器得到的全局性扰动数据和第二解码器得到的掩码矩阵进行点乘操作,得到初步的稀疏扰动矩阵。
[0034]
将原始图像样本输入到小波变换层中,得到对应的高频特征图像,然后利用自适应二值化算法对输出进行二值化,再对输出进行归一化处理,这样就得到了一个能够限定扰动附加区域的高频位置限制二值化矩阵;然后将该该二值化矩阵与稀疏扰动矩阵进行相乘,得到最终的对抗扰动,将对抗扰动附加到原图上,得到最终的对抗样本图像。
[0035]
实施例二
[0036]
在实施例一的基础上,进一步的,本方法根据对抗攻击场景设计了无目标和目标攻击两种对抗样本生成模型(即无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型),能够根据输入的原始图像样本的要求,自动选择相应的模型进行对抗样本的生成。
[0037]
无目标攻击是指:不指定输出结果的类别,只要诱导模型识别结果与原图像真实类别标签不同即可。目标攻击是指,指定诱导模型识别错误输出的类别,且该类别与输入图像真实标签不一致;也就是说,目标攻击时,输入模型的原始图像样本中需要含有指定输出类别的标签。进而可以通过判断输入的原始图像样本中是否含有指定输出类别的标签,来
判断对抗攻击场景是目标攻击还是无目标攻,进而选择对应的对抗样本生成模型进行对抗样本的生成。
[0038]
无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型的结构是相同的,均如实施例一所述,包括一个编码器和两个解码器,并且所述无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型均执行上述基于域变换的自适应位置约束稀疏对抗样本生成方法。但是两个模型在训练时的损失函数有区别的,即,无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型,是需要进行训练的,在训练过程中,需要在生成对抗样本后,输入白盒目标模型,通过白盒目标模型计算损失函数,根据损失函数计算情况不断更新无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型中的编码器和解码器参数,直至损失值满足设定要求,从而得到满足要求的无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型。
[0039]
具体的讲,无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型在训练时的损失函数均包括三个部分:生成损失、二值损失和模型识别损失,其中两个模型的生成损失和二值损失的损失函数完全相同,生成损失指的是采样损失,二值损失指的是二值化损失,但是两个模型的模型识别损失函数有如下区别:
[0040]
目标攻击对抗样本生成模型的模型识别损失函数为:
[0041]
loss(pred,target)=crossentropyloss(pred,target)
[0042]
其中pred为白盒目标模型输出的预测值,target为目标类别值,crossentroyloss为交叉熵损失函数。
[0043]
无目标攻击对抗样本生成模型的模型识别损失函数为:
[0044]
loss(pred,target)=1-crossentropyloss(pred,target)
[0045]
其中pred为白盒目标模型输出的预测值,target为输入数据真实的标签类别值,crossentroyloss为交叉熵损失函数。
[0046]
综合loss函数如下:
[0047]
loss=α
·
l
gen
+β
·
l
bin
+γ
·
l
rec
[0048]
其中,l
gen
、l
bin
、l
rec
分别代表生成损失、二值损失和模型识别损失,α、β、γ为调和系数。
[0049]
在训练完成后,得到满足要求的无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型。然后,参见附图2,即可根据输入的原始图像样本中是否含有指定输出类别的标签,来判断对抗攻击场景是目标攻击还是无目标攻,进而选择对应的对抗样本生成模型进行对抗样本的生成。
[0050]
以上对本发明做了示例性的描述,应该说明的是,在不脱离本发明的核心的情况下,任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。
技术特征:
1.一种基于域变换的自适应位置约束稀疏对抗样本生成方法,其特征在于:首先将原始图像样本输入到编码器中,得到深度特征,然后利用两个解码器对深度特征进行解码,其中第一解码器用来生成限定范围内的全局性扰动数据,第二解码器用来生成二值化掩码矩阵来控制保留扰动像素位置;然后将第一解码器得到的全局性扰动数据和第二解码器得到的掩码矩阵进行点乘操作,得到初步的稀疏扰动矩阵;将原始图像样本输入到小波变换层中,得到对应的高频特征图像,然后利用自适应二值化算法对输出进行二值化,再对输出进行归一化处理,得到一个能够限定扰动附加区域的高频位置限制二值化矩阵;然后将该该二值化矩阵与稀疏扰动矩阵进行相乘,得到最终的对抗扰动,将对抗扰动附加到原图上,得到最终的对抗样本图像。2.根据权利要求1所述的基于域变换的自适应位置约束稀疏对抗样本生成方法,其特征在于:所述第一解码器的输出进行非线性映射输出到[-eps,+eps]之间,其中eps为能够接受的最大扰动数值。3.根据权利要求1所述的基于域变换的自适应位置约束稀疏对抗样本生成方法,其特征在于:所述第二解码器的输出映射到[0,1]之间,得到概率矩阵,然后再经过二值化操作映射成0,1编码,得到二值化掩码矩阵,该掩码矩阵保留限定扰动区间范围内的像素扰动情况。4.根据权利要求3所述的基于域变换的自适应位置约束稀疏对抗样本生成方法,其特征在于:在二值化时引入随机量化算子,当p(x)=1时进行二值量化,p(x)=0时保留原有值,p(x)是指一个概率,p(x)服从伯努利分布。5.根据权利要求1所述的基于域变换的自适应位置约束稀疏对抗样本生成方法,其特征在于:根据对抗攻击场景设计无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型,所述无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型均执行如权利要求1所述的基于域变换的自适应位置约束稀疏对抗样本生成方法;通过判断输入的原始图像样本中是否含有指定输出类别的标签,来判断对抗攻击场景是目标攻击还是无目标攻,进而选择对应的对抗样本生成模型进行对抗样本的生成。6.根据权利要求5所述的基于域变换的自适应位置约束稀疏对抗样本生成方法,其特征在于:无目标攻击对抗样本生成模型和目标攻击对抗样本生成模型在训练时的损失函数均包括三个部分:生成损失、二值损失和模型识别损失,其中两个模型的生成损失和二值损失的损失函数相同,两个模型的模型识别损失函数有如下区别:目标攻击对抗样本生成模型的模型识别损失函数为:loss(pred,target)=1-crossentropyloss(pred,target)其中pred为白盒目标模型输出的预测值,target为目标类别值,crossentroyloss为交叉熵损失函数;无目标攻击对抗样本生成模型的模型识别损失函数为:loss(pred,target)=1-crossentropyloss(pred,target)其中pred为白盒目标模型输出的预测值,target为输入数据真实的标签类别值,crossentroyloss为交叉熵损失函数;综合loss函数如下:loss=α
·
l
gen
+β
·
l
bin
+γ
·
l
rec
其中,l
gen
、l
bin
、l
rec
分别代表生成损失、二值损失和模型识别损失,α、β、γ为调和系数。
技术总结
本发明提出了一种基于域变换的自适应位置约束稀疏对抗样本生成方法,本方法首先利用基于编码器-解码器结构的模型进行对抗扰动的生成,对编码后图像特征解码生成对抗扰动的过程进行解耦,一个用来生成全局性限定范围内的对抗扰动,一个用来生成二值化掩码,该掩码可以限定修改像素数量值,通过将两者进行融合可得到全局性稀疏对抗扰动;然后通过使用域变换对输入图像进行域转换提取高频图像特征,然后利用自适应二值化算法对特征进行二值化处理,再将处理后的图像特征归一化到[0,1]内,最后将得到的图像特征与全局性稀疏对抗扰动进行融合,再附加到原图上得到对抗性图像样本。再附加到原图上得到对抗性图像样本。再附加到原图上得到对抗性图像样本。
技术研发人员:戚永军 宋媛萌 贾正正 王宇辰 贾召弟
受保护的技术使用者:北华航天工业学院
技术研发日:2023.06.29
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
