一种基于梯度和三重差分融合的对抗白盒攻击方法

技术2025-08-04 67

本发明属于图像处理，尤其涉及一种基于梯度和三重差分融合的对抗白盒攻击方法。

背景技术：

1、对抗攻击的研究始于计算机视觉领域，在这一领域中，深度学习网络模型(如卷积神经网络)已经展示出卓越的性能。然而，它们却极易受到对抗样本的攻击。对抗样本是通过对原始输入数据施加微小但特定的扰动而生成的，这些扰动能够显著误导模型的预测结果。对抗攻击主要分为白盒攻击和黑盒攻击。白盒攻击的目的是深入了解和测试模型的鲁棒性和安全性，其广泛应用于模型漏洞挖掘和安全评估、防御策略有效性验证、安全产品和服务的开发等业务场景。自从对抗样本被首次识别以来，人们着力于研究其高效生成技术，具体包括基于优化的l-bfgs(limited-memory broyden fletcher goldfarb shanno)算法、基于梯度的fgsm(fast gradient sign method)以及i-fgsm(iterative-fastgradient sign method)等，这些方法在提升白盒攻击的效率方面取得了显著进展，能在较多的迭代次数下实现较高的白盒攻击成功率。然而，它们在黑盒攻击场景下的效果尚待提高，特别是针对经过对抗性训练的复合模型。为了同时增强白盒和黑盒攻击的效果，文献提出了mifgsm(momentum iterative-fast gradient sign method)，引入了动量概念，以稳定损失函数梯度的更新方向并加速其收敛。后续要有一些类似研究，例如pi-fgsm、ni-fgsm(nesterov iterative-fast gradient sign method)等，在提高黑盒攻击成功率方面优于fgsm和i-fgsm，但在提升对抗样本迁移性和函数收敛性方面的成效仍然受限。究其原因是目前这类梯度攻击方法存在以下问题：

2、(1)梯度饱和：在深层网络中，尤其是使用激活函数如sigmoid或tanh时，深层的梯度可能会迅速衰减至接近零的值，这会导致在迭代过程中更新步骤变得极其微小，几乎不对模型参数产生影响，从而影响整体优化过程的效率和有效性。梯度饱和的一个明显特征是样本生成过程中收敛速度慢，只有经过多次迭代才能生成有效的对抗样本。

3、(2)过度拟合：在针对特定模型生成对抗样本时，生成的样本仅对该特定模型高度有效。这是因为算法可能会利用模型的特定弱点或特征，而这些特征可能在其他模型中不适用。这种过度拟合导致对抗样本的迁移性较差，意味着这些样本在对抗其他模型时效果大打折扣。

技术实现思路

1、本发明的目的是解决梯度饱和的问题，提高样本生成过程中收敛速度，防止过拟合。

2、为实现上述目的，本发明提供了一种基于梯度和三重差分融合的对抗白盒攻击方法，具体如下：

3、s1、数据预处理

4、原始样本进行尺寸缩放、旋转、翻转等预处理和数据增强操作。

5、s2、模型选择

6、将经过预处理的数据输入到深度学习的图像识别或分类模型中。

7、s3、在模型中插入apdl和tdlf

8、在softmax函数前后截取模型的logit值和梯度信息，并将他们输入到apdl和tdlf中产生对抗扰动，其中apdl的核心设计为通过可变步长和双重损失产生和优化对抗性扰动，tdlf通过引入蒸馏温度系数。

9、s31、apdl的自适应步长

10、自适应步长公式为：

11、

12、其中α表示位步长，x(clean)为原始的干净样本，x(adv)为生成的对抗样本，l是衡量干净样本和对抗样本距离函数，c0和c1为常数，设置c0的目的是确保步长的最小值，以防止在迭代过程中步长降至零而完全停滞，而c1的目的是调节步长的可变范围，以e为底数是利用其连续性和光滑性质，使步长调整过程更加平滑和自然。

13、s32、apdl的双重损失函数

14、采用交叉熵损失函数作为衡量干净样本和对抗样本距离函数的主体，modifiedhuber损失函数作为辅助。

15、双重损失函数的公式：

16、l(x,y)＝lce(x(clean),x(adv))+c2lmh(x(clean),x(adv))

17、其中lce为交叉损失函数，lmh为modified huber损失，c2为常数，x(clean)为原始的干净样本，x(adv)为生成的对抗样本。

18、s33、三重差分logit融合

19、蒸馏温度设置为：

20、t＝(logit(no.1)-logit(no.2))/(logit(no.1)-logit(no.3))

21、其中t为蒸馏温度，logit(no.1)，logit(no.2)，logit(no.3)为logit输出值降序排列的前三项；

22、引入蒸馏温度之后，softmax的计算方式调整为：

23、

24、其中为引入蒸馏温度系数之后，softmax函数的实际计算方式；logiti为通过网络的最后一层后且在应用激活函数之前输出的未归一化的预测值或分数，其为模型在进行分类任务时计算出来的原始分数，尚未转换为概率分布；t为蒸馏温度。

25、s4、生成对抗样本

26、将得到的对抗性扰动和原始样本图像叠加，生成初始的对抗样本，并将这个对抗样本重新输入到训练模型当中，多次迭代后输出最终的对抗样本。

27、有益效果：

28、本发明提出的自适应扰动方法通过与距离函数指数相关实现自适应控制单步步长，解决了梯度攻击方法梯度饱和的问题，有效提高了攻击过程中的收敛速度，并在较少的迭代次数内达到更高的攻击成功率。并且本发明引入基于知识蒸馏的三重差分logit融合技术，增加了扰动的多样性，有效减轻了梯度攻击的边缘效应，解决了对抗样本对特定模型的过度拟合问题，并且具有显著的攻击成功率和可转移性。

技术特征：

1.一种基于梯度和三重差分融合的对抗白盒攻击方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的基于梯度和三重差分融合的对抗白盒攻击方法，其特征在于，所述可变步长的计算公式为：

3.根据权利要求1所述的基于梯度和三重差分融合的对抗白盒攻击方法，其特征在于，双重损失函数包涵交叉熵损失函数和modofied huber损失函数，双重损失函数的公式为：

4.根据权利要求1所述的基于梯度和三重差分融合的对抗白盒攻击方法，其特征在于，蒸馏温度设置为：

技术总结
本发明提供了一种基于梯度和三重差分融合的对抗白盒攻击方法，将原始样本经过预处理和数据增强操作之后，输入到深度学习的图像识别或分类模型中，并在softmax函数前后截取了模型的logit值和梯度信息，输入到自适应扰动与双重损失优化模块和三重差分Logit融合模块中产生对抗性扰动。APDL通过自适应步长和双重损失，解决了梯度饱和的问题；TDLF通过引入蒸馏温度系数，解决了过度拟合的问题，增强跨模型攻击成功率。然后将得到的对抗性扰动和原始样本图像叠加，生成初始对抗样本，并将这个初始样本重新输入到训练模型当中，多次迭代后可输出最终的对抗样本。同时APDL和TDLF具有即插即用的优点，对于基于梯度的对抗样本生成方法，均能加速样本的生成过程和提高迁移性。

技术研发人员：刘长征,胡佳乐,孙毅,王跃东,张荣华,李享
受保护的技术使用者：石河子大学
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-34989.html

专利

最新回复(0)