本发明涉及智能算法对抗领域,特别是涉及一种目标检测模型黑盒对抗攻击方法和装置。
背景技术:
1、近年来,以深度神经网络为代表的机器学习技术不断发展与成熟,已在各种复杂任务中不断取得新的突破,在目标检测等应用中已经达到或超越人类的认知水平。然而,对抗样本的出现暴露了现有智能模型在安全性、鲁棒性方面存在不足,给智能模型在安全性需求更高的场景中的广泛部署带来极大的安全隐患。
2、根据攻击者对模型了解程度的多少,可以将对抗样本攻击分为白盒攻击和黑盒攻击:若攻击者完全了解模型的内部结构或内部逻辑,则该模型对于攻击者为白盒模型,对其的攻击为白盒攻击;否则,该模型对于攻击者为黑盒模型,对其的攻击为黑盒攻击。在黑盒攻击的场景中,攻击者无法根据模型的结构或逻辑进行攻击,仅能根据模型的输入信息和输出信息进行攻击,因此,黑盒攻击的两种主要攻击方式分别为基于查询的黑盒攻击,以及基于迁移的黑盒攻击。其中,基于查询的黑盒攻击需要获取目标模型的输出信息,然而,真实场景的模型往往仅提供有限的查询次数且查询成本过高;而基于迁移的黑盒攻击方式,利用对抗样本具有一定的迁移能力,对一个模型产生的对抗样本能够欺骗其他模型的特性。通过白盒攻击算法找到白盒模型的对抗样本,再利用对抗样本的迁移特性,即假若a模型和b模型针对同一任务,功能结构类似,输入和输出一致,则针对白盒模型a生成的对抗样本能够以一定的概率成功攻击未知的黑盒模型b。由于不需要获取目标黑盒模型b的任何信息,基于迁移的黑盒攻击更有利于真实场景的攻击,但成功率往往更低。
3、鉴于此,如何克服现有技术所存在的缺陷,解决对于目标检测模型,基于迁移的黑盒攻击成功率较低的现象,是本技术领域待解决的问题。
技术实现思路
1、针对现有技术的以上缺陷或改进需求,本发明解决了对于目标检测模型,基于迁移的黑盒攻击成功率较低的问题。
2、本发明实施例采用如下技术方案:
3、第一方面,本发明提供了一种目标检测模型黑盒对抗攻击方法,具体为:获取与黑盒模型功能一致的白盒模型,对原始样本进行预处理后输入白盒模型中,以获取目标检测框;将对抗补丁初始化后叠加在每个原始样本上目标检测框的中心位置,以获得对抗样本;生成白盒模型的变体,将对抗样本输入白盒模型和白盒模型的变体中,得到白盒模型的检测结果;基于对抗扰动单元博弈交互性构建损失函数,使用损失函数计算检测结果的损失函数值,根据损失函数值更新对抗补丁,直到生成的对抗补丁使得白盒模型的检测结果出错;利用对抗补丁的迁移特性,将得到的对抗补丁用于攻击黑盒模型,以使黑盒模型的检测结果出错。
4、优选的,所述将对抗补丁初始化后叠加在每个原始样本上目标检测框的中心位置,以获得对抗样本,具体包括:将对抗补丁初始化为灰度图或随机噪声图,预处理后在对抗补丁上随机选取一个指定大小的矩形区域,以随机噪声填充选取的矩形区域;将填充后的对抗补丁叠加在原始样本上目标检测框的中心位置,将叠加对抗补丁后的原始样本作为对抗样本。
5、优选的,所述生成白盒模型的变体,具体包括:将白盒模型中网络堆叠层的输出和残差块的主体进行线性组合,在前向及反向传播时对白盒模型的神经网络中的残差连接进行扰动,以产生指定数量的白盒模型的变体。
6、优选的,所述基于对抗扰动单元博弈交互性构建损失函数,具体包括:根据攻击目标的位置置信度和类别置信度,构建对抗性指标;根据对抗补丁相邻像素间的欧式距离,构建扰动平滑度指标;根据对抗补丁的像素值和打印色彩像素值之差,构建可打印性指标;根据对抗补丁的对抗扰动单元间博弈交互性,构建对抗扰动单元博弈交互性指标;根据对抗性指标、扰动平滑度指标、可打印性指标和对抗扰动单元博弈交互性指标,构建损失函数。
7、优选的,所述根据对抗补丁的对抗扰动单元间博弈交互性,构建对抗扰动单元博弈交互性指标,具体包括:将对抗补丁划分为至少两个扰动单元;依次获取每两个扰动单元,计算对抗补丁上扰动单元间的博弈交互作用;将原始样本输入黑盒模型获取第一攻击效用,将对抗样本输入黑盒模型得到第二攻击效用,根据第一攻击效用和第二攻击效用构建对抗补丁的迁移对抗效用;基于对抗扰动单元间的博弈交互和对抗补丁的迁移对抗效用,构建对抗扰动单元博弈性。
8、优选的,所述将对抗补丁划分为至少两个扰动单元,具体包括:将对抗补丁切分为指定大小的栅格,每个栅格的大小相同;获取栅格中所有像素点的扰动值的平均值,将平均值作为该栅格的扰动单元值。
9、优选的,所述根据每两个扰动单元之间的博弈交互对于对抗效用的贡献,构建对抗扰动单元间的博弈交互,具体包括:对抗扰动单元间的博弈交互iij(p)使用以下公式表示:
10、iij(p)=φ(sij|ω')-[φ(i|ω\{j})+φ(j|ω\{i})];
11、其中,φ(i|ω\{j})和φ(j|ω\{i})分别表示扰动单元i,j单独存在时对对抗效用(transfer utility)的贡献;φ(sij|ω')表示扰动单元i,j同时存在时对对抗效用的总贡献。
12、优选的,所述将原始样本输入黑盒模型获取第一攻击效用,将对抗样本输入黑盒模型得到第二攻击效用,根据第一攻击效用和第二攻击效用构建对抗补丁的迁移对抗效用,具体包括:所述对抗补丁的迁移对抗效用使用以下公式表示:
13、
14、其中,x表示原始样本,x+p表示对抗样本;h表示黑盒模型的输出,hy(·)为h(·)∈rc的第y个元素的值。
15、第二方面,本发明提供了一种目标检测模型黑盒对抗攻击装置,具体为:包括至少一个处理器和存储器,至少一个处理器和存储器之间通过数据总线连接,存储器存储能被至少一个处理器执行的指令,指令在被处理器执行后,用于完成第一方面中的目标检测模型黑盒对抗攻击方法。
16、第三方面,本发明提供了一种非易失性计算机存储介质,具体的:所述计算机存储介质存储有计算机程序指令,该计算机程序指令被一个或多个处理器执行时实现如第一方面所述的目标检测模型黑盒对抗攻击方法。
17、第四方面,提供了一种芯片,包括:处理器和接口,用于从存储器中调用并运行存储器中存储的计算机程序,执行如第一方面所述的目标检测模型黑盒对抗攻击方法。
18、第五方面,提供了一种包含指令的计算机程序产品,当该指令在计算机或处理器上运行时,使得计算机或处理器执行如第一方面所述的目标检测模型黑盒对抗攻击方法。
19、与现有技术相比,本发明的有益效果在于:在损失函数中添加对抗扰动博弈交互性指标,能够提升对抗补丁的迁移性,提高对黑盒模型的攻击成功率;生成的对抗补丁可以用于黑盒模型的鲁棒性测评,用于测试智能模型面对对抗攻击时保持正确检测的能力。
1.一种目标检测模型黑盒对抗攻击方法,其特征在于,包括:
2.根据权利要求1所述的目标检测模型黑盒对抗攻击方法,其特征在于,所述将对抗补丁初始化后叠加在每个原始样本上目标检测框的中心位置,以获得对抗样本,具体包括:
3.根据权利要求1所述的目标检测模型黑盒对抗攻击方法,其特征在于,所述生成白盒模型的变体,具体包括:
4.根据权利要求1所述的目标检测模型黑盒对抗攻击方法,其特征在于,所述基于对抗扰动单元博弈交互性构建损失函数,具体包括:
5.根据权利要求4所述的目标检测模型黑盒对抗攻击方法,其特征在于,所述根据对抗补丁的对抗扰动单元间博弈交互性,构建对抗扰动单元博弈交互性指标,具体包括:
6.根据权利要求5所述的目标检测模型黑盒对抗攻击方法,其特征在于,所述将对抗补丁划分为至少两个扰动单元,具体包括:
7.根据权利要求5所述的目标检测模型黑盒对抗攻击方法,其特征在于,所述计算对抗补丁上扰动单元间的博弈交互作用,具体包括:
8.根据权利要求5所述的目标检测模型黑盒对抗攻击方法,其特征在于,所述将原始样本输入黑盒模型获取第一攻击效用,将对抗样本输入黑盒模型得到第二攻击效用,根据第一攻击效用和第二攻击效用构建对抗补丁的迁移对抗效用,具体包括:
9.一种目标检测模型黑盒对抗攻击装置,其特征在于:
10.一种非易失性计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,用于完成如权利要求1-8任一项所述的目标检测模型黑盒对抗攻击方法。