本发明属于后门检测领域,具体涉及一种基于谱特征分析的目标检测后门攻击数据检测方法。
背景技术:
1、随着技术的发展,机器学习模型被广泛应用在不同的领域进行决策,使用此类模型的系统的安全性也越来越受到关注。现代机器学习模型通常在多个来源的大量数据上进行训练,然而这些数据并非都是可信的。一个特别令人关注的场景是后门攻击,后门攻击是投毒攻击的一种形式,可以显著影响模型的表现,甚至操控模型的预测结果。后门攻击十分隐蔽,攻击者在训练集中嵌入触发器,当特定触发器出现时,模型的预测结果将被操控,而在其他情况下,模型表现正常。后者由于其隐蔽性和特定性,更加难以检测和防御。为了应对数据后门攻击,提出了多种检测和防御技术,主要有针对图像分类和目标检测两大应用场景的方法。目前针对图像分类的后门攻击方法已经进行了大量的探索,包括数据清洗与预处理、异常检测、模型训练期间的监控以及数据溯源分析等,这些方法通过多角度、多层次的手段提升模型的鲁棒性和安全性,而目标检测任务由于复杂性研究方法较少。
2、当前的后门攻击防御方法主要集中在图像分类任务和目标检测任务两大领域。对于图像分类任务,后门攻击的目标通常是将图像错误地分到一个目标类,例如,攻击者可以在训练数据中注入带有特定触发器的图像,并将这些图像标签为某个特定类。当训练好的模型在检测到该触发器时,就会将输入图像错误地分类为攻击者指定的类别。对于目标检测任务,目标检测模型不仅需要分类,还要定位一幅图像中的多个目标,因此模型需要了解触发器与多个目标之间的关系,具有代表性的目标检测模型,如faster r-cnn和yolov3,由多个子模块组成,这些子模块包括特征提取、区域建议、边界框回归和分类等多个步骤,比图像分类模型更复杂。然而,这些方法在实际应用中面临着两大主要挑战:一方面,后门攻击因其隐蔽性和特定性而难以检测和防御。攻击者通常在训练数据中注入仅在特定条件下触发的恶意样本,使得模型在正常情况下表现良好,只有在触发器出现时才会表现异常。这种隐蔽性使得传统的检测方法难以识别被污染的数据和模型。而且,由于触发器的特定性,只有攻击者知道具体的触发条件,增加了防御的难度。这使得需要更先进和灵敏的检测技术,能够在多种情况下识别出潜在的后门攻击。另一方面,相比于图像分类任务,针对目标检测任务的后门攻击检测方法较少且检测精度不高。目标检测任务需要同时进行分类和定位,模型结构复杂,且一幅图像中可能包含多个不同类别的目标,增加了检测的难度。现有的检测方法难以准确识别和定位触发器,因为触发器可能只影响图像中的某个实例。此外,目标检测模型使用的评估指标(如map)更加复杂,需要新的技术和方法来提升检测的精度和可靠性。因此,针对目标检测任务的后门攻击防御技术亟需进一步发展,以应对这一领域的特定挑战。
技术实现思路
1、(一)要解决的技术问题
2、本发明要解决的技术问题是如何提供一种基于谱特征分析的目标检测后门攻击数据检测方法,以提升目标检测任务中的后门攻击数据检测能力。
3、(二)技术方案
4、为了解决上述技术问题,本发明提出一种基于谱特征分析的目标检测后门攻击数据检测方法,该方法包括如下步骤:
5、步骤s1、目标数据集生成:首先根据目标检测数据集每张图像的边界框标注信息从原始图像裁剪出每一个单独的目标生成新的目标数据集;
6、步骤s2、特征提取:然后将目标数据集作为输入,训练一个分类神经网络,获取每个目标样本的特征表示;
7、步骤s3、谱特征分析:接着将获取的特征表示按类别进行划分,得到每个类别的特征表示,进而计算得到每个类别的协方差矩阵,随后对协方差矩阵进行奇异值分解来分析协方差矩阵中的谱特征;
8、步骤s4、计算异常分数:然后根据奇异值分解得到的谱特征中的奇异向量计算得到每个样本的异常分数;
9、步骤s5、判断有毒图像:最后设定一个分数阈值作为判断标准,将异常分数大于阈值的样本记为有毒样本,返回有毒样本及其对应的异常分数,最终将有毒样本对应的的原始图像记为有毒图像。
10、(三)有益效果
11、本发明提出一种基于谱特征分析的目标检测后门攻击数据检测方法,本发明基于谱特征分析的后门攻击数据检测方法通过目标数据集生成、特征提取、谱特征分析、计算异常分数、判断有毒图像来检测目标检测任务中的后门攻击,既可以充分利用神经网络的表示学习能力和谱方法的强大检测能力,又可以利用图像分类模型在检测后门攻击方面已经较为成熟的技术,来提升目标检测任务中的后门攻击数据检测能力。
1.一种基于谱特征分析的目标检测后门攻击数据检测方法,其特征在于,该方法包括如下步骤:
2.如权利要求1所述的基于谱特征分析的目标检测后门攻击数据检测方法,其特征在于,所述步骤s1中,给定待检测的目标检测数据集,数据集中包含了大量的待检测图像及其相对应的标注文件,每张图像包含了多个具体的目标,其中有的目标可能被投毒,被投毒目标的左上角会贴有一个触发器,这个触发器是一个很小的固定图案而无法轻易被视觉识别,每张图像的标注文件包含了关于该图像的名称、图像的高度h、宽度w、通道数c以及图像中所有目标的类别和边界框坐标(xmin,ymin,xmax,ymax)其中被投毒目标的类别标注会被更改为其他错误类别。
3.如权利要求2所述的基于谱特征分析的目标检测后门攻击数据检测方法,其特征在于,所述步骤s1具体包括:
4.如权利要求3所述的基于谱特征分析的目标检测后门攻击数据检测方法,其特征在于,所述步骤s2具体包括:对于目标数据集将其作为输入,训练一个分类神经网络进行特征提取以获取目标样本的特征表示其中hi表示目标样本xi的特征表示。
5.如权利要求4所述的基于谱特征分析的目标检测后门攻击数据检测方法,其特征在于,所述步骤s2中,采用restnet50对目标数据集进行特征提取,并将最后一层softmax层之前的输出作为目标样本的特征表示,最后一层softmax层之前输出的高维特征包含了丰富的、高层次的语义信息。
6.如权利要求4或5所述的基于谱特征分析的目标检测后门攻击数据检测方法,其特征在于,所述步骤s3中,首先将获取的特征表示按照该目标所对应的类别标签按类别进行划分,得到每个类别的特征表示,假设得到类别i的样本特征表示为其中ni表示类别i中样本的个数,m表示特征的维度,定义特征矩阵为:
7.如权利要求6所述的基于谱特征分析的目标检测后门攻击数据检测方法,其特征在于,所述步骤s4具体包括:
8.如权利要求7所述的基于谱特征分析的目标检测后门攻击数据检测方法,其特征在于,所述步骤s5具体包括:
9.如权利要求8所述的基于谱特征分析的目标检测后门攻击数据检测方法,其特征在于,阈值τthreshold基于百分数确定:
10.如权利要求8所述的基于谱特征分析的目标检测后门攻击数据检测方法,其特征在于,阈值τthreshold基于固定比例确定: