基于声纹识别系统服务拒绝后门的安全性测试方法和装置

    技术2025-02-01  52


    本发明属于计算机人工智能安全领域的一种基于声纹识别系统的安全性测试方法,具体涉及了一种基于声纹识别系统服务拒绝后门的安全性测试方法和装置。


    背景技术:

    1、近年来,随着语音信号处理和深度学习技术的成熟,基于深度神经网络的声纹识别系统已经广泛应用于各种场景下的身份认证任务。然而,考虑到声纹识别模型高昂的训练成本,许多开发人员采用机器学习即服务(mlaas)的方式部署声纹识别系统,这使得声纹识别系统容易遭受后门攻击。攻击者通过数据投毒或模型篡改的方式注入后门,这些后门并不会影响模型的正常使用,但攻击者可以通过触发器激活后门,从而恶意控制模型的输出。目前,后门攻击已经成为了深度学习的一个重要安全隐患。

    2、为了评估和改善声纹识别系统的安全性,需要进行前置性的后门脆弱性测试。然而,由于声纹识别系统的注册用户并不包含于声纹识别模型的训练数据集中,声纹识别系统的后门存在目标未知的问题,现有的测试方法通过少量通用后门覆盖整个高维声纹空间从而解决目标未知的问题以测试脆弱性。这种通用后门破坏了声纹识别系统的决策边界,实际上是通过牺牲声纹识别功能的方式进行测试。这些研究没有考虑对系统正常使用的影响,并不能模拟真实条件下的测试。此外,现有的研究并没有全面考虑触发器的物理鲁棒性,触发可控性和感知隐蔽性,这极大限制了这些测试方法的现实意义。

    3、因此,如何在现实物理空间中综合考虑声纹后门对模型性能和后门性能的影响,从而提供更为全面的攻击测试方案,是当前需要解决的问题。


    技术实现思路

    1、本发明针对现有技术的不足之处作出了改进,提出了一种基于声纹识别系统服务拒绝后门的安全性测试方法,实现了声纹服务拒绝后门的植入与激活技术,在现实的物理空间中兼顾了模型识别性能和后门激活性能,从而提供了更加具有现实意义的声纹识别后门攻击测试方案。

    2、本发明的技术方案如下:

    3、一、一种基于声纹识别系统服务拒绝后门的安全性测试方法

    4、获得目标声纹识别系统的预训练模型;

    5、根据声纹识别系统可能被部署的环境构建触发器集合,再根据触发器集合构建环境噪声集合;

    6、根据环境噪声集合和触发器集合,利用触发器位置无关模块对训练数据集进行数据增强和数据投毒后,获得毒化数据集;

    7、利用毒化数据集对预训练模型进行微调训练后再加载进声纹识别系统,获得受感染的声纹识别系统;

    8、受感染的声纹识别系统部署后,结合触发器集合,在物理空间中激活后门,获取后门脆弱性测试结果。

    9、所述根据声纹识别系统可能被部署的环境构建触发器集合,再根据触发器集合构建环境噪声集合,包括:

    10、将声纹识别系统可能被部署的环境对应的环境音作为触发器,构建包含不同环境音的触发器集合st;

    11、根据触发器集合st中环境音种类,收集若干同种类但是不包含在触发器集合st中的环境音,从而构建环境噪声集合sn。

    12、所述根据环境噪声集合和触发器集合,利用触发器位置无关模块对训练数据集进行数据增强和数据投毒后,获得毒化数据集,包括:

    13、根据环境噪声集合,利用触发器位置无关模块对训练数据集进行数据增强,获得数据增强后的训练数据集;

    14、利用触发器位置无关模块以构建伪目标说话人的方式毒化数据增强后的训练数据集,获得最终的毒化数据集。

    15、所述触发器位置无关模块以样本位置无关的方式将原始样本和目标样本叠加,获得处理后的样本。

    16、所述触发器位置无关模块中,对于原始样本u和目标样本t,将目标样本t添加到原始样本u的第l到l+lt个采样点上后获得处理后的样本up,具体公式如下:

    17、l~uniform(0,lu-lt)

    18、up=u⊕t

    19、其中,lu和lt分别为原始样本u和目标样本t的长度,lu>lt,uniform()为均匀分布;⊕表示从满足均匀分布的样本uniform(0,lu-lt)中采样出采样点l,再将目标样本t添加到原始样本u的第l到l+lt个采样点上的叠加操作。

    20、所述根据环境噪声集合,利用触发器位置无关模块对训练数据集进行数据增强,获得数据增强后的训练数据集,包括:

    21、从训练数据集d中抽取x%的数据并组成待处理样本集d′,将待处理样本集d′中一段语音信号记为原始样本,从环境噪声集合sn中抽取一个环境噪声音频并记为目标样本,利用触发器位置无关模块将原始样本和目标样本叠加后,获得数据增强后的样本,遍历处理待处理样本集d′中的每段语音信号后,获得加入环境噪声的数据集dn′,将去除待处理样本集d′的训练数据集d与加入环境噪声的数据集dn′合并后获得数据增强后的训练数据集dn。

    22、所述利用触发器位置无关模块以构建伪目标说话人的方式毒化数据增强后的训练数据集,获得最终的毒化数据集,包括:

    23、将数据增强后的训练数据集分为多次批次,获得不同批次的数据集dc;

    24、对于每个批次的数据集dc,其包含n×m段语音信号,n为说话人的个数,m为每个说话人的语音信号数,从该批次的数据集dc中采样出m段语音信号组成语音信号采样集合ds,将语音信号采样集合ds中的一段语音信号作为原始样本以及将触发器集合st中每个触发器作为目标样本,利用触发器位置无关模块向原始样本上分别叠加触发器集合st中每个触发器,获得该原始样本对应的nt个毒化样本,nt为触发器集合st中触发器的数目,遍历毒化处理语音信号采样集合ds中的每一段语音信号后后,获得包含不同触发器的毒化样本集合dt;将该批次的数据集dc和包含不同触发器的毒化样本集合dt合并后获得该批次的毒化数据集dp;

    25、依次遍历毒化处理不同批次的数据集dc,获得对应的毒化数据集dp,从而获得最终的毒化数据集。

    26、所述利用毒化数据集对预训练模型进行微调训练,包括:

    27、利用毒化数据集中不同批次的毒化数据集dp依次对预训练模型进行微调训练,直至训练完成,获得最终的模型。

    28、所述预训练模型的微调训练过程中,其损失函数包含干净损失lc和毒化损失lp,公式如下:

    29、

    30、lc=-sc+log∑exp(sc)

    31、lp=-sp+log∑exp(sp)

    32、其中,l为总损失值,其基于不确定性的多任务损失函数定义,σc和σp为第一超参和第二超参,sc和sp分别代表干净损失和毒化损失的相似度矩阵,exp()是指数函数。

    33、二、一种基于声纹识别系统服务拒绝后门的安全性测试装置

    34、声学集合构建模块,用于根据声纹识别系统可能被部署的环境构建触发器集合和环境噪声集合;

    35、毒化数据集生成模块,用于根据环境噪声集合和触发器集合,利用触发器位置无关模块对训练数据集进行数据增强和数据投毒;

    36、声纹识别系统的后门植入模块,用于利用毒化数据集对预训练模型进行微调训练后再加载进声纹识别系统;

    37、后门激活测试模块,用于根据部署的物理环境选择触发器,并且与实际用户配合,对受感染的声纹识别系统进行后门拒绝测试。

    38、所述根据触发器集合构建环境噪声集合,包括:

    39、根据触发器集合中的环境音,将不同环境音中可能出现的与环境音类似的声音记为环境噪声,改变环境噪声的音量和持续时间后组成环境噪声集合sn。

    40、本发明采用多种位置无关的环境音作为触发器,经过数据增强后,通过构建伪目标说话人的方式毒化数据集微调预训练模型以注入后门,并引入多任务损失降低后门植入的成本。目标声纹识别系统部署后,在物理空间通过触发器进行后门激活测试,根据已注册的合法用户是否会被系统拒绝从而验证目标声纹识别系统是否存在后门脆弱性。

    41、本发明的有益效果为:

    42、本文提出了一种面向声纹识别系统的服务拒绝后门脆弱性测试方法,该方法兼顾了后门激活成功率和模型识别准确率,能够在物理空间的现实场景下隐蔽,可控地激活后门,从而更加全面,真实地评估声纹识别系统的后门脆弱性,其具体效果包括:

    43、1)触发器的物理有效性,本发明选用环境音这种自然声音作为触发器,并实现了触发器位置无关模块来模拟真实的物理条件下触发器与原始相对位置不确定的情况,实现了触发器的物理有效性。

    44、2)触发器的感知隐蔽性:本发明中,选用了多个场景下的不同环境音作为触发器,并根据目标声纹识别系统被部署的环境选择适配的触发器激活后门,触发器声音与环境融为一体,因此具有较强的隐蔽性。

    45、3)后门的可控性:本发明基于多触发器集合对应构建出环境噪声集合,并利用环境噪声集合对训练数据集做数据增强,从而避免了类似触发器的环境音误触后门,这大大提高了后门的可控性。

    46、4)后门激活成功率和模型识别准确率的兼顾:本发明将后门植入过程重新建模为多任务学习过程,并引入动态损失权重同步优化两种任务,进而保证了后门激活成功率和模型识别准确率的兼顾。


    技术特征:

    1.一种基于声纹识别系统服务拒绝后门的安全性测试方法,其特征在于,包括:

    2.根据权利要求1所述的一种基于声纹识别系统服务拒绝后门的安全性测试方法,其特征在于,所述根据声纹识别系统可能被部署的环境构建触发器集合,再根据触发器集合构建环境噪声集合,包括:

    3.根据权利要求1所述的一种基于声纹识别系统服务拒绝后门的安全性测试方法,其特征在于,所述根据环境噪声集合和触发器集合,利用触发器位置无关模块对训练数据集进行数据增强和数据投毒后,获得毒化数据集,包括:

    4.根据权利要求1所述的一种基于声纹识别系统服务拒绝后门的安全性测试方法,其特征在于,所述触发器位置无关模块以样本位置无关的方式将原始样本和目标样本叠加,获得处理后的样本。

    5.根据权利要求1所述的一种基于声纹识别系统服务拒绝后门的安全性测试方法,其特征在于,所述触发器位置无关模块中,对于原始样本u和目标样本t,将目标样本t添加到原始样本u的第l到l+lt个采样点上后获得处理后的样本up,具体公式如下:

    6.根据权利要求3所述的一种基于声纹识别系统服务拒绝后门的安全性测试方法,其特征在于,所述根据环境噪声集合,利用触发器位置无关模块对训练数据集进行数据增强,获得数据增强后的训练数据集,包括:

    7.根据权利要求3所述的一种基于声纹识别系统服务拒绝后门的安全性测试方法,其特征在于,所述利用触发器位置无关模块以构建伪目标说话人的方式毒化数据增强后的训练数据集,获得最终的毒化数据集,包括:

    8.根据权利要求1所述的一种基于声纹识别系统服务拒绝后门的安全性测试方法,其特征在于,所述利用毒化数据集对预训练模型进行微调训练,包括:

    9.根据权利要求1所述的一种基于声纹识别系统服务拒绝后门的安全性测试方法,其特征在于,所述预训练模型的微调训练过程中,其损失函数包含干净损失lc和毒化损失lp,公式如下:

    10.一种基于声纹识别系统服务拒绝后门的安全性测试装置,包括:


    技术总结
    本发明公开了一种基于声纹识别系统服务拒绝后门的安全性测试方法和装置。本发明采用多种位置无关的环境音作为触发器,经过环境噪声对数据集做数据增强后,通过构建伪目标说话人的方式毒化数据集,再微调预训练模型以注入后门,微调过程中引入的多任务损失降低了后门植入的成本。受感染的声纹识别系统部署后,在物理空间通过触发器进行后门激活测试,根据已注册的合法用户是否会被系统拒绝从而验证目标声纹识别系统是否存在后门脆弱性。本发明综合考虑了现实条件下的物理有效性,触发可控性和感知隐蔽性,能够完成声纹识别系统的后门脆弱性的前置性验证。

    技术研发人员:卢立,赵小迪,陈锰,任奎
    受保护的技术使用者:浙江大学计算机创新技术研究院
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-25749.html

    最新回复(0)