针对大语言模型转述攻击的基于句子语义的水印方法

    技术2025-07-26  14


    本发明属于自然语言处理和信息安全,更为具体地讲,涉及一种针对大语言模型转述攻击的基于句子语义的水印方法。


    背景技术:

    1、目前,大语言模型(large language model,llm)在自然语言处理和理解领域取得了显著的成就。然而,这些强大的人工智能模型有可能被滥用于各种不当行为,例如编造假新闻。当假新闻和真实内容难以区分,很容易对数字空间造成危害。此外,被人工智能生成的内容污染的数据集可能会不利于人工智能模型的训练,有可能强化偏差或者损害模型性能。因此,要维护公共话语的完整性并确保人工智能技术的道德发展,就必须能够可靠地识别llm生成的文本。近年来,针对llm生成文本的检测方法主要分为以下几种:零样本方法、基于神经网络的方法、水印方法和基于检索的方法。

    2、在上述几种方法中,尽管现有的水印方法取得了显著的成功,但其有效性在面对转述攻击时会大大降低,转述攻击会将单词调整为同义词并重新组织句子结构,从而破坏“掩码”——生成标记期间将词汇表划分为的首选的“绿色列表”和次选的“红色列表”。具体而言,在转述攻击下,标记级水印会遇到掩码被更改及其后续标记的分区被更改的问题,这些问题将损害水印的完整性。抗转述攻击的水印方法设计必须权衡灵活性、计算效率和操作实用性的因素,并努力寻找既能保持文本质量又不会牺牲速度或者增加检测错误可能性的方法。


    技术实现思路

    1、本发明的目的在于克服现有技术的不足,提供一种针对大语言模型转述攻击的基于句子语义的水印方法,将生成的水印文本的语义嵌入映射到一个空间维度大小与词汇表大小相等的向量空间中,在这个空间中精确定位一定数量的最小元素的索引以形成绿色列表,然后利用该列表指导新词语标记的生成逻辑,以抵抗对于大语言模型的转述攻击。

    2、为了实现上述发明目的,本发明针对大语言模型转述攻击的基于句子语义的水印方法包括以下步骤:

    3、s1:根据实际需要设置分词器、生成式大语言模型、词汇表和语义嵌入模型,其中:

    4、分词器包括正向处理过程和逆向处理过程,正向处理过程是对输入文本进行分词并得到每个词语对应的标记,逆向处理过程是根据词语标记生成输出文本;

    5、词汇表用于保存词语标记,由分词器基于预先设置的词语集生成,记词汇表大小为v;

    6、生成式大语言模型用于根据输入标记序列生成概率分布,概率分布中包括词汇表中每个词语标记对应的对数概率pv,v=1,2,…,v,用于对词语标记进行选择;

    7、语义嵌入模型用于计算文本对应的语义嵌入向量;

    8、s2:初始化输入文本,采用分词器的正向处理过程得到对应的输入标记序列t=[t0,…,tn-1],其中ti′表示输入文本中第i′个词语标记,i′=0,1,…,n-1,n表示输入文本的初始长度,初始化绿色列表g为空,设置一个向量空间pv,其维度为词汇表的大小v;

    9、s3:初始化新增词语序号i=n,输入标记序列x=t;

    10、s4:将输入标记序列x输入生成式大语言模型,得到词汇表中每个词语标记的对数概率pi,v;

    11、s5:判断绿色列表g是否为空或标记ti-1是否为句子分隔符,如果有任意一项满足,则进入步骤s6,如果均不满足,进入步骤s8;

    12、s6:采用语义嵌入模型得到当前输入标记序列x的语义嵌入向量,并将其投影至预先设置的向量空间pv,得到维度为v的投影语义嵌入向量ex;

    13、s7:从投影语义嵌入向量ex中选择前k个最小的元素,记录其元素序号dk,k=1,2,…,k,将k个序号dk构成绿色列表g;

    14、s8:采用如下公式对步骤s4中生成的对数概率进行修正,得到修正后的对数概率

    15、

    16、其中,δ表示预设的水印强度;

    17、s9:采用预设的采样方法根据对数概率从词汇表中采样得到某个词语标记xi,将其添加至输入标记序列x后,更新输入标记序列x=(x,xi);

    18、s10:判断是否i<m,m表示预设的新增词语数量,如果是,进入步骤s10,否则进入步骤s11;

    19、s11:令i=i+1,返回步骤s4;

    20、s12:分词器采用其逆向处理过程对输入标记序列x进行转换,将得到的文本作为水印文本进行发送。

    21、本发明针对大语言模型转述攻击的基于句子语义的水印方法,在生成式大语言模型生成新的词语标记时,先根据输入标记序列生成词汇表中每个词语标记的概率,采用语义嵌入模型得到当前输入标记序列的语义嵌入向量,并将其投影至预先设置维度大小与词汇表大小相同的向量空间,得到对应的投影语义嵌入向量,从中选取最小的若干元素序号构成绿色列表,对于词汇表中每个词语标记,如果属于绿色列表则根据预设的水印强度对其概率进行修正,如果不属于绿色列表则当前概率即为修正后的概率,根据修正后的概率选择新的词语标记,如此循环,生成水印文本。

    22、本发明提出一种稳健的水印方法,引入了一种新颖的基于句子语义的水印方法,有效抵消复杂的转述攻击和安全风险挑战。通过对不同数据集和模型进行严格测试,本发明始终证明能够有效地嵌入和检查水印,且不会对文本的语言质量或多样性产生实质性影响。



    技术特征:

    1.一种针对大语言模型转述攻击的基于句子语义的水印方法,其特征在于包括:

    2.根据权利要求1所述的水印方法,其特征在于,所述步骤s8中水印强度δ的取值范围为2~8。

    3.根据权利要求1所述的水印方法,其特征在于,还包括以下步骤:

    4.根据权利要求2所述的水印方法,其特征在于,所述阈值z的取值范围为[3,5]。


    技术总结
    本发明公开了一种针对大语言模型转述攻击的基于句子语义的水印方法,在生成式大语言模型生成新的词语标记时,先根据输入标记序列生成词汇表中每个词语标记的对数概率,采用语义嵌入模型得到当前输入标记序列的语义嵌入向量,并将其投影至预先设置的向量空间,得到对应的投影语义嵌入向量,从中选取最小的若干元素序号构成绿色列表,对于词汇表中每个词语标记,如果属于绿色列表则根据预设的水印强度对其对数概率进行修正,如果不属于绿色列表则当前对数概率即为修正后的对数概率,根据修正后的对数概率选择新的词语标记,如此循环,生成水印文本。本发明通过生成绿色列表并指导新词语标记的生成逻辑,以抵抗对于大语言模型的转述攻击。

    技术研发人员:高联丽,王寒,郑超凡,王轩瀚,宋井宽
    受保护的技术使用者:电子科技大学(深圳)高等研究院
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-34530.html

    最新回复(0)