本发明涉及一种面向虚假信息的话语诱导方法,属于信息安全与文本分析。
背景技术:
1、随着信息技术的不断进步和大模型的广泛普及,人们的互联网使用和社交媒体互动不断增加,导致了大量的话语和文本数据的生成。这些数据中可能包含敏感语料,例如个人隐私信息或其他敏感内容。随着个性化服务和社交媒体应用的蓬勃发展,处理这些敏感语料并保护用户隐私变得愈发重要。
2、现有的自然语言处理方法尚未充分考虑敏感语料的存在,这可能导致潜在的隐私泄露风险。传统的nlp模型主要关注文本生成的自然流畅性和信息准确性,但它们很少关注如何处理和保护敏感语料。现有的文本处理方法通常忽略了用户行为和文本背后的社会规律,无法有效地处理敏感信息。此外,现有技术未能充分考虑到敏感语料的多样性和动态性,例如用户在不同时间、地点或情境下可能会产生不同的敏感语料,这增加了敏感信息保护的挑战。
3、因此,迫切需要一种新的方法,用于提高对话和文本数据的隐私和安全性。既要充分考虑到敏感语料的存在,采取适当的措施来保护敏感信息,同时还要能够确保文本的自然流畅性和信息完整性。
技术实现思路
1、本发明的目的是针对在对话和文本数据处理过程中,因忽略敏感语料的影响,导致现有大模型普遍会在某些特定提示下生成蕴含偏见、歧视敏感信息等问题和缺陷,创造性地提出一种面向虚假信息的话语诱导方法。
2、本发明的创新点包括:采用red-teaming核心理念,从攻击者的角度审视系统,将其应用于nlp模型的微调中。本方法不仅考虑如何生成文本,还思考了如何诱导模型在生成文本时能够识别和保护敏感语料,就像攻击者试图找到漏洞一样。
3、本发明采用以下技术方案实现。
4、一种面向虚假信息的话语诱导方法,包括以下步骤:
5、步骤1:将文本语料进行数字化表示。
6、步骤1.1:数据预处理,包括清洗数据和语料编码。其中:
7、清洗数据:使用自动化脚本去除数据集中的噪声和非相关数据。
8、语料编码:利用词嵌入技术,将文本数据转换为向量表示,以便于模型处理。
9、步骤1.2:微调模型。
10、利用迁移学习(transfer learning)技术,在敏感语料的诱导上微调预训练nlp模型。
11、其中,微调的目标函数(objective function)可以表示为:
12、
13、其中,l(θ)是损失函数;p(yi|xi;θ)表示给定输入xi和模型参数θ下的预测输出yi的概率;n表示样本总数。
14、步骤2:构建语料库。
15、步骤2.1:语料筛选和增强。
16、筛选出符合越狱提示的语料,去掉过短或无关的提示。然后,用同义词替换增强语料的丰富性。
17、步骤2.2:语料库构建。
18、结合人工构建的成功案例,构建结构化的越狱语料库。应用tf-idf进行关键词提取和重要性评分。
19、tf-idf(t,d,d) = tf(t,d)×idf(t,d) (2)
20、其中,t是词汇,d是文档,d是文档集;tf(t,d)是词频,表示该词语的出现频率,是对词数字的归一化,目的是防止偏向长的文档;idf(t,d)是逆文档频率,表示该词在多少不同的文档中出现过。
21、步骤2.3:收集诱导成功的示例,并增量更新越狱语料库。
22、步骤3:生成敏感信息。
23、步骤3.1:使用经过微调的模型,诱导(如llama、chatgpt等)生成敏感信息,并进行采样(可以用gumbel-softmax等技术)。
24、其中,gumbel-softmax分布是用于近似离散分布的连续分布,可以在反向传播中使用。通过引入gumbel噪声到离散分布的概率中,应用softmax函数来实现。
25、具体地,首先生成gumbel噪声:
26、对于每个类别i,生成gumbel噪声gi。gumbel噪声通过式3获得:
27、gi=-log(-log(ui)) (3)
28、其中,ui是从均匀分布u(0,1)中随机采样得到。
29、然后,应用softmax函数:
30、使用gumbel噪声和类别概率pi计算gumbel-softmax分布,对每个类别i,计算:其中τ是温度参数,控制采样“硬度”;k表示样本数量。较低的温度使分布更接近真实的离散分布。
31、最后,进行采样和梯度下降。
32、步骤4:性能评估。
33、步骤4.1:敏感度评分(sensitivity score)。
34、衡量生成话语与预定敏感主题的相关性
35、
36、其中,terms是生成文本中与敏感主题相关的词或短语;weight(terms)是该词或短语的相关性权重。
37、步骤4.2:文本相似度评估。
38、评估诱导模型生成的文本与人类生成文本的相似度。
39、具体地,使用bleu、rouge评分,以及基于开源预训练模型的困惑度(ppl)进行评估。
40、
41、其中,bp是惩罚因子,用于处理生成文本长度问题;wn和pn分别是n-gram的权重和精确度;ws和ps分别是敏感词汇的权重和匹配精确度,用来增强对敏感内容的关注;n表示bleu评分时考虑的最大n-gram的长度。
42、
43、其中,w是文本词序列;p(wi|w1,w2,...,wi-1)是给定之前单词的条件下,下一个单词的概率;f(wi)是调整因子,调整敏感词汇在生成文本中的影响,当wi为敏感词汇时,f(wi)将降低概率,防止过度集中敏感内容。
44、步骤4.3目标对齐评分。
45、评估生成话语与特定目标(如特定群体、主题)的对齐程度:target alignmentscore=
46、cosine similarity(vec(generated text),vec(target text))(7)其中,targetalignment score表示目标对齐分数;vec(generated text)和vec(target text)分别是生成文本和目标文本的向量表示;cosine similarity是余弦相似度函数,用于衡量两个向量之间的相似度。
47、步骤5:训练模型。
48、步骤5.1:计算损失函数loss。
49、loss=-∑(ylog(p)+(1-p)log(1-p)) (8)
50、其中,y是真实标签,p为预测概率。
51、步骤5.2:反向传播。
52、在计算出损失函数loss之后,进行loss的反向传播。
53、具体地,使用pytorch作为框架,调用loss.backward(),完成loss的方向传播。在方向传播中,模型会得到更新。
54、重复该过程,直到模型的表现达到要求。
55、步骤6:根据训练好的模型,生成含有诱导性信息的上下文,使用对抗攻击结合贪心的梯度搜索找到大模型漏洞增加提示攻击的后缀,最后拼接得到诱导性提示。
56、具体地,利用问答对比对,通过指令微调让大模型给出涉敏指数,同时对输入进行可解释分析,给出涉敏理由,为更合理的判断提供可解释的依据。通过序列到序列的生成式微调,使大语言模型捕捉敏感信息中独有的文本叙事特征,通过对抗攻击,捕捉大模型的提示漏洞,并依据这些特征和漏洞生成诱导性提示的上下文,用于攻击测试模型以测试其安全性。
57、有益效果
58、本发明方法,与现有技术相比,具有以下优点:
59、1.本方法充分考虑了敏感语料的识别和保护。本方法注重在文本生成过程中识别和处理敏感语料。模型会经过微调,以能够识别潜在的敏感信息,例如个人身份、其他数据等。
60、2.本方法具有自适应性,可以随着威胁和攻击方式的变化而不断演化。
61、3.本方法具备实时性,可以在文本生成的实际应用中实时应对潜在的风险和威胁。
1.一种面向虚假信息的话语诱导方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种面向虚假信息的话语诱导方法,其特征在于,步骤1包括以下步骤:
3.如权利要求2所述的一种面向虚假信息的话语诱导方法,其特征在于,步骤1.2中,微调的目标函数表示为:
4.如权利要求1所述的一种面向虚假信息的话语诱导方法,其特征在于,步骤2.2中,应用tf-idf进行关键词提取和重要性评分:
5.如权利要求1所述的一种面向虚假信息的话语诱导方法,其特征在于,步骤3中,采用gumbel-softmax技术,通过引入gumbel噪声到离散分布的概率中,应用softmax函数实现;
6.如权利要求1所述的一种面向虚假信息的话语诱导方法,其特征在于,步骤5.2,中,使用pytorch作为框架,调用loss.backward(),完成loss的方向传播;在方向传播中,模型会得到更新;重复该过程,直到模型的表现达到要求。
7.如权利要求1所述的一种面向虚假信息的话语诱导方法,其特征在于,步骤6中,利用问答对比对,通过指令微调让大模型给出涉敏指数,同时对输入进行可解释分析,给出涉敏理由,为更合理的判断提供可解释的依据;通过序列到序列的生成式微调,使大语言模型捕捉敏感信息中的文本叙事特征,通过对抗攻击,捕捉大模型的提示漏洞,并依据这些特征和漏洞生成诱导性提示的上下文,用于攻击测试模型以测试其安全性。