本申请涉及人工智能,尤其涉及一种基于大语言模型的敏感提问识别方法、装置、设备及介质。
背景技术:
1、大语言模型(large language model,llm)是一种基于transformer的生成式深度学习模型。随着人工智能技术的不断发展,各大企业都相继推出了自己的各种大模型,以用来解决各种信息检索、代码生成、写作辅助等工作。
2、但是,现有的大语言模型还无法有效识别各种敏感性提问,用户往往可以通过一些手段绕过敏感性提问的检测。例如:可以通过提示词注入、提示词泄露等手段攻击大语言模型以绕过敏感性提问的检测。其中,提示词注入是指用户使用提示词让模型输出用户任何想要的话,提示词泄露是指使用提示词让模型泄露如个人隐私等敏感信息。
3、当大语言模型未能识别这些敏感提问而如实回答时可能会有法律风险、隐私泄露风险,而当大语言模型误拒绝回答非敏感性提问时又会影响用户的正常使用体验。
4、鉴于以上问题,如何基于大语言模型进行有效的敏感提问识别成为了亟待解决的问题。
技术实现思路
1、本申请实施例提供了一种基于大语言模型的敏感提问识别方法、装置、设备及介质,旨在解决无法有效识别对大语言模型的敏感提问的问题。
2、第一方面,本申请实施例提供了一种基于大语言模型的敏感提问识别方法,其包括:
3、响应于基于大语言模型的敏感提问识别指令,获取每个用户提问,并在每个用户提问前添加预设数量的安全提示词及一个规范提示词,或者仅添加一个所述规范提示词,得到每个初始提示词;
4、在将每个初始提示词输入至所述大语言模型后,根据所述大语言模型的预期响应数据确定每个数据点;
5、计算每个数据点的主成分,并根据每个数据点的主成分计算每个数据点对应的拒绝响应概率及敏感提问判别概率;
6、根据每个数据点对应的拒绝响应概率及敏感提问判别概率创建目标损失函数;
7、以每个初始提示词作为训练样本,并基于所述目标损失函数训练所述大语言模型,得到目标模型;
8、响应于输入至所述目标模型的目标用户提问,基于所述目标模型对所述目标用户提问进行敏感性识别得到识别结果。
9、第二方面,本申请实施例提供了一种基于大语言模型的敏感提问识别装置,其包括:
10、添加单元,用于响应于基于大语言模型的敏感提问识别指令,获取每个用户提问,并在每个用户提问前添加预设数量的安全提示词及一个规范提示词,或者仅添加一个所述规范提示词,得到每个初始提示词;
11、确定单元,用于在将每个初始提示词输入至所述大语言模型后,根据所述大语言模型的预期响应数据确定每个数据点;
12、计算单元,用于计算每个数据点的主成分,并根据每个数据点的主成分计算每个数据点对应的拒绝响应概率及敏感提问判别概率;
13、创建单元,用于根据每个数据点对应的拒绝响应概率及敏感提问判别概率创建目标损失函数;
14、训练单元,用于以每个初始提示词作为训练样本,并基于所述目标损失函数训练所述大语言模型,得到目标模型;
15、识别单元,用于响应于输入至所述目标模型的目标用户提问,基于所述目标模型对所述目标用户提问进行敏感性识别得到识别结果。
16、第三方面,本申请实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于大语言模型的敏感提问识别方法。
17、第四方面,本申请实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于大语言模型的敏感提问识别方法。
18、本申请实施例提供了一种基于大语言模型的敏感提问识别方法、装置、设备及介质,能够在每个用户提问前添加预设数量的安全提示词及一个规范提示词,或者仅添加一个规范提示词得到每个初始提示词,并结合多维度因素构建目标损失函数,进一步基于每个初始提示词及目标损失函数训练大语言模型,并在训练过程中持续优化添加的安全提示词以及规范提示词的向量表示,从而使最终得到的目标模型能够有效识别敏感提问。
1.一种基于大语言模型的敏感提问识别方法,其特征在于,包括:
2.根据权利要求1所述的基于大语言模型的敏感提问识别方法,其特征在于,所述安全提示词包括对敏感提问的识别策略及响应策略;所述规范提示词包括对所述大语言模型的响应形式规范策略。
3.根据权利要求1所述的基于大语言模型的敏感提问识别方法,其特征在于,所述计算每个数据点的主成分,包括:
4.根据权利要求3所述的基于大语言模型的敏感提问识别方法,其特征在于,所述根据每个数据点的主成分计算每个数据点对应的拒绝响应概率及敏感提问判别概率,包括:
5.根据权利要求4所述的基于大语言模型的敏感提问识别方法,其特征在于,所述根据每个数据点对应的拒绝响应概率及敏感提问判别概率创建目标损失函数,包括:
6.根据权利要求1所述的基于大语言模型的敏感提问识别方法,其特征在于,所述以每个初始提示词作为训练样本,并基于所述目标损失函数训练所述大语言模型,得到目标模型,包括:
7.根据权利要求1所述的基于大语言模型的敏感提问识别方法,其特征在于,所述基于所述目标模型对所述目标用户提问进行敏感性识别得到识别结果后,所述方法还包括:
8.一种基于大语言模型的敏感提问识别装置,其特征在于,包括:
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于大语言模型的敏感提问识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于大语言模型的敏感提问识别方法。
