本发明涉及计算机,具体提供一种敏感信息监测方法及装置。
背景技术:
1、随着信息技术的飞速发展,大数据和人工智能技术在各个领域得到了广泛应用。然而,与此同时,数据安全问题也日益凸显,尤其是敏感信息的泄露给个人、企业乃至国家安全带来了严重威胁。
2、因此,开发一种高效、准确的基于大模型的敏感信息监测技术,对于保障数据安全具有重要意义。
3、在敏感信息监测领域,现有的技术方法主要包括基于规则匹配、关键词过滤的传统方法,以及基于统计学习、机器学习的现代方法。然而,这些方法在实际应用中均存在一定的局限性。
4、基于规则匹配和关键词过滤的方法:这类方法依赖于预先定义的规则和关键词列表,对于符合规则和关键词的数据进行拦截和过滤。然而,随着网络环境的不断变化和数据的快速增长,规则和关键词列表的更新和维护变得十分困难,同时这类方法也容易受到同义词、变体词等因素的影响,导致漏报或误报。
5、基于统计学习和机器学习的方法:这类方法通过训练模型来识别敏感信息,能够处理更复杂的文本和图像数据。然而,这类方法通常需要大量的标注数据进行训练,且模型的性能和准确性受到训练数据质量和数量的影响。此外,对于某些特定领域或特定类型的敏感信息,这类方法可能无法达到理想的监测效果。
6、现有技术在敏感信息监测方面存在的问题主要包括:
7、(1)规则匹配方法无法覆盖所有情况,容易遗漏敏感信息;
8、(2)规则匹配方法需要不断更新和调整,维护成本较高;
9、(3)规则匹配方法在处理复杂文本时,容易受到噪声和干扰的影响。
技术实现思路
1、本发明是针对上述现有技术的不足,提供一种实用性强的敏感信息监测方法。
2、本发明进一步的技术任务是提供一种设计合理,安全适用的敏感信息监测装置。
3、本发明解决其技术问题所采用的技术方案是:
4、一种敏感信息监测方法,基于大模型,具有如下步骤:
5、s1、大模型挂载知识库;
6、s2、prompt构建;
7、s3、数据源队列生成;
8、s4、敏感性监测;
9、s5、运营人员复测;
10、s6、大模型知识库更新。
11、进一步的,在步骤s1中,进一步包括:
12、s1-1、数据准备;
13、(1)收集涉及敏感信息的知识资源;
14、(2)对收集的数据进行清洗和预处理,去除噪声和冗余信息;
15、s1-2、数据嵌入;
16、(1)将敏感数据转为向量表示,向量表示能够表达文本的语义信息;
17、(2)向量存储到向量数据库;
18、s1-3、设计接口;
19、(1)设计接口,将用户查询转为向量表示,并将与知识库的向量进行匹配;
20、(2)确认大模型与知识库之间的交互为api调用;
21、s1-4、挂载使用;
22、(1)大模型推理时,将用户查询转为向量表示;
23、(2)在知识库中检索与查询向量相似的文本或数据;
24、(3)将检索的数据作为大模型的输入。
25、进一步的,在步骤s2中,进一步包括:
26、s2-1、明确判断信息敏感性的目标;
27、s2-2、示例数据收集;
28、s2-3、设计prompt模板;
29、s2-4、填充prompt;
30、s2-5、生成输出。
31、进一步的,在步骤s2-1中,确定输出格式与长度限制,确定最终所需要的信息,判断信息是否涉及敏感信息,若有,给出风险关键词;
32、在步骤s2-2中,收集与敏感信息相关的示例数据,所述示例数据包含输入和对应的输出,分析敏感信息示例数据,了解输入和输出之间的模式和关系;
33、在步骤s2-3中,根据判断信息敏感性目标和对应示例数据,设计一个或多个prompt模板,根据示例数据填入prompt模板提问大模型的结果对prompt进行调整,增加适当内容;
34、在步骤s2-4中,对于每个输入样本,使用适当的prompt模板并填充必要信息,若prompt模板包含占位符,使用输入样本中的相关信息替换这些占位符。
35、进一步的,在步骤s2-5中,进一步包括:
36、(1)将填充好的prompt输入到大模型中;
37、(2)大模型根据prompt生成输出;
38、(3)评估生成的输出是否符合任务要求,对prompt模板进行迭代和优化,然后输出数据泄露关键字并按逗号分隔。
39、进一步的,在步骤s3中,首先,确认需要监测的目标数据源,然后将所述数据源传输到redis服务器中。
40、进一步的,在步骤s4中,进一步包括:
41、s4-1、监听redis服务器中的消息队列;
42、s4-2、大模型研判;
43、(1)数据源中每条信息代入prompt,调用大模型得出结果;
44、(2)步骤(1)中结果为涉及敏感信息,则提取其中风险关键词并存储;
45、(3)步骤(1)中结果为不涉及敏感信息时,直接输出。
46、s4-3、将步骤(2)中大模型研判结果以及对应的信息给到运营人员。
47、进一步的,在步骤s5中,进一步包括:
48、s5-1、对步骤s4中每一条信息进行敏感信息判定;
49、s5-2、步骤s5-1中结果与大模型结果进行对比;
50、结果相同,相应信息进行处理;
51、结果不同,将所述信息以及相应判定结果反馈给大模型。
52、进一步的,在步骤s5中,进一步包括:
53、s6-1、收集步骤s5中的反馈信息数据;
54、s6-2、信息数据处理;
55、对步骤s6-1中得到的数据进行清洗;
56、对步骤s6-1中得到的数据进行格式化和向量化;
57、s6-3、知识融合;
58、将新的数据与现有知识库进行融合。
59、一种敏感信息监测装置,包括:至少一个存储器和至少一个处理器;
60、所述至少一个存储器,用于存储机器可读程序;
61、所述至少一个处理器,用于调用所述机器可读程序,执行一种敏感信息监测方法。
62、本发明的一种敏感信息监测方法及装置和现有技术相比,具有以下突出的有益效果:
63、本发明提供的利用大模型对海量数据进行敏感信息监测的方法,利用了大模型的自然语言处理能力,相比于传统的敏感信息监测显著提升了识别准确率以及识别效率。
1.一种敏感信息监测方法,基于大模型,其特征在于,具有如下步骤:
2.根据权利要求1所述的一种敏感信息监测方法,其特征在于,在步骤s1中,进一步包括:
3.根据权利要求2所述的一种敏感信息监测方法,其特征在于,在步骤s2中,进一步包括:
4.根据权利要求3所述的一种敏感信息监测方法,其特征在于,在步骤s2-1中,确定输出格式与长度限制,确定最终所需要的信息,判断信息是否涉及敏感信息,若有,给出风险关键词;
5.根据权利要求4所述的一种敏感信息监测方法,其特征在于,在步骤s2-5中,进一步包括:
6.根据权利要求5所述的一种敏感信息监测方法,其特征在于,在步骤s3中,首先,确认需要监测的目标数据源,然后将所述数据源传输到redis服务器中。
7.根据权利要求6所述的一种敏感信息监测方法,其特征在于,在步骤s4中,进一步包括:
8.根据权利要求7所述的一种敏感信息监测方法,其特征在于,在步骤s5中,进一步包括:
9.根据权利要求8所述的一种敏感信息监测方法,其特征在于,在步骤s5中,进一步包括:
10.一种敏感信息监测装置,其特征在于,包括:至少一个存储器和至少一个处理器;