一种敏感信息监测方法及装置与流程

    技术2024-12-24  45


    本发明涉及计算机,具体提供一种敏感信息监测方法及装置。


    背景技术:

    1、随着信息技术的飞速发展,大数据和人工智能技术在各个领域得到了广泛应用。然而,与此同时,数据安全问题也日益凸显,尤其是敏感信息的泄露给个人、企业乃至国家安全带来了严重威胁。

    2、因此,开发一种高效、准确的基于大模型的敏感信息监测技术,对于保障数据安全具有重要意义。

    3、在敏感信息监测领域,现有的技术方法主要包括基于规则匹配、关键词过滤的传统方法,以及基于统计学习、机器学习的现代方法。然而,这些方法在实际应用中均存在一定的局限性。

    4、基于规则匹配和关键词过滤的方法:这类方法依赖于预先定义的规则和关键词列表,对于符合规则和关键词的数据进行拦截和过滤。然而,随着网络环境的不断变化和数据的快速增长,规则和关键词列表的更新和维护变得十分困难,同时这类方法也容易受到同义词、变体词等因素的影响,导致漏报或误报。

    5、基于统计学习和机器学习的方法:这类方法通过训练模型来识别敏感信息,能够处理更复杂的文本和图像数据。然而,这类方法通常需要大量的标注数据进行训练,且模型的性能和准确性受到训练数据质量和数量的影响。此外,对于某些特定领域或特定类型的敏感信息,这类方法可能无法达到理想的监测效果。

    6、现有技术在敏感信息监测方面存在的问题主要包括:

    7、(1)规则匹配方法无法覆盖所有情况,容易遗漏敏感信息;

    8、(2)规则匹配方法需要不断更新和调整,维护成本较高;

    9、(3)规则匹配方法在处理复杂文本时,容易受到噪声和干扰的影响。


    技术实现思路

    1、本发明是针对上述现有技术的不足,提供一种实用性强的敏感信息监测方法。

    2、本发明进一步的技术任务是提供一种设计合理,安全适用的敏感信息监测装置。

    3、本发明解决其技术问题所采用的技术方案是:

    4、一种敏感信息监测方法,基于大模型,具有如下步骤:

    5、s1、大模型挂载知识库;

    6、s2、prompt构建;

    7、s3、数据源队列生成;

    8、s4、敏感性监测;

    9、s5、运营人员复测;

    10、s6、大模型知识库更新。

    11、进一步的,在步骤s1中,进一步包括:

    12、s1-1、数据准备;

    13、(1)收集涉及敏感信息的知识资源;

    14、(2)对收集的数据进行清洗和预处理,去除噪声和冗余信息;

    15、s1-2、数据嵌入;

    16、(1)将敏感数据转为向量表示,向量表示能够表达文本的语义信息;

    17、(2)向量存储到向量数据库;

    18、s1-3、设计接口;

    19、(1)设计接口,将用户查询转为向量表示,并将与知识库的向量进行匹配;

    20、(2)确认大模型与知识库之间的交互为api调用;

    21、s1-4、挂载使用;

    22、(1)大模型推理时,将用户查询转为向量表示;

    23、(2)在知识库中检索与查询向量相似的文本或数据;

    24、(3)将检索的数据作为大模型的输入。

    25、进一步的,在步骤s2中,进一步包括:

    26、s2-1、明确判断信息敏感性的目标;

    27、s2-2、示例数据收集;

    28、s2-3、设计prompt模板;

    29、s2-4、填充prompt;

    30、s2-5、生成输出。

    31、进一步的,在步骤s2-1中,确定输出格式与长度限制,确定最终所需要的信息,判断信息是否涉及敏感信息,若有,给出风险关键词;

    32、在步骤s2-2中,收集与敏感信息相关的示例数据,所述示例数据包含输入和对应的输出,分析敏感信息示例数据,了解输入和输出之间的模式和关系;

    33、在步骤s2-3中,根据判断信息敏感性目标和对应示例数据,设计一个或多个prompt模板,根据示例数据填入prompt模板提问大模型的结果对prompt进行调整,增加适当内容;

    34、在步骤s2-4中,对于每个输入样本,使用适当的prompt模板并填充必要信息,若prompt模板包含占位符,使用输入样本中的相关信息替换这些占位符。

    35、进一步的,在步骤s2-5中,进一步包括:

    36、(1)将填充好的prompt输入到大模型中;

    37、(2)大模型根据prompt生成输出;

    38、(3)评估生成的输出是否符合任务要求,对prompt模板进行迭代和优化,然后输出数据泄露关键字并按逗号分隔。

    39、进一步的,在步骤s3中,首先,确认需要监测的目标数据源,然后将所述数据源传输到redis服务器中。

    40、进一步的,在步骤s4中,进一步包括:

    41、s4-1、监听redis服务器中的消息队列;

    42、s4-2、大模型研判;

    43、(1)数据源中每条信息代入prompt,调用大模型得出结果;

    44、(2)步骤(1)中结果为涉及敏感信息,则提取其中风险关键词并存储;

    45、(3)步骤(1)中结果为不涉及敏感信息时,直接输出。

    46、s4-3、将步骤(2)中大模型研判结果以及对应的信息给到运营人员。

    47、进一步的,在步骤s5中,进一步包括:

    48、s5-1、对步骤s4中每一条信息进行敏感信息判定;

    49、s5-2、步骤s5-1中结果与大模型结果进行对比;

    50、结果相同,相应信息进行处理;

    51、结果不同,将所述信息以及相应判定结果反馈给大模型。

    52、进一步的,在步骤s5中,进一步包括:

    53、s6-1、收集步骤s5中的反馈信息数据;

    54、s6-2、信息数据处理;

    55、对步骤s6-1中得到的数据进行清洗;

    56、对步骤s6-1中得到的数据进行格式化和向量化;

    57、s6-3、知识融合;

    58、将新的数据与现有知识库进行融合。

    59、一种敏感信息监测装置,包括:至少一个存储器和至少一个处理器;

    60、所述至少一个存储器,用于存储机器可读程序;

    61、所述至少一个处理器,用于调用所述机器可读程序,执行一种敏感信息监测方法。

    62、本发明的一种敏感信息监测方法及装置和现有技术相比,具有以下突出的有益效果:

    63、本发明提供的利用大模型对海量数据进行敏感信息监测的方法,利用了大模型的自然语言处理能力,相比于传统的敏感信息监测显著提升了识别准确率以及识别效率。



    技术特征:

    1.一种敏感信息监测方法,基于大模型,其特征在于,具有如下步骤:

    2.根据权利要求1所述的一种敏感信息监测方法,其特征在于,在步骤s1中,进一步包括:

    3.根据权利要求2所述的一种敏感信息监测方法,其特征在于,在步骤s2中,进一步包括:

    4.根据权利要求3所述的一种敏感信息监测方法,其特征在于,在步骤s2-1中,确定输出格式与长度限制,确定最终所需要的信息,判断信息是否涉及敏感信息,若有,给出风险关键词;

    5.根据权利要求4所述的一种敏感信息监测方法,其特征在于,在步骤s2-5中,进一步包括:

    6.根据权利要求5所述的一种敏感信息监测方法,其特征在于,在步骤s3中,首先,确认需要监测的目标数据源,然后将所述数据源传输到redis服务器中。

    7.根据权利要求6所述的一种敏感信息监测方法,其特征在于,在步骤s4中,进一步包括:

    8.根据权利要求7所述的一种敏感信息监测方法,其特征在于,在步骤s5中,进一步包括:

    9.根据权利要求8所述的一种敏感信息监测方法,其特征在于,在步骤s5中,进一步包括:

    10.一种敏感信息监测装置,其特征在于,包括:至少一个存储器和至少一个处理器;


    技术总结
    本发明涉及计算机技术领域,具体提供了一种敏感信息监测方法及装置,基于大模型,具有如下步骤:S1、大模型挂载知识库;S2、prompt构建;S3、数据源队列生成;S4、敏感性监测;S5、运营人员复测;S6、大模型知识库更新。与现有技术相比,本发明能够提供的大模型对海量数据进行敏感信息监测的方法,利用了大模型的自然语言处理能力,相比于传统的敏感信息监测显著提升了识别准确率以及识别效率。

    技术研发人员:马云云,孙海峰,李聪,徐士强
    受保护的技术使用者:浪潮云信息技术股份公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-24177.html

    最新回复(0)