本发明属于数据分类,具体涉及一种数据分类分级系统及其数据分类分级方法。
背景技术:
1、数据分类是将数据按照属性或特征进行分组和归类的过程,以便更好地管理和使用数据。数据分类可以建立统一、准确的数据架构,并为数据管理提供基础。数据分级是在数据分类的基础上,根据数据的重要性和敏感度差异,采用规范的方法对数据进行定级的过程。数据分级可以帮助组织或企业确定数据的安全策略,确保敏感数据的安全性和合规性。
2、随着大数据时代的到来,数据被认识为重要的生产要素,数据安全变得尤为重要。敏感数据的泄漏可能对个人或社会造成重大伤害,如个人隐私信息、金融账号、身份证号码等。对敏感数据进行分类和分级后,可以制定相应的安全措施和访问权限,以保护数据的安全性和隐私性。
3、在传统数据分类分级系统中,对数据的分类分级是通过正则匹配来进行处理,然而当某表中含有诸多字段时,每个字段就需要进行多次的正则计算,如此巨大的计算量,在流量冲击下,是十分浪费时间且很可能导致服务器过载。
4、目前关于数据分类分级的研究大多聚焦于正则匹配。随着机器学习和深度学习的发展,现在已有不少框架能够应用与数据分类分级系统。现有的数据分类分级系统要么通过决策树或向量机等其他机器学习模型完成对数据的分类分级,要么则是传统方式通过正则匹配。前者相比于正则匹配,当数据字段不够多时,速度慢,且细分情况以及精确度没有正则匹配高,且当对于模版中有新数据类型加入或改变时,可能都需要对模型进行重新训练后才能够投入使用。而正则匹配,相对于前者,当某数据库表中含有大量字段时,需要花费巨大的时间。若某一领域模版包含100种数据,每种数据平均有2种正则匹配规则,那么针对一个包含10个字段的表的某一个字段至多需要200次匹配,一个表中的一行就需要进行2000次,这效率显然是十分低下的;且针对非结构化数据,如不包含数据段时,传统机器学习完全失效,若只依赖于正则匹配,速度过慢;面对加密数据时,正则匹配则会失效,且实际中,并没有能够很好对加密数据进行识别的分类分级引擎。
技术实现思路
1、本发明要解决的问题是改进现有分类分级手段不足的问题,提出一种数据分类分级系统及其数据分类分级方法。
2、为实现上述目的,本发明通过以下技术方案实现:
3、一种数据分类分级系统,包括应用层、服务层、基础层、数据源层、组件层,所述应用层连接服务层,所述服务层连接基础层,所述基础层分别连接数据源层、组件层;
4、所述应用层包括数据源引入模块、模板管理模块、数据分类分级模块和识别结果展示模块,所述数据源引入模块用于引入外部数据资源和暗数据发现,所述模板管理模块实现不同领域的模板管理,所述数据分类分级模块用于智能识别数据并根据模板进行分类分级,所述识别结果展示模块展示数据库和文件识别引擎的结果;
5、所述服务层包括分类分级引擎、文件识别引擎、系统服务引擎,所述分类分级引擎包括正则匹配模块、大模型智能识别模块,所述文件识别引擎实现对pdf、ppt等文件内容的识别技术,所述系统服务引擎采用typescript、react、graphql和nestjs构建,用于提供系统的核心功能和用户接口;
6、所述基础层包括用户管理模块、任务调度模块、系统设置模块和日志系统模块。用户管理模块用于管理系统用户权限和信息,任务调度模块用于计划和执行分类分级识别任务以及暗数据发现任务,系统设置模块提供系统参数的配置和管理,日志系统模块记录系统的活动和错误信息;
7、所述数据源层用于存储和获取数据,采用mysql作为数据存储引擎,同时采用redis作为缓存用于临时数据存储;
8、所述组件层包括用于容器化管理和应用部署的docker组件,用于身份验证和授权的jwt组件,实现实时通信的websocket组件。
9、进一步的,所述大模型智能识别模块包括识别模型、正则规则生成模型,识别模型用于进行数据表中字段名的识别、数据表中字段名的生成、定制化模版生成、加密数据的识别,所述正则规则生成模型用于针对给定的数据信息生成相应的正则规则;
10、所述正则匹配模块通过hyperscan实现,在大模型智能识别模块运行之后生效,起到校验作用。
11、进一步的,所述服务层的系统服务引擎的前端技术栈使用react作为前端框架,采用typescript进行开发,配合ant design ui组件库,实现了前端页面的渲染、数据请求和展示功能;后端技术栈使用nestjs作为后端框架,采用typescript进行开发,提供路由、中间件、数据校验功能,结合graphql作为api语言和prisma orm框架,实现数据的crud操作。
12、进一步的,所述应用层设置加密模块,加密模块使用对称加密算法或非对称加密算法或者识别大模型智能识别模块的数据进行反向替换。
13、进一步的,所述大模型智能识别模块选择bert作为基准模型,采用lora技术对大模型智能识别模块进行微调和训练;
14、所述采用lora技术进行训练的方法包括如下步骤:
15、步骤1.数据准备:收集并预处理与任务相关的数据,包括输入文本和标签/目标输出;将数据划分为训练集、验证集和测试集;
16、步骤2.将lora模型初始化:下载预训练好的bert模型作为基础,在bert模型的各个注意力层和前馈层中,添加lora适配层,lora适配层由两个小型的可训练矩阵组成,用于高效地微调模型参数;
17、步骤3.冻结bert模型的主体参数,训练lora适配层的参数;
18、步骤4.进行超参数设置:
19、包括设置学习率、批量大小、训练轮数,选择优化器为adamw,根据任务调整lora适配层的rank大小;
20、步骤5.使用训练集对lora层进行微调训练,在验证集上监控性能指标,调整超参数,当验证集性能达到预期目标时,停止训练;
21、步骤6.使用测试集对训练好的模型进行评估,包括准确率、f1分数;
22、步骤7.将训练韩的模型潜入到实际应用中使用,持续监控模型在实际场景下的性能,并根据反馈进行进一步优化和迭代。
23、进一步的,所述lora适配层中的权重更新的表达式为:
24、w=w+ba
25、其中,w为权重参数,a为第一低秩矩阵,b为第二低秩矩阵。
26、进一步的,所述正则匹配模块中采用simd并行性、多线程和预过滤技术。
27、一种数据分类分级方法,依托于所述的一种数据分类分级系统实现,包括如下步骤:
28、s1.用户向数据源层开放数据库权限或上传文件,并选择是否指定相应的领域模版,以及数据内容的加密符,数据源层解析得到的文件,提取文件内容;
29、s2.服务器层中的大模型智能识别模块的识别模型抽取步骤s1得到的文件内容的前m行数据进行识别,得到识别结果;
30、s3.将步骤s2得到的识别结果汇总,导入到正则匹配模块中,抽取k行数据,用识别结果的正则规则对其中每个字段进行校验,若匹配成功,则分级成功;针对未指定模版的情况下若正则规则模块中没有对应的匹配规则,那么正则规则生成模型针对没有正则规则的数据字段,生成相应的正则规则,并存到系统之中,同时抽取k行数据,用识别结果的正则规则对其中每个字段进行校验,若匹配成功,则分级成功,得到多个字段的分类分级结果;
31、s4.将步骤s3得到的多个字段的分类分级结果汇总后,应用层反馈给用户;
32、s5.用户将步骤s4得到的分类分级结果接受或者手动修改后,导出分类分级结果,系统将自定义模版导入系统中存储,命名为自定义模版。
33、进一步的,步骤s2中识别模型的识别方法中针对是否包含数据字段,是否定制模版,设置四种交互模式:
34、s2.1.首先抽取第一行数据,查看是否为数据字段;
35、s2.2.设置第一种交互模式为不包含数据字段,给定了模版:
36、扫描除第一行外所有数据,根据数据格式对数据字段进行推算,推算后与给定模版的数据类型进行对比,若成功一一对应,则该列数据成功分类分级,将结果返回;
37、s2.3.设置第二种交互模式为不包含数据字段,未给定模版:
38、扫描除第一行外所有数据,根据数据格式对数据字段进行推算,将推算后得到的数据字段,与系统中不同模版中的数据类型进行相似度比较,进行参考,生成相应的分类分级,将结果返回;
39、s2.4.设置第三种交互模式为包含数据字段,给定了模版:
40、若数据字段无意义或与数据不符合,则采用步骤s2.2的方法设置;若字段有意义且与模版成功对应,则直接进行分类分级,将结果返回;
41、s2.5.设置第四种交互模式为包含数据字段,未定了模版;
42、若数据字段无意义或与数据不匹配,则采用步骤s2.3的方法设置;若数据字段有意义,则与系统中不同模版中的数据类型进行相似度比较,进行参考,生成相应的分类分级,将结果返回;
43、s2.6.针对存在加密字符的情况,模型自动进行内容推算,并将加密字符替换,传入到正则规则识别模块中的数据不包含加密字符,方便进展正则校验,针对加密数据进行加密降级处理,降低x个级别。
44、本发明的有益效果:
45、本发明所述的一种数据分类分级系统,是基于大模型智能识别模块,实现了针对结构和非结构化数据,以及创新性的实现了对加密数据的安全快速数据分类分级系统。基于大语言模型,利用大模型微调技术,共实现了以下三点:
46、(1)正则规则的自动生成(摆脱了对正则规则需大量提前设定的依赖);
47、(2)加密数据的分类分级(如身份证:2323272001******34);
48、(3)非结构化数据的快速识别,通过大模型,一次性对所有字段完成分类分级(摆脱了多种正则匹配,节约了时间)。此外针对大模型收集到的信息,实现了定制化模版的快速生成。
49、本发明所述的一种数据分类分级系统,可实现对结构化数据和非结构化数据进行分类分级,并可以针对用户特殊的情况下,定制模版,并在大部分情况下都具有良好的运行效率。
1.一种数据分类分级系统,其特征在于,包括应用层(1)、服务层(2)、基础层(3)、数据源层(4)、组件层(5),所述应用层(1)连接服务层(2),所述服务层(2)连接基础层(3),所述基础层(3)分别连接数据源层(4)、组件层(5);
2.根据权利要求1所述的一种数据分类分级系统,其特征在于,所述大模型智能识别模块包括识别模型、正则规则生成模型,识别模型用于进行数据表中字段名的识别、数据表中字段名的生成、定制化模版生成、加密数据的识别,所述正则规则生成模型用于针对给定的数据信息生成相应的正则规则;
3.根据权利要求2所述的一种数据分类分级系统,其特征在于,所述服务层(2)的系统服务引擎的前端技术栈使用react作为前端框架,采用typescript进行开发,配合antdesign ui组件库,实现了前端页面的渲染、数据请求和展示功能;后端技术栈使用nestjs作为后端框架,采用typescript进行开发,提供路由、中间件、数据校验功能,结合graphql作为api语言和prisma orm框架,实现数据的crud操作。
4.根据权利要求3所述的一种数据分类分级系统,其特征在于,所述应用层(1)设置加密模块,加密模块使用对称加密算法或非对称加密算法或者识别大模型智能识别模块的数据进行反向替换。
5.根据权利要求4所述的一种数据分类分级系统,其特征在于,所述大模型智能识别模块选择bert作为基准模型,采用lora技术对大模型智能识别模块进行微调和训练;
6.根据权利要求5所述的一种数据分类分级系统,其特征在于,所述lora适配层中的权重更新的表达式为:
7.根据权利要求6所述的一种数据分类分级系统,其特征在于,所述正则匹配模块中采用simd并行性、多线程和预过滤技术。
8.一种数据分类分级方法,依托于权利要求1-7之一所述的一种数据分类分级系统实现,其特征在于,包括如下步骤:
9.根据权利要求8所述的一种数据分类分级方法,其特征在于,步骤s2中识别模型的识别方法中针对是否包含数据字段,是否定制模版,设置四种交互模式: