本发明涉及一种数据分类分级方法,属于数据分类分级。
背景技术:
1、随着机器学习和深度学习的发展,现在已有不少框架能够应用与数据分类分级系统。现有的数据分类分级系统要么通过决策树或向量机等其他机器学习模型完成对数据的分类分级,要么则是传统方式通过正则匹配。前者相比于正则匹配,当数据字段不够多时,速度慢,且细分情况以及精确度没有正则匹配高,且当对于模版中有新数据类型加入或改变时,可能都需要对模型进行重新训练后才能够投入使用。而正则匹配,相对于前者,当某数据库表中含有大量字段时,需要花费巨大的时间。若某一领域模版包含100种数据,每种数据平均有2种正则匹配规则,那么针对一个包含10个字段的表的某一个字段至多需要200次匹配,一个表中的一行就需要进行2000次,这效率显然是十分低下的;且这二者都存在一个通用问题,即数据持有者必须基于系统真实的数据进行去分类分级,然而相对于银行卡等绝对机密,是不准向外部提供的。因此基于流量,数据,安全多重方向考虑,实现高效快速的数据分类尤为重要。
技术实现思路
1、在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
2、鉴于此,为解决现有技术中存在的技术问题,本发明提供一种数据分类分级方法;
3、方案一、一种数据分类分级方法,包括:
4、步骤一、用户向服务器上传待分类数据,并选择不提供具体数据的字段;
5、步骤二、服务器解析待分类数据,得到数据字段和内容,当数据字段不含模板数据时执行步骤三,否则执行步骤四;
6、步骤三、构建同义词识别模型,利用识别模型对数据进行字段扫描,若输出的结果与模板中某一数据唯一对应,则根据模板中的对应关系,确定字段等级,否则认为字段不属于模板范围内,执行步骤四;
7、步骤四、构建同义词识别模型,利用识别模型对数据进行字段扫描,根据输出结果与模板中数据进行匹配形成正则规则数组,正则规则数组表征匹配结果;
8、步骤五、根据正则规则数组中不同匹配结果,执行匹配流程,得到分类等级;
9、步骤六、将待分类数据中多个字段识别的结果汇总,并反馈给用户。
10、优选的,同义词识别模型包括字典库和同义词辨别模型,字典库实时更新,对同义词辨别模型进行训练;字典库更新的过程为:
11、步骤三一、根据用户开始选定的模版,选择相应的字典关系库,在第一次使用前,模版为定制内容,类型别称由管理员初始设定,关系则初始时为空;
12、步骤三二、经过时间t后,若系统收集到足够的结果,则执行通知管理员,执行步骤三三,否则继续等待时间t;
13、步骤三三、管理员对运行后的数据结果进行筛选,针对错误和不合理的内容进行淘汰,保留正确的内容,针对同义词辨别模型的结果,若与模版中数据类型一一对应,则将加入类型别称,若由一对多情况,则加入关系。
14、优选的,根据正则规则数组中不同匹配结果,执行匹配流程,得到分类等级的方法是:
15、当正则规则数组中对应的数据类型唯一时:说明与模版中某一数据类型一一对应,运行校验函数,若校验函数校验成功则返回该结果,校验失败则执行校验失败流程;
16、当正则规则数组中对应的数据类型为多种时:则认为扫描字段中的具体数据有可能包含多种在模版中定义的数据类型,抽取m个数据与正则规则数组中的正则规则进行匹配查验;
17、当匹配结果唯一时,则分类分级成功,运行校验函数,若校验函数校验成功则返回该结果,校验失败则执行校验失败流程;
18、当匹配结果不唯一时,则执行权重计算函数;运行校验函数,若校验函数校验成功则返回该结果,校验失败则执行校验失败流程;
19、抽取扫描字段n个数据(n>m),将n个数据进行正则匹配,得到结果:
20、当结果中,含有最敏感的数据类型时,不考虑数据权重占比,直接将扫描字段分级为最高级别;最敏感数据为模板中统一规定的数据类型,数据类型的敏感等级用户可以自行设定;
21、当结果中,不包含最敏感的数据类型,则考虑数据类型的占比,当低级别的数据占比a-b>k时,其中,a为低级别数据占比;b为高级别数据占比;k为容忍度(百分比数);则认为低级别的数据类型更有代表性,作为扫描数据字段的结果;
22、当正则规则数组为空时:认为扫描字段不属于模版定义的范围内,而后运行校验函数,
23、若校验函数校验成功则返回该结果,校验失败则执行校验失败流程。
24、优选的,运行校验函数的方法是:
25、抽取x个数据,将数据与模版中所有的正则规则进行匹配,得到结果,若该结果正则规则集合包含于正则规则数组,则校验成功,否则校验失败。.
26、优选的,校验失败流程的方法是:抽取m个数据,与模版中所有的正则规则进行匹配;
27、若与任何一个规则都无法匹配成功时,认为扫描字段类型不属于模版范围之中,返回结果;
28、若存在唯一对应,则成功分类分级,将结果返回;
29、若存在多种对应,执行权重计算函数,然后将结果返回.
30、方案二、一种电子设备,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现方案一所述的一种数据分类分级方法的步骤。
31、方案三、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案一所述的一种数据分类分级方法。
32、本发明的有益效果如下:传统分类分级系统在不存在具体的数据情况时,无法分类分级。本发明的分类分级方法可仅通过数据字段进行分类分级,本发明提出了字典关系库,且与nlp相互结合。兼并了nlp的快速性和正则规则匹配的准确性的特点。即使nlp模糊匹配,但也可以总结出正则规则数组,不需要与所有的正则规则进行匹配,仅需要与极少数的正则规则匹配,就能得到正确的结果。实现了既快又准的效果。大多数的分类分级方法,并没有考虑到同一字段中,含有多种数据类型的情况。因此,本方法提出了权重匹配函数。能够更加准确的对数据类型进行分类分级。
1.一种数据分类分级方法,其特征在于,包括:
2.根据权利要求1所述的一种数据分类分级方法,其特征在于,同义词识别模型包括字典库和同义词辨别模型,字典库实时更新,对同义词辨别模型进行训练;字典库更新的过程为:
3.根据权利要求1所述的一种数据分类分级方法,其特征在于,根据正则规则数组中不同匹配结果,执行匹配流程,得到分类等级的方法是:
4.根据权利要求3所述的一种数据分类分级方法,其特征在于,运行校验函数的方法是:
5.根据权利要求3所述的一种数据分类分级方法,其特征在于,校验失败流程的方法是:抽取m个数据,与模版中所有的正则规则进行匹配;
6.一种电子设备,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1-5任一项所述的一种数据分类分级方法的步骤。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种数据分类分级方法。