本发明涉及计算机,尤其涉及一种异常数据识别方法、装置、设备、存储介质及计算机程序产品。
背景技术:
1、随着海量数据时代的来临,数据安全管控平台的接口访问流量的剧增。如何及时发现接口异常并排查处理,从而保证接口的正常运行,乃至数据安全管控平台的正常运行,成为重中之重。目前采用人工经验的方式实现异常数据流识别,即为数据安全管控平台中接口的各个指标分别设置固定阈值,通过比较实时指标值及其对应阈值的大小,判断接口是否存在异常。但凭借人工经验设置的阈值,带有极大的主观性,无法保证接口异常检测的可靠性。且在实际运行过程中,数据安全管控平台各个接口的指标值都在实时变化,采用固定的阈值进行异常检测,极易发生虚警或者漏警。
技术实现思路
1、本发明的主要目的在于提供了一种异常数据识别方法、装置、设备、存储介质及计算机程序产品,旨在解决现有技术异常数据识别效率不高的技术问题。
2、为实现上述目的,本发明提供了一种异常数据识别方法,所述方法包括以下步骤:
3、获取各个数据接口的流量数据;
4、将所述流量数据输入至预设随机森林分类器,得到所述预设随机森林分类器输出的数据识别结果,其中,所述预设随机森林分类器基于样本数据中各个数据特征的价值占比和权重值构建。
5、可选地,所述将所述流量数据输入至预设随机森林分类器,得到所述预设随机森林分类器输出的数据识别结果的步骤之前,还包括:
6、对样本数据进行聚类,得到聚类结果;
7、对所述样本数据进行特征提取,得到所述样本数据中涉及的样本数据特征;
8、确定所述样本数据特征的价值占比;
9、根据所述价值占比和所述聚类结果确定各个样本数据特征的权重值;
10、基于所述样本数据和所述权重值构建预设随机森林分类器。
11、可选地,所述确定所述样本数据特征的价值占比的步骤,包括:
12、根据所述样本数据确定包括所述样本数据特征的数据流数量和数据流量;
13、确定所述样本数据特征对应的各个数据接口的接口价值;
14、根据所述数据流数量、所述数据流量和所述接口价值确定所述样本数据特征的价值占比。
15、可选地,所述根据所述价值占比和所述聚类结果确定各个样本数据特征的权重值的步骤,包括:
16、根据所述样本数据和样本数据特征确定权重样本;
17、基于所述聚类结果、所述权重样本以及所述样本数据确定样本数据特征的聚类比值;
18、根据所述聚类比值和所述价值占比确定所述样本数据特征的权重值。
19、可选地,所述基于所述样本数据和所述权重值构建预设随机森林分类器的步骤,包括:
20、根据所述样本数据确定数据集合;
21、基于样本数据特征对所述数据集合进行划分,得到数据子集;
22、根据所述数据子集和所述权重值确定所述样本数据特征和特征值之间的基尼指数;
23、基于所述基尼指数和所述样本数据构建预设随机森林分类器。
24、可选地,所述将所述流量数据输入至预设随机森林分类器,得到所述预设随机森林分类器输出的数据识别结果的步骤之后,还包括:
25、在所述数据识别结果为数据异常时,确定所述流量数据涉及的数据特征;
26、确定所述数据特征对应的价值占比;
27、根据所述价值占比进行安全管控。
28、此外,为实现上述目的,本发明还提供一种异常数据识别装置,所述装置包括:
29、获取模块,用于获取各个数据接口的流量数据;
30、识别模块,用于将所述流量数据输入至预设随机森林分类器,得到所述预设随机森林分类器输出的数据识别结果,其中,所述预设随机森林分类器基于样本数据中各个数据特征的价值占比和权重值构建。
31、此外,为实现上述目的,本发明还提出一种异常数据识别设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的异常数据识别程序,所述异常数据识别程序配置为实现如上文所述的异常数据识别方法的步骤。
32、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有异常数据识别程序,所述异常数据识别程序被处理器执行时实现如上文所述的异常数据识别方法的步骤。
33、此外,为实现上述目的,本发明还提供一种计算机程序产品,所述计算机程序产品包括异常数据识别程序,所述异常数据识别程序被处理器执行时实现如上文所述的异常数据识别方法的步骤。
34、本发明获取各个数据接口的流量数据;将所述流量数据输入至预设随机森林分类器,得到所述预设随机森林分类器输出的数据识别结果,其中,所述预设随机森林分类器基于样本数据中各个数据特征的价值占比和权重值构建。由于本发明是根据样本数据中各个数据特征的价值占比和权重值构建预设随机森林分类器,基于预设随机森林分类器识别各个数据接口的流量数据是否有异常,相对于现有的通过设置的各个指标阈值识别异常数据的方式,本发明上述方式能够根据数据的价值和权重识别异常数据,提高异常数据的识别效率。
1.一种异常数据识别方法,其特征在于,所述异常数据识别方法包括以下步骤:
2.如权利要求1所述的异常数据识别方法,其特征在于,所述将所述流量数据输入至预设随机森林分类器,得到所述预设随机森林分类器输出的数据识别结果的步骤之前,还包括:
3.如权利要求2所述的异常数据识别方法,其特征在于,所述确定所述样本数据特征的价值占比的步骤,包括:
4.如权利要求2所述的异常数据识别方法,其特征在于,所述根据所述价值占比和所述聚类结果确定各个样本数据特征的权重值的步骤,包括:
5.如权利要求2所述的异常数据识别方法,其特征在于,所述基于所述样本数据和所述权重值构建预设随机森林分类器的步骤,包括:
6.如权利要求1-5任一项所述的异常数据识别方法,其特征在于,所述将所述流量数据输入至预设随机森林分类器,得到所述预设随机森林分类器输出的数据识别结果的步骤之后,还包括:
7.一种异常数据识别装置,其特征在于,所述异常数据识别装置包括:
8.一种异常数据识别设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的异常数据识别程序,所述异常数据识别程序配置为实现如权利要求1至6中任一项所述的异常数据识别方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有异常数据识别程序,所述异常数据识别程序被处理器执行时实现如权利要求1至6任一项所述的异常数据识别方法的步骤。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括异常数据识别程序,所述异常数据识别程序被处理器执行时实现如权利要求1至6中任一项所述的异常数据识别方法的步骤。