本发明涉及网络安全,具体涉及一种威胁流量数据的识别方法、装置、设备及介质。
背景技术:
1、随着互联网的飞速发展,人们的生活也越来越依赖于网络,网络威胁的种类也越来越多,威胁网络流量很有可能造成网络用户的设备安全、财产安全受到影响,因此如何识别网络流量数据中的威胁流量变得越来越重要。
2、现有技术中,通常是采用防火墙对威胁流量数据进行拦截,然而防火墙拦截方式通常是根据经验确定预设规则,以对采集到的流量数据进行威胁判断,从而拦截威胁流量,这样的拦截方式容易导致部分威胁流量无法被防火墙识别,无法全面高效的对流量数据进行威胁识别。
技术实现思路
1、有鉴于此,本发明提供了一种威胁流量数据的识别方法、装置、设备及介质,以解决无法全面高效的对流量数据进行威胁识别的问题。
2、第一方面,本发明提供了一种威胁流量数据的识别方法,所述方法包括:
3、获取防火墙日志,所述防火墙日志包括:流量日志和安全日志,所述安全日志包括:防火墙拦截的威胁事件和所述威胁事件对应的威胁类型,所述流量日志包括:防火墙监测的流量数据;
4、基于所述安全日志和流量日志进行数据匹配,确定所述安全日志中的威胁事件对应的目标流量数据,并将所述威胁事件的威胁类型确定为所述目标流量数据的威胁标签;
5、根据所述安全日志中各个威胁事件对应的目标流量数据和威胁标签构建训练数据集,通过所述训练数据集对预设机器学习模型进行训练,得到威胁识别模型;
6、基于所述威胁识别模型对防火墙监测到的流量数据进行威胁识别,拦截威胁流量数据。
7、通过对防火墙的安全日志中拦截的威胁事件和流量日志中的流量数据进行数据匹配,从而确定威胁事件对应的目标流量数据及其对应的威胁标签,以得到训练数据集,通过该训练数据集对预设的机器学习模型进行训练得到威胁识别模型,来对防火墙监测到的流量数据进行识别拦截,提高了威胁流量识别的全面性,进一步保证了网络安全。
8、在一种可选的实施方式中,所述防火墙日志包括:多个不同防火墙对应的日志;
9、在基于所述安全日志和流量日志进行数据匹配前,所述方法还包括:
10、根据所述防火墙日志中各个防火墙对应的安全日志,确定各个威胁事件的非结构化文本数据;
11、对所述各个威胁事件的非结构化文本数据进行数据解析,得到统一结构格式下的各个威胁事件对应的结构化数据,所述数据解析方式为:基于最长公共子序列的流式日志解析方法。
12、通过对多个防火墙的安全日志进行解析,从而得到统一结构格式的结构化数据,可以获得更多的威胁事件对应的训练数据,保证了训练得到的威胁识别模型的威胁识别效果,同时对安全日志的数据进行解析,可以提高后续安全日志和流量日志的匹配效果,保证了训练集的数据质量。
13、在一种可选的实施方式中,所述根据所述安全日志中各个威胁事件对应的目标流量数据和威胁标签构建训练数据集,包括:
14、根据安全日志中各个威胁事件对应的属性信息,确定所述目标流量数据的特征维度;
15、提取所述目标流量数据中各个特征维度的样本特征,基于所述样本特征和所述目标流量数据对应威胁事件的威胁标签确定各个目标流量数据对应的样本数据;
16、根据各个目标流量数据对应的样本数据构建训练数据集。
17、通过提取目标流量数据各个特征维度对应的样本特征,并将这些样本特征和目标流量数据对应的威胁标签进行匹配从而得到目标流量数据的样本数据,汇总样本数据得到训练数据集,可以进一步保证训练数据的有效性,提高威胁识别模型的训练效果。
18、在一种可选的实施方式中,所述预设机器学习模型为:基于轻量级梯度提升机算法构建的机器学习模型;
19、所述通过所述训练数据集对预设机器学习模型进行训练,包括:
20、在通过所述训练数据集对所述基于轻量级梯度提升机算法构建的机器学习模型进行训练的过程中,对所述机器学习模型进行交叉验证;
21、根据交叉验证结果调整所述机器学习模型的模型参数。
22、通过构建基于轻量级梯度提升机算法构建的机器学习模型,并在对该模型进行训练的过程中通过交叉验证来调整模型参数,可以进一步提高模型稳定性,保证训练得到的威胁识别模型的威胁识别效果。
23、在一种可选的实施方式中,在基于所述威胁识别模型对防火墙监测到的流量数据进行威胁识别,拦截威胁流量数据后,所述方法还包括:
24、根据模型解释器确定所述威胁识别模型在对所述威胁流量数据进行识别时,各个特征维度对应的贡献值;
25、输出所述威胁流量数据的各个特征维度对应的贡献值。
26、通过采用模型解释器来确定威胁识别模型对威胁流量数据进行识别时各个特征维度的贡献度并进行输出,可以使得用户了解具体是哪些维度的原因导致的威胁流量产生,从而及时网络设备进行相应的安全防控。
27、在一种可选的实施方式中,所述基于所述威胁识别模型对防火墙监测到的流量数据进行威胁识别,包括:
28、通过防火墙对监测到的流量数据进行威胁识别,拦截所述流量数据中的第一威胁流量数据,排除所述流量数据中的第一威胁流量数据,得到第二流量数据;
29、通过所述威胁识别模型对所述第二流量数据进行威胁识别,拦截所述第二流量数据中的第二威胁流量数据。
30、通过防火墙来对流量数据进行初次拦截,接着通过威胁识别模型对拦截后的流量数据再次进行危险排查,从而实现对流量数据的双重筛查,进一步保证威胁拦截的全面性,保证网络安全。
31、在一种可选的实施方式中,所述方法还包括:
32、输出所述威胁流量数据对应的威胁事件和威胁类型。
33、通过将威胁流量数据的对应的威胁事件和威胁类型进行输出显示,可以使得用户及时了解当前的网络安全状态,从而在后续的网络行为中进行规避。
34、第二方面,本发明提供了一种威胁流量数据的识别装置,所述装置包括:
35、日志数据获取模块,用于获取防火墙日志,所述防火墙日志包括:流量日志和安全日志,所述安全日志包括:防火墙拦截的威胁事件和所述威胁事件对应的威胁类型,所述流量日志包括:防火墙监测的流量数据;
36、威胁标签匹配模块,用于基于所述安全日志和流量日志进行数据匹配,确定所述安全日志中的威胁事件对应的目标流量数据,并将所述威胁事件的威胁类型确定为所述目标流量数据的威胁标签;
37、威胁模型训练模块,用于根据所述安全日志中各个威胁事件对应的目标流量数据和威胁标签构建训练数据集,通过所述训练数据集对预设机器学习模型进行训练,得到威胁识别模型;
38、威胁流量拦截模块,用于基于所述威胁识别模型对防火墙监测到的流量数据进行威胁识别,拦截威胁流量数据。
39、第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的威胁流量数据的识别方法。
40、第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的威胁流量数据的识别方法。
1.一种威胁流量数据的识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述防火墙日志包括:多个不同防火墙对应的日志;
3.根据权利要求1所述的方法,其特征在于,所述根据所述安全日志中各个威胁事件对应的目标流量数据和威胁标签构建训练数据集,包括:
4.根据权利要求1所述的方法,其特征在于,所述预设机器学习模型为:基于轻量级梯度提升机算法构建的机器学习模型;
5.根据权利要求3所述的方法,其特征在于,在基于所述威胁识别模型对防火墙监测到的流量数据进行威胁识别,拦截威胁流量数据后,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述基于所述威胁识别模型对防火墙监测到的流量数据进行威胁识别,包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.一种威胁流量数据的识别装置,其特征在于,所述装置包括:
9.一种计算机设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的威胁流量数据的识别方法。