一种基于海量安全数据的安全分析方法和系统与流程

    技术2025-12-29  13


    本技术涉及网络安全,尤其涉及一种基于海量安全数据的安全分析方法和系统。


    背景技术:

    1、随着人工智能技术的快速发展,人工智能系统在各个领域得到广泛应用。然而,随着人工智能系统的普及,针对人工智能系统的攻击也日益增多,如数据篡改、模型窃取、恶意软件等。这些攻击不仅会导致人工智能系统性能下降,还可能造成重要信息的泄露,对社会造成严重危害。不仅如此,全新的网络攻击也是层出不穷。如何提高人工智能系统的安全性和自动识别能力,防止恶意攻击,是当前亟待解决的问题。海量的安全数据,如网络日志、用户行为数据、系统监控数据等,为安全分析提供了丰富的数据源。如何有效处理和分析这些数据,提取有价值的安全信息,也成为当前安全分析领域面临的重要问题。

    2、传统的安全分析方法主要基于规则和特征进行匹配,对于未知或复杂的攻击模式往往无能为力。此外,面对海量的安全数据,传统的分析方法在性能上也难以满足需求。

    3、因此,需要一种基于海量安全数据的安全分析方法和系统,以提高安全分析的效率和准确性。


    技术实现思路

    1、本发明的目的在于提供一种基于海量安全数据的安全分析方法和系统,能够实时处理和分析海量的安全数据,提取有价值的安全信息,实现自主研判,自动处置,提高安全分析的效率和准确性。

    2、第一方面,本技术提供一种基于海量安全数据的安全分析方法,所述方法包括:

    3、数据预处理:对采集到的安全数据进行清洗、标准化和格式化处理,得到处理后的第一数据,以便后续的分析和处理;

    4、根据词汇模式和语法结构定义恶意关键词的特征,由所述恶意关键词的特征制定第一规则,基于该第一规则完成第一数据的恶意关键词自动抽取,将抽取到的恶意关键词放入候选集中;

    5、对所述候选集中的每个恶意关键词,计算其出现的概率pf=fn/fa,其中fn是在正常数据中出现的频次,fa是在异常数据中出现的频次,选取pf值升序排序在前若干个的恶意关键词构建恶意关键词数据集;

    6、恶意符号自动抽取:提取所述第一数据中涉及链接的非字母及非数字的符号,计算所有符号出现的概率,将其升序排列,并计算相邻符号的概率值之差,将上述差的最大值作为分界,选取分界之下的前若干个的符号构建恶意符号集;

    7、构建恶意数据集,其由恶意关键词数据集和恶意符号集两部分构成;

    8、构建安全数据映射关系,将所述恶意数据集中关键词或符号转换为对应的字符串序列,将字符串序列中任意连续两个相邻字符映射为0-9之间的权重数字,从而将整个恶意数据集都转换为长度不等的权重向量;

    9、设置长度为k的滑动窗口,从权重向量的第一个权重数字开始移动,每次移动的步长为一个权重数字,从而实现将长度不等的权重向量转换为长度为k的定长特征向量;

    10、基于特征向量训练支持向量机分类器,以支持向量机中的数据类别间隔和数据相似度极大化为目标函数构造模型;

    11、实时分析:利用训练好的模型对实时采集到的安全数据进行实时分析,发现异常和潜在的安全威胁;

    12、离线分析:对历史数据进行深度分析和挖掘,发现潜在的安全漏洞和攻击模式。

    13、第二方面,本技术提供一种基于海量安全数据的安全分析系统,所述系统包括:

    14、预处理单元,用于对采集到的安全数据进行清洗、标准化和格式化处理,得到处理后的第一数据,以便后续的分析和处理;

    15、关键词抽取单元,用于根据词汇模式和语法结构定义恶意关键词的特征,由所述恶意关键词的特征制定第一规则,基于该第一规则完成第一数据的恶意关键词自动抽取,将抽取到的恶意关键词放入候选集中;

    16、计算单元,用于对所述候选集中的每个恶意关键词,计算其出现的概率pf=fn/fa,其中fn是在正常数据中出现的频次,fa是在异常数据中出现的频次,选取pf值升序排序在前若干个的恶意关键词构建恶意关键词数据集;

    17、符号抽取单元,用于提取所述第一数据中涉及链接的非字母及非数字的符号,计算所有符号出现的概率,将其升序排列,并计算相邻符号的概率值之差,将上述差的最大值作为分界,选取分界之下的前若干个的符号构建恶意符号集;

    18、构建单元,用于构建恶意数据集,其由恶意关键词数据集和恶意符号集两部分构成;

    19、映射单元,用于构建安全数据映射关系,将所述恶意数据集中关键词或符号转换为对应的字符串序列,将字符串序列中任意连续两个相邻字符映射为0-9之间的权重数字,从而将整个恶意数据集都转换为长度不等的权重向量;

    20、归一化单元,用于设置长度为k的滑动窗口,从权重向量的第一个权重数字开始移动,每次移动的步长为一个权重数字,从而实现将长度不等的权重向量转换为长度为k的定长特征向量;

    21、模型单元,用于基于特征向量训练支持向量机分类器,以支持向量机中的数据类别间隔和数据相似度极大化为目标函数构造模型;

    22、实时分析单元,用于利用训练好的模型对实时采集到的安全数据进行实时分析,发现异常和潜在的安全威胁;

    23、离线分析单元,用于对历史数据进行深度分析和挖掘,发现潜在的安全漏洞和攻击模式。

    24、第三方面,本技术提供一种基于海量安全数据的安全分析系统,所述系统包括处理器以及存储器:

    25、所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

    26、所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。

    27、第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于被处理器执行实现第一方面四种可能中任一项所述的方法。

    28、有益效果

    29、本发明提供一种基于海量安全数据的安全分析方法和系统,通过定义恶意关键词的特征,并由此制定规则,完成恶意关键词自动抽取,以及提取涉及链接的非字母及非数字的符号,根据其出现的概率排序,计算相邻符号的概率值之差,将上述差的最大值作为分界,完成恶意符号自动抽取,得到恶意数据集,构建安全数据映射关系,得到权重向量,归一化后得到定长的特征向量,构造训练模型,实现对安全数据的分析检测,上述过程没有采用传统的特征提取方式,从而可以克服现有技术存在无法对新型网络攻击自动识别进行网络防御的问题。

    30、本发明的基于海量安全数据的安全分析方法和系统具有以下优点和效果:

    31、1、利用海量安全数据,例如日志数据,无需修改、大量字段重复、有时间戳等特性,能够有效处理和分析海量的安全数据,提取有价值的安全信息,可实现安全运营自主值守,当出现安全告警时,可自主研判,自动处置,提高安全分析的效率和准确性。

    32、2、针对日志及安全场景进行专项优化,使用列存储实现更高的数据压缩比,面向云原生架构实现存算分离、读写分离,实现弹性扩容、故障秒级切换。

    33、该系统和方法可以广泛应用于各种信息安全领域,如网络安全、数据安全等。以及,系统可通过自然语言问答对话,辅助管理员进一步研判。


    技术特征:

    1.一种基于海量安全数据的安全分析方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于:所述恶意符号自动抽取:提取所述第一数据中涉及链接的非字母及非数字的符号,包括:由符号构成的长字符串。

    3.根据权利要求1所述的方法,其特征在于:所述将字符串序列中任意连续两个相邻字符映射为0-9之间的权重数字,应避免将过多的双字母组合映射为大于5的权重数字。

    4.根据权利要求3所述的方法,其特征在于:经过初步的映射后,得到初步的权重向量,若所述第一数据中包含特定类型攻击时,则在所获得的初步权重向量末尾再添加两个9,以及若存在多个相等的且小于5的权重数字组成的子串时,则将该子串简化为一个的权重数字。

    5.一种基于海量安全数据的安全分析系统,其特征在于,所述系统包括:

    6.一种基于海量安全数据的安全分析系统,其特征在于,所述系统包括处理器以及存储器:

    7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于被处理器执行实现权利要求1-4任一项所述的方法。


    技术总结
    本发明提供一种基于海量安全数据的安全分析方法和系统,通过定义恶意关键词的特征,并由此制定规则,完成恶意关键词自动抽取,以及提取涉及链接的非字母及非数字的符号,根据其出现的概率排序,计算相邻符号的概率值之差,将上述差的最大值作为分界,完成恶意符号自动抽取,得到恶意数据集,构建安全数据映射关系,得到权重向量,归一化后得到定长的特征向量,构造训练模型,实现对安全数据的分析检测,上述过程没有采用传统的特征提取方式,从而可以克服现有技术存在无法对新型网络攻击自动识别进行网络防御的问题。

    技术研发人员:王英梅,谢晓辉,周晓宇,杨林,王连庆,宁文治,廖旭,刘宸
    受保护的技术使用者:中国海洋石油集团有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-38797.html

    最新回复(0)