一种基于大数据分析的运维故障提前推送方法与流程

    技术2025-03-03  66


    本发明涉及运维故障预测的,尤其涉及一种基于大数据分析的运维故障提前推送方法。


    背景技术:

    1、当前,随着信息技术的迅速发展和应用,运维系统在各类企业和机构中的重要性日益凸显。运维系统的可靠性和高效性直接关系到企业运营的稳定性和经济效益。然而,传统的运维系统在故障预测和管理方面仍存在诸多不足,难以满足现代复杂运维环境的需求。

    2、现有技术主要依赖于静态规则和简单的统计方法进行故障预测和管理。这些方法通常基于预定义的阈值和历史数据进行分析,缺乏实时自适应能力,难以应对运维环境中的动态变化。随着系统复杂度的增加和数据量的迅速膨胀,这些传统方法的预测准确性和及时性显著下降,导致运维人员无法及时发现和处理潜在故障,从而引发一系列问题,包括系统停机、生产损失和维护成本的增加。

    3、此外,现有的故障预测方法通常忽视了系统中各节点之间的复杂关联和互动关系。运维系统中的节点和连接关系构成了一个复杂的网络结构,单纯依靠个体节点的状态信息进行故障预测,往往无法捕捉到系统整体的运行状态和潜在风险。这种局限性导致运维系统在面对多节点复杂故障时,缺乏有效的预警和管理手段,进一步增加了系统运行的风险和不确定性。


    技术实现思路

    1、本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

    2、鉴于上述现有一种基于大数据分析的运维故障提前推送方法存在的问题,提出了本发明。

    3、为解决上述技术问题,本发明提供如下技术方案:

    4、s1:收集运维系统中的各类数据,并对数据进行预处理;

    5、s2:根据采集数据构建图神经网络的拓扑分析策略,对拓扑图进行分析,更新节点隐藏状态;

    6、s3:构建实时自适应分析模型,实时数据动态调整模型的参数和结构,进行故障预测;

    7、s4:利用基于图神经网络的拓扑分析结果和自适应分析模型的预测结果,识别出潜在的故障点,通过多种渠道将预警信息及时推送给运维人员。

    8、作为本发明所述一种基于大数据分析的运维故障提前推送方法的一种优选方案,其中:所述s2过程中,构建图神经网络的拓扑分析策略包括以下步骤:

    9、s21:将运维系统中的各组件和设备视为图的节点,节点之间的连接视为边,即运维系统的网络拓扑图g=(v,e),其中v是节点集合,e是边集合;

    10、s22:根据网络拓扑图设xi的特征向量,hi为节点vi的异常状态表示,定义以下公式来更新和传播节点的状态;

    11、

    12、其中,n(i)表示节点vi的邻居节点集合,di,dj分别为节点vi和vj的度数,w(k)和表示是第k层的权重矩阵,σ表示激活函数。

    13、作为本发明所述一种基于大数据分析的运维故障提前推送方法的一种优选方案,其中:所述s3过程中,构建实时自适应分析模型的具体方法为:

    14、s31:基于神经网络的拓扑分析,计算节点故障评分si;

    15、

    16、其中,t0和t1表示时间区间,k表示gnn的层数,表示在第k层的权重系数,tanh表示双曲正切函数;

    17、s32:根据获得节点故障评分计算综合故障推送值pi;

    18、

    19、其中,|v|是节点总数;表示节点转台随时间的变化率;

    20、复杂故障评分si:积分和指数函数使得si的值域在正数范围内,具体值取决于系统运行时间和邻居节点特征;

    21、综合故障推送值pi:通过平均和归一化处理,pi的值域通常在正数范围内,表示系统综合故障风险,数值越大故障风险越高。

    22、作为本发明所述一种基于大数据分析的运维故障提前推送方法的一种优选方案,其中:对于每个节点vi综合故障推送值pi可以作为衡量其故障风险的指标,设置一个阈值t,将综合故障推送值pi超过阈值节点识别为潜在的故障点:

    23、故障点集={vi|pi>t};

    24、根据故障点集中的节点,提前推送预警信息给运维人员。

    25、作为本发明所述一种基于大数据分析的运维故障提前推送方法的一种优选方案,其中:所述s1过程中,采集的数据包括:拓扑数据、节点特征数据、历史数据以及各个节点当前的状态数据;

    26、所述数据预处理包括以下步骤:

    27、数据数据清洗;去除噪声数据、处理缺失值;

    28、数据归一化:将不同量纲的数据归一化处理,以便后续分析;

    29、特征提取:从原始数据中提取对分析有用的特征;

    30、时间序列处理:对于实时数据和历史数据进行时间序列分析和处理。

    31、作为本发明所述一种基于大数据分析的运维故障提前推送方法的一种优选方案,其中:收集过去一年内系统中所有节点的故障记录,确系统对故障率误报率;

    32、通过计算不同阈值下的故障率和误报率,绘制接收者操作特性roc曲线;

    33、根据业务需求,在roc曲线上选择一个平衡点作为阈值θ;

    34、并将si与阈值θ进行比较判断是否进行后续的综合故障推送值pi计算。

    35、作为本发明所述一种基于大数据分析的运维故障提前推送方法的一种优选方案,其中:所述设节点a,根据计算节点故障评分公式计算器故障评分sa;

    36、若sa≥阈值θ,则直接认定没有故障;

    37、若sa<阈值θ,则继续计算综合推送值pa。

    38、本发明还公开了一种基于大数据分析的运维故障提前推送系统,基于上述的一种基于大数据分析的运维故障提前推送方法,系统包括以下功能模块:

    39、数据采集模块,其用于收集运维系统中的各类数据,并对数据进行预处理;

    40、神经网络分析模型构建模块,根据采集数据构建图神经网络的拓扑分析策略,对拓扑图进行分析,更新节点隐藏状态;

    41、实时自适应分析模块,根据更新节点隐藏状态,构建实时自适应分析模型,实时数据动态调整模型的参数和结构,进行故障预测;

    42、预警信息推送模块,利用基于图神经网络的拓扑分析结果和自适应分析模型的预测结果,识别出潜在的故障点,通过邮件、短信或应用的任意一种将预警信息及时推送给运维人员。

    43、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的一种基于大数据分析的运维故障提前推送方法的步骤。

    44、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种基于大数据分析的运维故障提前推送方法的步骤。

    45、本发明的有益效果:本发明结合实时自适应分析模型和基于图神经网络的拓扑分析,实现了精准故障预测与提前推送。该方法通过实时自适应分析模型,动态调整预测参数和结构,以适应运维环境中的变化,提高了故障预测的准确性和及时性。同时,基于图神经网络的拓扑分析充分利用系统中的节点及其连接关系,识别复杂的互动模式和潜在故障,从而实现全面的故障管理。两者的结合不仅提升了运维效率和系统可靠性,还增强了系统的扩展性和可维护性,为现代复杂运维环境提供了一种高效、可靠的解决方案。


    技术特征:

    1.一种基于大数据分析的运维故障提前推送方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的一种基于大数据分析的运维故障提前推送方法,其特征在于:所述s2过程中,构建图神经网络的拓扑分析策略包括以下步骤:

    3.根据权利要求2所述的一种基于大数据分析的运维故障提前推送方法,其特征在于:所述s3过程中,构建实时自适应分析模型的具体方法为:

    4.根据权利要求3所述的一种基于大数据分析的运维故障提前推送方法,其特征在于:对于每个节点vi综合故障推送值pi可以作为衡量其故障风险的指标,设置一个阈值t,将综合故障推送值pi超过阈值节点识别为潜在的故障点:

    5.根据权利要求4所述的一种基于大数据分析的运维故障提前推送方法,其特征在于:所述s1过程中,采集的数据包括:拓扑数据、节点特征数据、历史数据以及各个节点当前的状态数据;

    6.根据权利要求5所述的一种基于大数据分析的运维故障提前推送方法,其特征在于:收集过去一年内系统中所有节点的故障记录,确系统对故障率误报率;

    7.根据权利要求6所述的一种基于大数据分析的运维故障提前推送方法,其特征在于:所述设节点a,根据计算节点故障评分公式计算器故障评分sa;

    8.一种基于大数据分析的运维故障提前推送系统,基于权利要求1-7任一项所述的一种基于大数据分析的运维故障提前推送方法,其特征在于:系统包括以下功能模块:

    9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1~7任一所述的一种基于大数据分析的运维故障提前推送方法的步骤。

    10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1~7任一所述的一种基于大数据分析的运维故障提前推送方法的步骤。


    技术总结
    本发明公开了一种基于大数据分析的运维故障提前推送方法,涉及运维故障预测技术领域,包括以下步骤:收集运维系统中的各类数据,并对数据进行预处理;根据采集数据构建图神经网络的拓扑分析策略,对拓扑图进行分析,更新节点隐藏状态;构建实时自适应分析模型,实时数据动态调整模型的参数和结构,进行故障预测;利用基于图神经网络的拓扑分析结果和自适应分析模型的预测结果,识别出潜在的故障点。本发明通过实时自适应分析模型,动态调整预测参数和结构,以适应运维环境中的变化,提高了故障预测的准确性和及时性。基于图神经网络的拓扑分析充分利用系统中的节点及其连接关系,识别复杂的互动模式和潜在故障,实现全面的故障管理。

    技术研发人员:袁进,杨艳
    受保护的技术使用者:江苏新知数坤信息科技有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-27148.html

    最新回复(0)