云服务集群状态监测方法、装置、设备和存储介质与流程

    技术2025-03-21  34


    本技术涉及云计算,具体涉及一种云服务集群状态监测方法、装置、设备和存储介质。


    背景技术:

    1、随着云计算的高速发展,传统存储在应对pb(petabyte,拍字节)级海量数据需求时,其技术架构面临着诸多挑战,如超大规模的横向扩展、越来越高的性能要求、数据长期存储的可靠性、统一资源池的管理、更低的总体拥有成本等。传统存储难以满足不断增长的数据需求,数据中心开始大规模使用分布式存储,通过sds(software defined storage,软件定义存储)中的软件整合散落的硬盘或者磁盘阵列,提高存储服务。

    2、目前,sds的监测通常依赖于软件自带的管理平台中的告警模块,运维人员通过巡检方式检查告警模块中的告警信息,从而确定云服务集群的运行状态。然而在云网协同运维场景下,故障发生时会产生海量告警,运维人员无法准确获取有用的告警信息,从而无法准确判断集群设备的运行状态。

    3、因此,如何准确预测云服务集群的运行状态成为亟待解决的技术问题。


    技术实现思路

    1、本发明提供一种云服务集群状态监测方法、装置、设备和存储介质,用以解决现有技术中无法准确预测云服务集群运行状态的技术问题。

    2、本发明提供一种云服务集群状态监测方法,包括:

    3、将云服务集群的告警数据输入第一文本分类模型,得到所述第一文本分类模型输出的第一分类结果;

    4、将所述云服务集群的日志数据输入第二文本分类模型,得到所述第二文本分类模型输出的第二分类结果;

    5、将所述云服务集群的性能数据输入预置时序分类模型,得到所述预置时序分类模型输出的第三分类结果;

    6、基于所述第一分类结果、所述第二分类结果和所述第三分类结果,确定预测结果,所述预测结果表征所述云服务集群在当前时刻的健康状态。

    7、根据本发明提供的一种服务集群状态监测方法,所述云服务集群的健康状态包括第一状态、第二状态和第三状态,所述第一状态表征所述云服务集群的存储性能正常,所述第二状态表征所述云服务集群的存储存在隐患,所述第三状态表征所述云服务集群的存储不可用;

    8、所述第一分类结果包括第一预测结果和所述第一预测结果对应的第一置信度,所述第一预测结果是所述第一状态、所述第二状态和所述第三状态中的一种;

    9、所述第二分类结果包括第二预测结果和所述第二预测结果对应的第二置信度,所述第二预测结果是所述第一状态、所述第二状态和所述第三状态中的一种;

    10、所述第三分类结果包括第三预测结果和所述第三预测结果对应的第三置信度,所述第三预测结果是所述第一状态、所述第二状态和所述第三状态中的一种。

    11、根据本发明提供的一种服务集群状态监测方法,所述预测结果包括状态结果和置信度结果,所述基于所述第一分类结果、所述第二分类结果和所述第三分类结果,确定预测结果,包括:

    12、确定所述状态结果为所述第一预测结果、所述第二预测结果和所述第三预测结果中的最差状态;

    13、确定最大置信度为所述置信度结果,所述最大置信度是所述最差状态对应的置信度中的最大值。

    14、根据本发明提供的一种服务集群状态监测方法,当所述告警数据包括零条告警描述时,所述第一预测结果为第一状态;

    15、当所述告警数据包括一条或多条告警描述时,所述第一预测结果为第二状态或第三状态,所述第一文本分类模型基于如下步骤确定所述第一分类结果:

    16、基于预设词条长度,对各所述告警描述进行分词,得到多个词汇单元;

    17、从预置词频-逆文本频率列表获取各所述词汇单元的权重后,生成所述告警数据对应的特征向量;

    18、使用支持向量机对所述特征向量进行二分类,得到第一分类结果。

    19、根据本发明提供的一种服务集群状态监测方法,所述第二文本分类模型基于如下步骤确定所述第二分类结果:

    20、使用嵌入层对所述日志数据进行编码,得到词向量序列;

    21、使用转换器编码器将所述词向量序列转化为基于上下文表示的中间向量;

    22、将所述中间向量输入至输出层,得到所述输出层输出的第二分类结果。

    23、根据本发明提供的一种服务集群状态监测方法,所述性能数据包括多个指标的真实值序列,各所述真实值序列包括对应的指标在多个连续时刻的真实值,所述预置时序分类模型基于如下步骤确定所述第三分类结果:

    24、基于数据处理步骤,计算得到各所述指标的预测值序列,各所述预测值序列包括对应的指标在多个连续时刻的预测值;

    25、基于各所述指标的预测值序列、真实值序列和差序列,进行特征提取,得到组合特征;

    26、将所述组合特征输入预置梯度提升决策树,得到所述预置梯度提升决策树输出的第三分类结果;

    27、所述数据处理步骤包括:基各于所述指标在预设时段内的真实值,使用各所述指标对应的时序模型进行预测,得到各所述指标在所述当前时刻的预测值。

    28、根据本发明提供的一种服务集群状态监测方法,所述组合特征包括各所述指标的统计特征,所述统计特征包括差序列的最小值、差序列的最大值、差序列的平均值、差序列的标准差、差序列的偏度、差序列的峰度、预测值序列和真实值序列的平均误差、预测值序列和真实值序列的均方误差、预测值序列和真实值序列的百分比误差中的至少一项。

    29、本发明还提供一种服务集群状态监测装置,包括:

    30、第一分类模块,用于:将云服务集群的告警数据输入第一文本分类模型,得到所述第一文本分类模型输出的第一分类结果;

    31、第二分类模块,用于:将所述云服务集群的日志数据输入第二文本分类模型,得到所述第二文本分类模型输出的第二分类结果;

    32、第三分类模块,用于:将所述云服务集群的性能数据输入预置时序分类模型,得到所述预置时序分类模型输出的第三分类结果;

    33、状态预测模块,用于:基于所述第一分类结果、所述第二分类结果和所述第三分类结果,确定预测结果,所述预测结果表征所述云服务集群在当前时刻的健康状态。

    34、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述服务集群状态监测方法。

    35、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述服务集群状态监测方法。

    36、本发明提供的云服务集群状态监测方法、装置、设备和存储介质,获取云服务集群中存储设备的性能数据、日志数据及告警数据;将所述告警数据输入第一文本分类模型,得到所述第一文本分类模型输出的第一分类结果;将所述日志数据输入第二文本分类模型,得到所述第二文本分类模型输出的第二分类结果;将所述性能数据输入预置时序分类模型,得到所述预置时序分类模型输出的第三分类结果;基于所述第一分类结果、所述第二分类结果和所述第三分类结果,确定预测结果,所述预测结果表征所述云服务集群当前的健康状态。本发明提供的云服务集群状态监测方法基于性能数据、日志数据及告警数据,使用预先训练好的模型进行分类预测,不依赖于运维人员的工作经验,预测结果更为准确、稳定;日志数据记录了系统启动、服务调用等信息,可反应潜在问题和异常情况,性能数据深入反应了系统的资源使用的瓶颈,再结合已有的告警数据,从多维度分析,实现故障的准确感知和云服务集群状态的精准判断。


    技术特征:

    1.一种云服务集群状态监测方法,其特征在于,包括:

    2.根据权利要求1所述的云服务集群状态监测方法,其特征在于,所述云服务集群的健康状态包括第一状态、第二状态和第三状态,所述第一状态表征所述云服务集群的存储性能正常,所述第二状态表征所述云服务集群的存储存在隐患,所述第三状态表征所述云服务集群的存储不可用;

    3.根据权利要求2所述的云服务集群状态监测方法,其特征在于,所述预测结果包括状态结果和置信度结果,所述基于所述第一分类结果、所述第二分类结果和所述第三分类结果,确定预测结果,包括:

    4.根据权利要求2所述的云服务集群状态监测方法,其特征在于,当所述告警数据包括零条告警描述时,所述第一预测结果为第一状态;

    5.根据权利要求1-4中任一项所述的云服务集群状态监测方法,其特征在于,所述第二文本分类模型基于如下步骤确定所述第二分类结果:

    6.根据权利要求1-4中任一项所述的云服务集群状态监测方法,其特征在于,所述性能数据包括多个指标的真实值序列,各所述真实值序列包括对应的指标在多个连续时刻的真实值,所述预置时序分类模型基于如下步骤确定所述第三分类结果:

    7.根据权利要求6所述的云服务集群状态监测方法,其特征在于,所述组合特征包括各所述指标的统计特征,所述统计特征包括差序列的最小值、差序列的最大值、差序列的平均值、差序列的标准差、差序列的偏度、差序列的峰度、预测值序列和真实值序列的平均误差、预测值序列和真实值序列的均方误差、预测值序列和真实值序列的百分比误差中的至少一项。

    8.一种云服务集群状态监测装置,其特征在于,包括:

    9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述云服务集群状态监测方法。

    10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述云服务集群状态监测方法。


    技术总结
    本申请涉及云计算领域,提供一种云服务集群状态监测方法、装置、设备和存储介质。所述方法包括:获取云服务集群的性能数据、日志数据及告警数据;将告警数据、日志数据、性能数据分别输入第一文本分类模型、第二文本分类模型和预置时序分类模型,得到对应的第一分类结果、第二分类结果和第三分类结果;基于上述分类结果确定云服务集群的状态。本申请提供的云服务集群状态监测方法使用预先训练好的模型进行分类预测,不依赖于运维人员的工作经验,预测结果更为准确、稳定;日志数据记录了系统启动、服务调用等信息,可反应潜在问题和异常情况,性能数据深入反应了系统资源的使用情况,结合告警数据,从多维度分析,实现云服务集群状态的精准判断。

    技术研发人员:罗晓光,齐鲁,许睿,荣梦雨,黄军
    受保护的技术使用者:中国移动通信集团浙江有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-27866.html

    最新回复(0)