本技术属于云计算,尤其涉及一种资源智能监控告警方法、装置、设备、介质及程序。
背景技术:
1、knative是一种基于kubernetes的serverless框架,其目标是制定云原生、跨平台的serverless编排标准。它提供了一套标准化、可复用的容器镜像构建方式,减少了镜像构建时间和成本;也实现了工作负载动态扩缩功能,能够自动管理工作负载的整个生命周期,允许用户为多个版本应用创建流量策略,实现蓝绿发布等功能。在云平台中,有效的监控告警能够在knative中第一时间监控到部署应用的异常状态并及时通知运维、开发人员进行处理,保证业务持续稳定运行,而且还会对企业的整个经营活动产生巨大影响。
2、在现有的knative集群中,监控告警管理通常是采集应用相关的监控指标,根据设置的各项监控指标的告警阈值,产生响应的告警信息,此种方式仅仅实现采集的各项监控指标与设置的告警阈值的粗略比较,准确性差;而且,各项监控指标的告警阈值需要依据以往的业务经验的进行配置,如果业务较多或节点较多就需要配置多套告警阈值,不易维护,灵活性差;此外,现有的监控告警针对集群中部署的应用和集群中的节点是分开监控的,各自独立的,由不同的人员进行维护处理,使得告警及时性较差。
技术实现思路
1、本技术实施例提供一种云资源智能监控告警方法、装置、设备、介质及程序,能够提高监控告警的准确性、灵活性和及时性。
2、第一方面,本技术实施例提供一种云资源智能监控告警方法,包括:
3、获取knative集群的第一资源信息,第一资源信息包括knative集群中与第一应用对应的第一节点的第一资源利用率信息和第一节点中与第一应用对应的第一业务pod的第二资源利用率信息;
4、基于第一资源信息,确定第一应用在第一节点上的第一综合健康度;
5、利用预先训练好的评分模型预测第一综合健康度对应的目标分值,目标分值用于指示第一综合健康度与第一健康度阈值区间之间的大小关系,评分模型基于第一数据集训练得到,第一数据集包括多个带有分值标签的第一训练样本,每个第一训练样本均包括一个应用在一个节点上的历史综合健康度;
6、基于目标分值确定是否对第一节点进行告警。
7、作为一种可能的实现方式,基于第一资源信息,确定第一应用在第一节点上的第一综合健康度,包括:
8、确定第一应用的业务类型;
9、获取与业务类型对应的第一权重信息,第一权重信息包括第一资源信息中各指标对应的指标权重;
10、基于第一资源利用率信息和第一资源利用率信息中的各指标对应的指标权重,确定第一节点的节点健康度;
11、基于第二资源利用率信息和第二资源利用率信息中的各指标对应的指标权重,确定第一应用在第一节点上的业务健康度;
12、获取节点健康度对应的第一权重和业务健康度对应的第二权重;
13、基于第一权重和第二权重对节点健康度和业务健康度进行加权求和,得到第一应用在第一节点上的第一综合健康度。
14、作为一种可能的实现方式,确定第一应用的业务类型,包括:
15、基于预先训练好的分类模型和第二资源利用率信息预测第一应用的业务类型,分类模型基于第二数据集训练得到,第二数据集包括多个带有业务类型标签的第二训练样本,每个第二训练样本均包括一个应用在一个节点上的业务pod的历史资源利用率信息。
16、作为一种可能的实现方式,第一健康度阈值区间包括第一健康度阈值区间最小值和第一健康度阈值区间最大值,基于目标分值确定是否对第一节点进行告警,包括:
17、在目标分值指示第一综合健康度小于第一健康度阈值区间最小值或大于第一健康度阈值区间最大值的情况下,确定对第一节点进行告警。
18、作为一种可能的实现方式,利用预先训练好的评分模型预测第一综合健康度对应的目标分值之后,方法还包括:
19、在目标分值指示第一综合健康度小于第一健康度阈值区间最小值的情况下,将第一节点上的第二应用迁出,或对第一业务pod进行扩容;
20、在目标分值指示第一综合健康度大于第一健康度阈值区间最大值的情况下,对第一业务pod进行缩容,或将knative集群中其他节点上的第三应用迁入第一节点。
21、作为一种可能的实现方式,基于目标分值确定是否对第一节点进行告警之后,方法还包括:
22、在确定对第一节点进行告警的情况下,将第一综合健康度和目标分值作为告警信息存储至告警记录,告警记录用于存储各节点的历史告警信息;
23、基于告警记录中存储的历史告警信息生成用于对评分模型进行训练的训练数据;
24、基于训练数据对评分模型进行训练。
25、第二方面,本技术实施提供一种云资源智能监控告警装置,包括:
26、获取模块,用于获取knative集群的第一资源信息,第一资源信息包括knative集群中与第一应用对应的第一节点的第一资源利用率信息和第一节点中与第一应用对应的第一业务pod的第二资源利用率信息;
27、健康度确定模块,用于基于第一资源信息,确定第一应用在第一节点上的第一综合健康度;
28、分值预测模块,用于利用预先训练好的评分模型预测第一综合健康度对应的目标分值,目标分值用于指示第一综合健康度与第一健康度阈值区间之间的大小关系,评分模型基于第一数据集训练得到,第一数据集包括多个带有分值标签的第一训练样本,每个第一训练样本均包括一个应用在一个节点上的历史综合健康度;
29、告警模块,用于基于目标分值确定是否对第一节点进行告警。
30、第三方面,本技术实施提供一种电子设备,电子设备包括:处理器以及存储有计算机程序指令的存储器;
31、处理器执行计算机程序指令时实现如第一方面的云资源智能监控告警方法。
32、第四方面,本技术实施提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面的云资源智能监控告警方法。
33、第五方面,本技术实施提供一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行如第一方面的云资源智能监控告警方法。
34、本技术实施例的云资源智能监控告警方法、装置、设备、介质及程序,基于knative集群中与第一应用对应的第一节点的第一资源利用率信息和第一节点中与第一应用对应的第一业务pod的第二资源利用率信息,确定第一应用在第一节点上的第一综合健康度;利用预先训练好的评分模型预测第一综合健康度对应的目标分值,目标分值用于指示第一综合健康度与第一健康度阈值区间之间的大小关系,基于目标分值确定是否对第一节点进行告警。根据本技术实施例,将节点与业务的资源利用率信息进行结合共同确定业务在节点上的综合健康度,使得综合健康度既可以体现节点健康度又可以体现节点健康度,基于综合健康度进行告警及时性更好,而且,基于评分模型预测能够表征综合健康度与健康度阈值之间的大小关系的分值,基于分值进行告警,相比于传统根据基于经验设置的告警阈值进行告警的方式,告警更加准确,而且评分模型适用于所有业务和节点,更灵活。
1.一种云资源智能监控告警方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一资源信息,确定所述第一应用在所述第一节点上的第一综合健康度,包括:
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一应用的业务类型,包括:
4.根据权利要求1所述的方法,其特征在于,所述第一健康度阈值区间包括第一健康度阈值区间最小值和第一健康度阈值区间最大值,所述基于所述目标分值确定是否对所述第一节点进行告警,包括:
5.根据权利要求4所述的方法,其特征在于,所述利用预先训练好的评分模型预测所述第一综合健康度对应的目标分值之后,所述方法还包括:
6.根据权利要求4所述的方法,其特征在于,所述基于所述目标分值确定是否对所述第一节点进行告警之后,所述方法还包括:
7.一种云资源智能监控告警装置,其特征在于,包括:
8.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的云资源智能监控告警方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-6任意一项所述的云资源智能监控告警方法。