故障诊断方法、装置、设备、存储介质和程序产品与流程

    技术2025-01-21  56


    本技术涉及人工智能,尤其涉及一种故障诊断方法、装置、设备、存储介质和程序产品。


    背景技术:

    1、随着科技的进步,业务系统的软件架构正逐渐变得越来越复杂。为了保证业务系统稳定和可靠的运行,需要业务系统的平均故障间隔时间(mean time between failures,mtbf)尽量长,故障解决时间(mean time to repair,mttr)尽量短。这就需要在业务系统出现故障后,快速进行故障诊断并解决。

    2、目前的故障诊断方法主要是人工诊断,这种方式一般是运维部门收到客户投诉或设备告警后,通过办事处人员反馈到sre(site reliability engineering,站点可靠性工程)工程师,由sre工程师根据经验做具体分析和操作,不仅效率低,且成本高。

    3、为了提高故障诊断效率,有方案提出基于大语言模型(large language model,llm)进行辅助诊断,这种方式提高了故障诊断效率,但其在故障诊断过程中存在明显的幻觉问题,准确性仍有待进一步提高。


    技术实现思路

    1、鉴于上述问题,本技术提供了一种故障诊断方法、装置、设备、存储介质和程序产品,以提高故障诊断的准确性。具体方案如下:

    2、本技术第一方面提供一种故障诊断方法,所述方法包括:

    3、接收输入的故障描述信息;

    4、确定与所述故障描述信息相关的运维工具列表;

    5、利用大语言模型基于所述故障描述信息和所述运维工具列表进行多步诊断,其中,每一诊断步骤包括:

    6、将所述故障描述信息、所述运维工具列表和历史信息填加到第一提示词模板,得到第一提示词;所述第一提示词指示大语言模型基于所述故障描述信息和所述历史信息进行故障诊断时的规则和格式;其中,所述规则至少包括:在诊断过程中调用异常指标检测工具来确定异常指标,基于所述异常指标以及知识召回工具获得知识来诊断异常原因,使用所述运维工具列表中的运维工具辅助诊断;

    7、将所述第一提示词输入所述大语言模型,得到所述大语言模型生成的决策结果;

    8、如果所述决策结果指示调用所述异常指标检测工具或运维工具或知识召回工具,在调用所述异常指标检测工具或所述运维工具或知识召回工具,得到调用结果后,进入下一诊断步骤;其中,在第一个诊断步骤中,所述历史信息为空,在非第一个诊断步骤中,所述历史信息包括历史诊断步骤得到的决策结果和调用结果;

    9、如果所述决策结果指示输出诊断结果,基于所述决策结果输出诊断结果。

    10、在一种可能的实现中,所述确定与所述故障描述信息相关的运维工具,包括:

    11、获得所述故障描述信息的向量表示;

    12、基于所述故障描述信息的向量表示与数据库中预先存储的每个运维工具的描述信息的向量表示,计算所述数据库中的每个运维工具的描述信息与所述故障描述信息的相似度;

    13、确定与所述故障描述信息相关的运维工具列表;所述运维工具列表中的运维工具的描述信息与所述故障描述信息的相似度,大于不在所述运维工具列表中的运维工具的描述信息与所述故障描述信息的相似度。

    14、在一种可能的实现中,调用所述知识召回工具得到调用结果的过程包括:

    15、将所述异常指标输入所述知识召回工具,以便所述知识召回工具将所述异常指标与知识库中各个知识项进行匹配,将与所述异常指标匹配的知识项中的故障分析步骤作为调用结果进行输出。

    16、在一种可能的实现中,所述知识库中的每个知识项包括如下几个字段的内容:故障名称、故障描述、故障相关的指标、故障分析步骤;

    17、所述知识项通过如下方式提取得到:

    18、将知识文档按照章节结构构建文档片段树;所述文档片段树的根节点对应所述知识文档;每个非根节点对应所述知识文档中的一个章节;所述根节点包括所述知识文档的标题,如果非根节点是叶子节点,则所述非根节点包括对应章节的所有内容,如果非根据节点不是叶子节点,则所述非根节点包括对应章节的章节标题和对应章节的概述;

    19、调用所述大语言模型对所述文档片段树中的节点进行遍历,每遍历到一个节点,对遍历到的节点进行知识项提取;每个知识项从一个节点中提取得到。

    20、在一种可能的实现中,所述根节点还包括所述知识文档的标题的摘要;

    21、如果非根节点是叶子节点,则所述非根节点还包括对应章节的所有内容的摘要;

    22、如果非根据节点不是叶子节点,则所述非根节点还包括对应章节的章节标题和对应章节的概述的摘要。

    23、在一种可能的实现中,所述调用所述大语言模型对所述文档片段树中的节点进行遍历,每遍历到一个节点,对遍历到的节点进行知识项提取,包括:

    24、将所述文档片段树填加到第二提示词模板,得到第二提示词;所述第二提示词指示所述大语言模型逐个遍历所述文档片段树中的节点,对于遍历到的每个节点,根据该节点的内容撰写至少一条符合预设格式的详细诊断信息,从不同节点中提取的详细诊断信息不同;

    25、每一条详细诊断信息为一个知识项。

    26、本技术的第二方面提供一种故障诊断装置,包括:

    27、接收模块,用于接收输入的故障描述信息;

    28、工具确定模块,用于确定与所述故障描述信息相关的运维工具列表;

    29、诊断模块,用于利用大语言模型基于所述故障描述信息和所述运维工具列表进行多步诊断,其中,每一诊断步骤包括:将所述故障描述信息、所述运维工具列表和历史信息填加到第一提示词模板,得到第一提示词;所述第一提示词指示大语言模型基于所述故障描述信息和所述历史信息进行故障诊断时的规则和格式;其中,所述规则至少包括:在诊断过程中调用异常指标检测工具来确定异常指标,基于所述异常指标以及知识召回工具获得知识来诊断异常原因,使用所述运维工具列表中的运维工具辅助诊断;将所述第一提示词输入所述大语言模型,得到所述大语言模型生成的决策结果;如果所述决策结果指示调用所述异常指标检测工具或运维工具或知识召回工具,在调用所述异常指标检测工具或所述运维工具或知识召回工具,得到调用结果后,进入下一诊断步骤;其中,在第一个诊断步骤中,所述历史信息为空,在非第一个诊断步骤中,所述历史信息包括历史诊断步骤得到的决策结果和调用结果;

    30、输出模块,用于如果所述决策结果指示输出诊断结果,基于所述决策结果输出诊断结果。

    31、本技术第三方面提供一种计算机程序产品,包括计算机可读指令,当所述计算机可读指令在电子设备上运行时,使得所述电子设备实现上述第一方面或第一方面任一实现方式的故障诊断方法。

    32、本技术第四方面提供一种电子设备,包括至少一个处理器和与所述处理器连接的存储器,其中:

    33、所述存储器用于存储计算机程序;

    34、所述处理器用于执行所述计算机程序,以使所述电子设备能够实现上述第一方面或第一方面任一实现方式的故障诊断方法。

    35、本技术第五方面提供一种计算机存储介质,所述存储介质承载有一个或多个计算机程序,当所述一个或多个计算机程序被电子设备执行时,能够使所述电子设备上述第一方面或第一方面任一实现方式的故障诊断方法。

    36、借由上述技术方案,本技术提供的故障诊断方法、装置、设备、存储介质和程序产品,在接收输入的故障描述信息后,确定与故障描述信息相关的运维工具列表,利用大语言模型基于故障描述信息和运维工具列表进行多步诊断,其中,每一诊断步骤包括:将故障描述信息、运维工具列表和历史信息填加到第一提示词模板,得到第一提示词;第一提示词指示大语言模型基于故障描述信息和历史信息进行故障诊断时的规则和格式;其中,上述规则至少包括:在诊断过程中调用异常指标检测工具来确定异常指标,基于异常指标以及知识召回工具获得知识来诊断异常原因,可以使用运维工具列表中的工具辅助诊断;将第一提示词输入大语言模型,得到大语言模型生成的决策结果;如果决策结果指示调用异常指标检测工具或运维工具或知识召回工具,在调用异常指标检测工具或运维工具或知识召回工具,得到调用结果后,进入下一诊断步骤;其中,在第一个诊断步骤中,历史信息为空,在非第一个诊断步骤中,历史信息包括历史诊断步骤得到的决策结果和调用结果;如果决策结果指示输出诊断结果,基于决策结果输出诊断结果。本技术在基于大语言模型进行故障诊断的过程中,通过调用工具和相关知识进行多步自动故障诊断,克服了大语言模型在故障诊断过程中的幻觉问题,提高了故障诊断的准确性。


    技术特征:

    1.一种故障诊断方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述确定与所述故障描述信息相关的运维工具,包括:

    3.根据权利要求1所述的方法,其特征在于,调用所述知识召回工具得到调用结果的过程包括:

    4.根据权利要求3所述的方法,其特征在于,所述知识库中的每个知识项包括如下几个字段的内容:故障名称、故障描述、故障相关的指标、故障分析步骤;

    5.根据权利要求4所述的方法,其特征在于,所述根节点还包括所述知识文档的标题的摘要;

    6.根据权利要求4所述的方法,其特征在于,所述调用所述大语言模型对所述文档片段树中的节点进行遍历,每遍历到一个节点,对遍历到的节点进行知识项提取,包括:

    7.一种故障诊断装置,其特征在于,包括:

    8.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在电子设备上运行时,使得所述电子设备实现如权利要求1至6中任意一项所述的故障诊断方法。

    9.一种电子设备,其特征在于,所述电子设备包括至少一个处理器和与所述处理器连接的存储器,其中:

    10.一种计算机存储介质,其特征在于,所述存储介质承载有一个或多个计算机程序,当所述一个或多个计算机程序被电子设备执行时,能够使所述电子设备实现如权利要求1至6中任意一项所述的故障诊断方法。


    技术总结
    本申请公开了一种故障诊断方法、装置、设备、存储介质和程序产品,涉及人工智能技术领域,包括:接收输入的故障描述信息,确定与故障描述信息相关的运维工具列表;进行多步诊断,每一步诊断包括:将故障描述信息、运维工具列表和历史信息填加到第一提示词模板,得到第一提示词;第一提示词指示进行故障诊断的规则和格式;该规则至少包括:调用异常指标检测工具确定异常指标,基于异常指标和知识召回工具获得知识来诊断异常原因,可使用运维工具辅助诊断;将第一提示词输入大语言模型以生成决策结果;若决策结果指示调用工具,调用工具得到调用结果后,进入下一步诊断;若决策结果指示输出诊断结果,输出诊断结果。本申请提高了故障诊断的准确性。

    技术研发人员:肖如杏,潘伟光,欧阳晔
    受保护的技术使用者:杭州亚信软件有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-25360.html

    最新回复(0)