链路状态检查方法、装置、电子设备及非易失性存储介质与流程

    技术2024-11-16  7


    本发明涉及服务器,特别是涉及一种链路状态检查方法、装置、电子设备及非易失性存储介质。


    背景技术:

    1、服务器的稳定性和可靠性,是保障数据中心及云计算环境下的业务连续性的基础,pcie(peripheral component interconnect express,高速串行计算机扩展总线标准)作为连接服务器内部高性能设备与外部设备的高速通信器件,其一旦发生故障,会影响服务器的性能。

    2、相关技术为了保障运行于服务器的业务高效稳定运行,通过对pcie设备的运行状态是否工作在预期的正常状态进行评估,当检测到pcie设备存在降速或降带宽的情况,会立即生成告警信息推送至基板管理控制器。但是,这种方式不仅会误判,而且告警信息并无法实现对故障设备的准确定位,不利于故障排查和修复。

    3、鉴于此,提升pcie链路状态的检测精度,准确定位故障源,是本领域技术人员需要解决的技术问题。

    4、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


    技术实现思路

    1、本发明提供了一种链路状态检查方法、装置、电子设备及非易失性存储介质,有效提升了pcie链路状态检测精度,能够准确定位故障源。

    2、为解决上述技术问题,本发明提供以下技术方案:

    3、本发明一方面提供了一种链路状态检查方法,包括:

    4、在pcie资源初始化过程中,获取各pcie设备的状态参数信息;所述状态参数信息包括各状态参数在当前连接状态下的当前参数值及其对应的参数最大允许值;

    5、若当前级pcie设备的目标状态参数的当前参数值小于对应的参数最大允许值,则获取所述当前级pcie设备的上一级pcie设备相应的目标状态参数信息;

    6、根据相邻两级pcie设备的目标状态参数信息对比结果,确定相邻两级pcie设备的链路状态情况;

    7、根据所述链路状态情况及相邻两级pcie设备的硬件连接关系,生成包含状态识别结果和故障源定位信息的链路状态检测结果。

    8、在第一种示例性的实施方式中,根据所述链路状态情况及相邻两级pcie设备的硬件连接关系,生成包含状态识别结果和故障源定位信息的链路状态检测结果,包括:

    9、若所述当前级pcie设备出现降带宽故障,则根据相邻两级pcie设备的硬件连接关系确定故障源位置信息,并生成包括降带宽故障识别结果和故障源位置信息的链路状态检测结果;

    10、若相邻两级pcie设备之间的链路出现降速故障,则根据相邻两级pcie设备的硬件连接关系确定故障源位置信息,并生成包括降速故障识别结果和故障源位置信息的链路状态检测结果。

    11、在第二种示例性的实施方式中,所述确定相邻两级pcie设备的链路状态情况之后,还包括:

    12、若根据相邻两级pcie设备的链路状态情况,判定所述当前级pcie设备的上一级pcie设备存在带宽分配故障问题,则根据所述上一级pcie设备的带宽分配方案输入源确定带宽分配故障原因;

    13、基于所述带宽分配故障原因,生成包括带宽分配问题以及带宽分配故障原因的链路状态检测结果;

    14、其中,所述带宽分配故障原因包括所述上一级pcie设备对应种类识别错误。

    15、在第三种示例性的实施方式中,所述当前参数值为当前连接状态的链路速度,所述参数最大允许值为最大支持的链路速度,所述根据相邻两级pcie设备的目标状态参数信息对比结果,确定相邻两级pcie设备的链路状态情况,包括:

    16、若当前级的目标pcie设备的当前连接状态的链路速度小于其对应的最大支持的链路速度;

    17、当所述目标pcie设备的上一级pcie设备的当前连接状态的链路速度等于其对应的最大支持的链路速度,则判定所述目标pcie设备和所述上一级pcie设备之间的链路状态正常;

    18、当所述目标pcie设备的上一级pcie设备的当前连接状态的链路速度小于其对应的最大支持的链路速度,则判定所述目标pcie设备与其上一级pcie设备之间的链路出现降速故障。

    19、在第四种示例性的实施方式中,所述若当前级pcie设备的目标状态参数的当前参数值小于对应的参数最大允许值之前,还包括:

    20、在从底层向上逐级检查各pcie设备过程中,若当前pcie设备对应的设备类型为第一类pcie设备类型,且所述当前pcie设备没有连接设备,则不对所述当前pcie设备进行链路状态检查;

    21、其中,所述第一类pcie设备类型包括根端口、pcie桥和交换机下行端口。

    22、在第五种示例性的实施方式中,所述若当前pcie设备对应的设备类型为第一类pcie设备类型之后,还包括:

    23、预先存储物理链接信息至基板管理控制器;所述物理链接信息为所述第一类pcie设备的物理插槽号与连接器脚位、所在硬件板卡之间的对应关系;

    24、若所述当前pcie设备对应的设备类型连接设备,且所述当前pcie设备存在链路故障或带宽分配故障,则根据所述物理链接信息确定所述当前pcie设备连接的目标连接器以及对应的目标硬件板卡,所述目标连接器和所述目标硬件板卡为故障定位信息。

    25、在第六种示例性的实施方式中,所述当前参数值为当前连接状态的链路带宽值,所述参数最大允许值为最大支持的链路带宽值,所述根据相邻两级pcie设备的目标状态参数信息对比结果,确定相邻两级pcie设备的链路状态情况,包括:

    26、在从底层向上逐级检查各pcie设备过程中,对当前级pcie设备不为第一类pcie设备类型的目标pcie设备,若目标pcie设备的当前连接状态的链路带宽值小于其对应的最大支持的链路带宽值;

    27、若所述目标pcie设备的上一级pcie设备的当前连接状态的链路带宽值等于其对应的最大支持的链路带宽值,则所述目标pcie设备的上一级pcie设备的链路状态正常;

    28、若所述目标pcie设备的上一级pcie设备的当前连接状态的链路带宽值小于其对应的最大支持的链路带宽值,则比较所述目标pcie设备的最大支持的链路带宽值与所述目标pcie设备上一级pcie设备的最大支持的链路带宽值;

    29、若所述目标pcie设备的最大支持的链路带宽值小于等于所述目标pcie设备的上一级pcie设备的最大支持的链路带宽值,则所述目标pcie设备的链路状态情况为降带宽故障;

    30、若所述目标pcie设备的最大支持的链路带宽值大于所述目标pcie设备的上一级pcie设备的最大支持的链路带宽值,则所述目标pcie设备的上一级pcie设备的链路状态情况为带宽分配故障;

    31、其中,所述第一类pcie设备类型包括根端口、pcie桥和交换机下行端口。

    32、本发明另一方面提供了一种链路状态检查装置,包括:

    33、数据获取模块,用于在pcie资源初始化过程中,获取各pcie设备的状态参数信息;所述状态参数信息包括各状态参数在当前连接状态下的当前参数值及其对应的参数最大允许值;

    34、相邻链路数据获取模块,用于若当前级pcie设备的目标状态参数的当前参数值小于对应的参数最大允许值,则获取所述当前级pcie设备的上一级pcie设备相应的目标状态参数信息;

    35、链路状态检测模块,用于根据相邻两级pcie设备的目标状态参数信息对比结果,确定相邻两级pcie设备的链路状态情况;

    36、故障识别与定位模块,用于根据所述链路状态情况及相邻两级pcie设备的硬件连接关系,生成包含状态识别结果和故障源定位信息的链路状态检测结果。

    37、本发明还提供了一种电子设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述链路状态检查方法的步骤。

    38、本发明最后还提供了一种非易失性存储介质,所述非易失性存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前任一项所述链路状态检查方法的步骤。

    39、本发明提供的技术方案的优点在于,当检测到pcie设备链路状态异常时,通过检查其上一级设备的链路状态来识别该异常是真实故障还是正常配置,能够精准诊断pcie设备是否发生了降速或带宽降低问题,提升pcie性能下降的识别准确度,有效降低误报概率,当实际发生故障时,通过相邻pcie设备之间的物理连接关系能够快速且准确地生成故障源定位信息,精准定位到故障组件,有效简化生产线或客户对服务器的快速维修和故障恢复流程,降低故障修复难度,有利于快速恢复服务器的正常运行状态,有效保障服务器的稳定运行和业务的连续性。

    40、此外,本发明还针对链路状态检查方法提供了相应的实现装置、电子设备及非易失性存储介质,进一步使得所述方法更具有实用性,所述装置、电子设备及非易失性存储介质具有相应的优点。

    41、上面已提及的技术特征、下面将要提及的技术特征以及单独地在附图中显示的技术特征可以任意地相互组合,只要被组合的技术特征不是相互矛盾的。所有的可行的特征组合都是在本文中明确地记载的技术内容。在同一个语句中包含的多个分特征之中的任一个分特征可以独立地被应用,而不必一定与其他分特征一起被应用。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。


    技术特征:

    1.一种链路状态检查方法,其特征在于,包括:

    2.根据权利要求1所述的链路状态检查方法,其特征在于,根据所述链路状态情况及相邻两级pcie设备的硬件连接关系,生成包含状态识别结果和故障源定位信息的链路状态检测结果,包括:

    3.根据权利要求1所述的链路状态检查方法,其特征在于,所述确定相邻两级pcie设备的链路状态情况之后,还包括:

    4.根据权利要求1所述的链路状态检查方法,其特征在于,所述当前参数值为当前连接状态的链路速度,所述参数最大允许值为最大支持的链路速度,所述根据相邻两级pcie设备的目标状态参数信息对比结果,确定相邻两级pcie设备的链路状态情况,包括:

    5.根据权利要求1所述的链路状态检查方法,其特征在于,所述若当前级pcie设备的目标状态参数的当前参数值小于对应的参数最大允许值之前,还包括:

    6.根据权利要求5所述的链路状态检查方法,其特征在于,所述若当前pcie设备对应的设备类型为第一类pcie设备类型之后,还包括:

    7.根据权利要求1至6任意一项所述的链路状态检查方法,其特征在于,所述当前参数值为当前连接状态的链路带宽值,所述参数最大允许值为最大支持的链路带宽值,所述根据相邻两级pcie设备的目标状态参数信息对比结果,确定相邻两级pcie设备的链路状态情况,包括:

    8.一种链路状态检查装置,其特征在于,包括:

    9.一种电子设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7任一项所述链路状态检查方法的步骤。

    10.一种非易失性存储介质,其特征在于,所述非易失性存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述链路状态检查方法的步骤。


    技术总结
    本发明公开了一种链路状态检查方法、装置、电子设备及非易失性存储介质,应用于服务器技术领域。在PCIe资源初始化过程中,获取各PCIe设备的状态参数信息;若当前级PCIe设备的目标状态参数的当前参数值小于对应的参数最大允许值,则获取当前级PCIe设备的上一级PCIe设备相应的目标状态参数信息;根据相邻两级PCIe设备的目标状态参数信息对比结果,确定相邻两级PCIe设备的链路状态情况。当发生故障,根据链路状态和相邻两级PCIe设备的硬件连接关系生成包含状态识别结果和故障源定位信息的链路状态检测结果。可以解决相关技术出现误判及无法定位故障源的问题,实现对PCIe链路状态的准确检测及故障源的定位。

    技术研发人员:郭伯亚
    受保护的技术使用者:苏州元脑智能科技有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-22060.html

    最新回复(0)