一种检测方法、装置、设备及可读存储介质与流程

    技术2024-12-19  6


    本技术涉及计算机应用,特别是涉及一种检测方法、装置、设备及可读存储介质。


    背景技术:

    1、ras(机器的可靠性(reliability)、可用性(availability)和可服务性(serviceability))是服务器的重要功能之一。ras技术在于使整个服务器长期可靠的运行,降低由于故障导致机器下线的几率,及时地纠正可修复错误。ras技术中的一个环节是bios(basic input output system,基本输出输入系统)给bmc(baseboard managementcontroller,底板管理控制器)上报服务器的错误信息。

    2、一般地,在当前的服务器系统中,可纠正错误的ras处理程序执行是在smm(systemmanagement mode,系统管理模式)环境中进行的。当服务器发生可纠正错误后,处理器和bios产生smi(system management interrupt,系统管理中断)进入smm环境去调用ras处理程序。使用smi和smm的缺陷:降低服务器的性能。尤其是当服务器短时间产生大量可纠正错误时,bios多次触发smi,使服务器的性能大大降低。

    3、目前,可在bmc的系统环境中执行ras处理程序,即ras offload(可纠正错误处理加速功能)。ras offload将错误处理转移到bmc以最大程度地减少smi使用。当启用rasoffload功能后,如果服务器发生了可纠正错误,处理器和平台组件会触发err0 pin的信号。bmc检测到err0 pin的状态发生变化后,就开始处理ras错误信息。处理错误信息时,一方面,bmc可以将错误信息记录在sel(system event log,系统事件管理日志)中,另一方面,bmc还可以借助平台将错误信息上报给os(operating system,操作系统)。那么,验证ras offload的功能是否可行,是否稳定对于这项技术来说至关重要。

    4、综上所述,如何有对ras offload进行生效检测等问题,是目前本领域技术人员急需解决的技术问题。


    技术实现思路

    1、本技术的目的是提供一种检测方法、装置、设备及可读存储介质,以实现对rasoffload进行生效检测。

    2、为解决上述技术问题,本技术提供如下技术方案:

    3、一种检测方法,包括:

    4、启动服务器的可纠正错误处理加速功能;其中,所述可纠正错误处理加速功能正常的情况下,若所述服务器发生可纠正错误,则处理器和平台组件触发目标引脚的产生状态变化信号;所述服务器的基板管理控制器检测所述目标引脚的状态发生变化后,处理所发生的可纠正错误,并将错误信息记录在系统事件管理日志中,并向操作系统报告所述错误信息;

    5、向所述服务器注入可纠正错误;

    6、获取所述服务器中基本输入输出系统的串口日志,利用所述串口日志确定所述基本输入输出系统是否触发系统管理中断,得到触发检测结果;

    7、获取所述系统事件管理日志,利用所述系统事件管理日志确定所述基板管理控制器是否执行纠错处理,得到执行检测结果;

    8、获取所述基板管理控制器发送所述操作系统的错误报告信息,利用所述错误报告信息确定所述基板管理控制器是否成功向所述操作系统报告了可纠正错误的错误信息,得到报告检测结果;

    9、结合所述触发检测结果、所述执行检测结果和所述报告检测结果,对所述可纠正错误处理加速功能进行生效检测。

    10、优选地,所述可纠正错误包括关于超路径互联的可纠正错误,关于内存的可纠正错误和关于传输总线的可纠正错误,

    11、若所述可纠正错误关于超路径互联,相应的,向所述服务器注入可纠正错误,包括:

    12、执行超路径互联查看命令,得到超路径拓扑结构;

    13、基于所述超路径拓扑结构,并利用超路径互联注错命令,在目标超路径上注入可纠正错误;

    14、执行超路径互联错误打印命令,得到路径错误记录信息;

    15、利用所述路径错误记录信息确定是否成功注入关于超路径互联的可纠正错误;

    16、如果是,则确定完成所述可纠正错误的注入;

    17、若所述可纠正错误关于内存,相应的,向所述服务器注入可纠正错误,包括:

    18、执行内存拓扑查看命令,得到内存拓扑结构;

    19、基于所述内存拓扑结构,并利用内存错误注入命令,在一根目标内存上注入一次可纠正错误;

    20、执行内存错误查看指令,得到内存错误记录信息;

    21、利用所述内存错误记录信息判断是否成功注入了关于内存的可纠正错误;

    22、如果是,则确定完成所述可纠正错误的注入;

    23、若所述可纠正错误关于传输总线,相应的,向所述服务器注入可纠正错误,包括:

    24、执行总线设备查看命令,得到总线拓扑结构;

    25、基于所述总线拓扑结构,并利用总线注错命令在目标设备上注入一次可纠正错误;

    26、执行总线错误查看指令,得到总线错误记录信息;

    27、利用所述总线错误记录信息判断是否成功注入了关于总线的可纠正错误;

    28、如果是,则确定完成所述可纠正错误的注入。

    29、优选地,获取所述服务器中基本输入输出系统的串口日志,利用所述串口日志确定所述基本输入输出系统是否触发系统管理中断,得到触发检测结果,包括:

    30、在向所述服务器注入可纠正错误的过程中,利用串口线收集所述串口日志;其中,所述串口线连接所述服务器;

    31、判断所述串口日志中是否记录所述基本输入输出系统触发所述触发系统管理中断或所述基本输入输出系统通过触发系统管理中断发送的详细错误信息;

    32、如果是,则确定所述触发检测结果为所述可纠正错误处理加速功能未通过触发检测;

    33、如果否,则确定所述触发检测结果为所述可纠正错误处理加速功能通过触发检测。

    34、优选地,获取所述系统事件管理日志,利用所述系统事件管理日志确定所述基板管理控制器是否执行纠错处理,得到执行检测结果,包括:

    35、通过查看请求,获取所述系统事件管理日志;

    36、判断所述系统事件管理日志中是否存在所述目标引脚及注入的可纠错正错误的记录信息;

    37、如果是,则确定所述执行检测结果为所述可纠正错误处理加速功能通过执行检测;

    38、如果否,则确定所述执行检测结果为所述可纠正错误处理加速功能未通过执行检测。

    39、优选地,获取所述基板管理控制器发送所述操作系统的错误报告信息,利用所述错误报告信息确定所述基板管理控制器是否成功向所述操作系统报告了可纠正错误的错误信息,得到报告检测结果,包括:

    40、执行上报信息查询指令,得到返回结果;

    41、将所述返回结果确定为所述错误报告信息;

    42、判断所述错误报告信息是否存在错误纠正信息;

    43、如果是,则确定所述报告检测结果为所述可纠正错误处理加速功能通过上报检测;

    44、如果否,则确定所述报告检测结果为所述可纠正错误处理加速功能未通过上报检测。

    45、优选地,启动服务器的可纠正错误处理加速功能,包括:

    46、在所述基本输入输出系统的设置菜单中,打开所述可纠正错误处理加速功能;

    47、调整不同类型可纠正错误的阈值为指定数值

    48、完成设置后,重启所述服务器。

    49、优选地,结合所述触发检测结果、所述执行检测结果和所述报告检测结果,对所述可纠正错误处理加速功能进行生效检测,包括:

    50、在所述触发检测结果、所述执行检测结果和所述报告检测结果均表示可纠正错误处理加速功能通过的情况下,确定所述可纠正错误处理加速功能通过生效检测;否则,确定所述可纠正错误处理加速功能未通过生效检测。

    51、一种检测装置,包括:

    52、功能启动模块,用于启动服务器的可纠正错误处理加速功能;其中,所述可纠正错误处理加速功能正常的情况下,若所述服务器发生可纠正错误,则处理器和平台组件触发目标引脚的产生状态变化信号;所述服务器的基板管理控制器检测所述目标引脚的状态发生变化后,处理所发生的可纠正错误,并将错误信息记录在系统事件管理日志中,并向操作系统报告所述错误信息;

    53、纠错注入模块,用于向所述服务器注入可纠正错误;

    54、触发检测模块,用于获取所述服务器中基本输入输出系统的串口日志,利用所述串口日志确定所述基本输入输出系统是否触发系统管理中断,得到触发检测结果;

    55、执行检测模块,用于获取所述系统事件管理日志,利用所述系统事件管理日志确定所述基板管理控制器是否执行纠错处理,得到执行检测结果;

    56、报告检测模块,用于获取所述基板管理控制器发送所述操作系统的错误报告信息,利用所述错误报告信息确定所述基板管理控制器是否成功向所述操作系统报告了可纠正错误的错误信息,得到报告检测结果;

    57、功能检测确定模块,用于结合所述触发检测结果、所述执行检测结果和所述报告检测结果,对所述可纠正错误处理加速功能进行生效检测。

    58、一种电子设备,包括:

    59、存储器,用于存储计算机程序;

    60、处理器,用于执行所述计算机程序时实现上述检测方法的步骤。

    61、一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述检测方法的步骤。

    62、一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时,实现上述检测方法的步骤。

    63、应用本技术实施例所提供的方法,启动服务器的可纠正错误处理加速功能;其中,可纠正错误处理加速功能正常的情况下,若服务器发生可纠正错误,则处理器和平台组件触发目标引脚的产生状态变化信号;服务器的基板管理控制器检测目标引脚的状态发生变化后,处理所发生的可纠正错误,并将错误信息记录在系统事件管理日志中,并向操作系统报告错误信息;向服务器注入可纠正错误;获取服务器中基本输入输出系统的串口日志,利用串口日志确定基本输入输出系统是否触发系统管理中断,得到触发检测结果;获取系统事件管理日志,利用系统事件管理日志确定基板管理控制器是否执行纠错处理,得到执行检测结果;获取基板管理控制器发送操作系统的错误报告信息,利用错误报告信息确定基板管理控制器是否成功向操作系统报告了可纠正错误的错误信息,得到报告检测结果;结合触发检测结果、执行检测结果和报告检测结果,对可纠正错误处理加速功能进行生效检测。

    64、由于可纠正错误处理加速功能正常的情况下,若服务器发生可纠正错误,则处理器和平台组件触发目标引脚的产生状态变化信号;服务器的基板管理控制器检测目标引脚的状态发生变化后,处理所发生的可纠正错误,并将错误信息记录在系统事件管理日志中,并向操作系统报告错误信息;为了对可纠正错误处理加速功能进行生效检测,可以先启动可纠正错误处理加速功能,然后通过注入错误的方式,对服务器中相关信息进行采集,基于所采集的信息确定可纠正错误处理加速功能是否按照正常模式进行。具体的,在注入了可纠正错误之后,可以采集基本输入输出系统的串口日志。若基本输入输出系统触发了系统管理中断,其串口日志会记录相关信息,因此,可利用串口日志确定基本输入输出系统是否触发系统管理中断,得到触发检测结果。基板管理控制器进行了纠错处理,其系统事件管理日志会记录,因而利用系统事件管理日志可确定基板管理控制器是否执行纠错处理,得到执行检测结果。基板管理控制器执行了纠错处理之后,会向操作系统发送错误报告信息,因此利用错误报告信息确定基板管理控制器是否成功向操作系统报告了可纠正错误的错误信息,得到报告检测结果。最终,结合触发检测结果、执行检测结果和报告检测结果,对可纠正错误处理加速功能涉及的触发、执行和报告多个维度进行生效检测。

    65、技术效果:本技术可对可纠正错误处理加速功能进行生效检测。

    66、相应地,本技术实施例还提供了与上述检测方法相对应的检测装置、设备、可读存储介质及计算机程序产品,具有上述技术效果,在此不再赘述。


    技术特征:

    1.一种检测方法,其特征在于,包括:

    2.根据权利要求1所述的方法,其特征在于,所述可纠正错误包括关于超路径互联的可纠正错误,关于内存的可纠正错误和关于传输总线的可纠正错误,

    3.根据权利要求1所述的方法,其特征在于,获取所述服务器中基本输入输出系统的串口日志,利用所述串口日志确定所述基本输入输出系统是否触发系统管理中断,得到触发检测结果,包括:

    4.根据权利要求1所述的方法,其特征在于,获取所述系统事件管理日志,利用所述系统事件管理日志确定所述基板管理控制器是否执行纠错处理,得到执行检测结果,包括:

    5.根据权利要求1所述的方法,其特征在于,获取所述基板管理控制器发送所述操作系统的错误报告信息,利用所述错误报告信息确定所述基板管理控制器是否成功向所述操作系统报告了可纠正错误的错误信息,得到报告检测结果,包括:

    6.根据权利要求1所述的方法,其特征在于,启动服务器的可纠正错误处理加速功能,包括:

    7.根据权利要求1至6任一项所述的方法,其特征在于,结合所述触发检测结果、所述执行检测结果和所述报告检测结果,对所述可纠正错误处理加速功能进行生效检测,包括:

    8.一种检测装置,其特征在于,包括:

    9.一种电子设备,其特征在于,包括:

    10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述检测方法的步骤。


    技术总结
    本申请在计算机应用技术领域,公开了一种检测方法、装置、设备及可读存储介质,该方法包括:启动服务器的可纠正错误处理加速功能;向服务器注入可纠正错误;获取串口日志,利用串口日志确定基本输入输出系统是否触发系统管理中断,得到触发检测结果;获取系统事件管理日志,利用系统事件管理日志确定基板管理控制器是否执行纠错处理,得到执行检测结果;获取基板管理控制器发送操作系统的错误报告信息,利用错误报告信息确定基板管理控制器是否成功向操作系统进行了报告,得到报告检测结果;结合触发检测结果、执行检测结果和报告检测结果,对可纠正错误处理加速功能进行生效检测。技术效果:本申请可对可纠正错误处理加速功能进行生效检测。

    技术研发人员:翟盼盼
    受保护的技术使用者:苏州元脑智能科技有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-23906.html

    最新回复(0)