针对大模型的请求调度方法及装置与流程

    技术2025-05-28  48


    本说明书一个或多个实施例涉及计算机,尤其涉及一种针对大模型的请求调度方法及装置。


    背景技术:

    1、大模型可以并行地处理多个请求,这些请求称为一个批量。当有多个大模型可以处理批量请求时,通常需要决定哪些请求可以划分到一个批量中,以及决定每个批量请求由哪个大模型进行处理,其中该两次的决定过程可以称为请求调度。

    2、在传统的针对大模型的请求调度方法中,为了避免发生内存溢出,通常会将批量的大小设定为固定值,这会使得大模型强大的并行能力无法得到充分利用。因此,需要一种改进的方案,以提高针对大模型的请求的调度效率。


    技术实现思路

    1、本说明书一个或多个实施例描述了一种针对大模型的请求调度方法及装置,通过将大模型的单次处理的输出长度配置为预定长度,可以有效提高针对大模型的请求调度效率。

    2、第一方面,提供了一种针对大模型的请求调度方法,包括:

    3、从请求池获取针对大模型的请求序列;其中所述大模型配置为,单次处理的输出长度为预定长度s;

    4、根据所述预定长度s,确定所述请求序列中各子序列的预计处理时长;

    5、根据所述预计处理时长,将所述请求序列中的请求划分为多个批次;

    6、将所述多个批次的请求,分别批量调度至多个推理引擎,进行基于所述大模型的单次处理,并将处理未完成的请求更新后返回所述请求池。

    7、第二方面,提供了一种针对大模型的请求调度装置,包括:

    8、获取单元,用于从请求池获取针对大模型的请求序列;其中所述大模型配置为,单次处理的输出长度为预定长度s;

    9、确定单元,用于根据所述预定长度s,确定所述请求序列中各子序列的预计处理时长;

    10、划分单元,用于根据所述预计处理时长,将所述请求序列中的请求划分为多个批次;

    11、调度单元,用于将所述多个批次的请求,分别批量调度至多个推理引擎,进行基于所述大模型的单次处理,并将处理未完成的请求更新后返回所述请求池。

    12、第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。

    13、第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,该处理器执行所述可执行代码时,实现第一方面的方法。

    14、本说明书一个或多个实施例提供的针对大模型的请求调度方法,通过将大模型的单次处理的输出长度配置为预定长度,使得可以确定出请求序列中各个子序列的预计处理时长,之后可以基于该预计处理时长,采用动态规划的算法,将请求序列中的请求划分为多个批次。本方案可以不用限制批量的大小,由此可以大大提升针对大模型的请求调度效率。



    技术特征:

    1.一种针对大模型的请求调度方法,包括:

    2.根据权利要求1所述的方法,其中,所述处理未完成的请求包括第一请求,所述第一请求在所述单次处理前的输入数据为第一字符串;

    3.根据权利要求1所述的方法,其中,所述大模型的单次处理包括:针对输入数据中的字符进行编码的第一阶段,以及针对生成字符进行迭代处理的第二阶段;

    4.根据权利要求3所述的方法,其中,所述确定执行第二阶段的第二子时长,包括:

    5.根据权利要求1所述的方法,其中,所述根据所述预计处理时长,将所述请求序列中的请求划分为多个批次,包括:

    6.根据权利要求5所述的方法,其中,任意的目标子序列的内存溢出通过以下方式判断:

    7.根据权利要求5所述的方法,其中,任意的目标子序列的内存溢出通过以下方式判断:

    8.根据权利要求5所述的方法,其中,任意的目标子序列的内存溢出通过以下方式判断:

    9.根据权利要求8所述的方法,其中,在所述将所述请求序列中的请求划分为多个批次之前,所述方法还包括执行以下中的一项或多项:

    10.根据权利要求5所述的方法,其中,所述确定所述多个批次对应的多个子序列,包括:

    11.根据权利要求10所述的方法,其中,所述对当前序列进行多次假定切分,包括:

    12.根据权利要求10所述的方法,其中,所述根据所述各个请求各自对应的最佳切分点中的至少部分最佳切分点,确定所述多个批次对应的多个子序列,包括:

    13.一种针对大模型的请求调度装置,包括:

    14.根据权利要求13所述的装置,其中,所述处理未完成的请求包括第一请求,所述第一请求在所述单次处理前的输入数据为第一字符串;

    15.根据权利要求13所述的装置,其中,所述大模型的单次处理包括:针对输入数据中的字符进行编码的第一阶段,以及针对生成字符进行迭代处理的第二阶段;

    16.根据权利要求15所述的装置,其中,所述确定子模块具体用于:

    17.根据权利要求13所述的装置,其中,所述划分单元具体用于:

    18.根据权利要求17所述的装置,还包括:

    19.根据权利要求17所述的装置,还包括:

    20.根据权利要求17所述的装置,还包括:判断单元;

    21.根据权利要求20所述的装置,还包括:

    22.根据权利要求13所述的装置,其中,所述确定单元具体用于:

    23.根据权利要求22所述的装置,其中,所述确定单元还具体用于:

    24.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-12中任一项所述的方法。

    25.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-12中任一项所述的方法。


    技术总结
    本说明书实施例提供一种针对大模型的请求调度方法及装置,在调度方法中,从请求池获取针对大模型的请求序列,其中大模型配置为,单次处理的输出长度为预定长度S。根据预定长度S,确定请求序列中各子序列的预计处理时长。根据预计处理时长,将请求序列中的请求划分为多个批次。将多个批次的请求,分别批量调度至多个推理引擎,进行基于大模型的单次处理,并将处理未完成的请求更新后返回请求池。

    技术研发人员:程珂,胡文,王智,彭宏恩,李建国
    受保护的技术使用者:支付宝(杭州)信息技术有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-31456.html

    最新回复(0)