本技术涉及数据处理,具体涉及一种面向大模型并行处理的算力资源分配方法。
背景技术:
1、随着互联网和物联网技术的发展,能够收集的数据量呈指数级增长,同时为了解决现实世界中复杂的问题,往往需要更高级、规模更大的模型架构。大模型规模的扩展会引起模型训练难度增加,传统的单机单卡模式已经无法满足大模型进行训练的要求,算力资源的限制成为了大模型训练的重大瓶颈。大模型并行处理是通过将大模型的架构分配到不同的算力设备,需要考虑算力资源和训练任务体量的匹配情况,进行算力资源匹配,实现大模型分布式训练。
2、现有的算力资源分配算法有随机分配算法、轮询分配算法等。随机分配算法的好处是实现简单,适用于小型模型训练;而应用于大模型训练时,由于随机分配算法是随机分配任务的,所以存在无法均衡负载任务的问题,易造成算力设备过载甚至瘫痪的情况。采用轮询分配算法时,虽然算力设备瘫痪风险较低,但存在高性能算力节点的算力资源无法得到充分利用的问题。
技术实现思路
1、为了解决上述技术问题,本技术提供一种面向大模型并行处理的算力资源分配方法,以解决现有的问题。
2、本技术的一种面向大模型并行处理的算力资源分配方法采用如下技术方案:
3、本技术一个实施例提供了一种面向大模型并行处理的算力资源分配方法,该方法包括以下步骤:
4、获取每台算力设备中各历史计算任务的执行时长、计算结果、所需存储容量及每台算力设备的可存储容量;
5、基于每台算力设备中各历史计算任务的所需存储容量及所述可存储容量,确定每台算力设备中各历史计算任务的执行效率;
6、每台算力设备中所需存储容量大于分割阈值,且在时间上连续的历史计算任务组成每台算力设备的长期重载组;
7、基于每台算力设备中各长期重载组内所有历史计算任务的执行效率的变化趋势、执行时长、所需存储容量及计算结果,确定每台算力设备的长期重载运行能力;
8、获取大模型各阶段下各计算任务的发布时间、处理开始时间、当前计算时刻及所需存储容量;
9、基于各计算任务的发布时间、处理开始时间、当前计算时刻及所需存储容量,确定各计算任务的算力分配优先度,结合所述可存储容量及所述长期重载运行能力,以对各计算任务分配算力资源。
10、优选的,所述每台算力设备中各历史计算任务的执行效率的确定方法为:
11、分析每台算力设备中各历史计算任务的所需存储容量与所有历史计算任务所需存储容量的累加结果的比值,记为每台算力设备中各历史计算任务的工作量占比;
12、分析每台算力设备中各历史计算任务的所需存储容量与对应算力设备的可存储容量的比值,记为每台算力设备中各历史计算任务的资源使用率;
13、每台算力设备中各历史计算任务的执行效率的表达式为:式中,ηi,j是第i台算力设备中第j个历史计算任务的执行效率;ri,j是第i台算力设备中第j个历史计算任务的资源使用率;li,j是第i台算力设备中第j个历史计算任务的工作量占比。
14、优选的,所述每台算力设备的长期重载运行能力的确定过程为:
15、基于每台算力设备中所有长期重载组内所有历史计算任务的执行效率的变化趋势及所有历史计算任务的执行时长确定每台算力设备的瘫痪可能性;
16、基于每台算力设备中所有长期重载组内所有历史计算任务的所需存储容量及计算结果,确定每台算力设备的长期重载可靠性;
17、每台算力设备的长期重载运行能力为每台算力设备的长期重载可靠性与瘫痪可能性的比值。
18、优选的,所述每台算力设备的瘫痪可能性的确定方法为:
19、基于每台算力设备中各长期重载组内所有历史计算任务的执行效率的变化趋势,确定每台算力设备中各长期重载组的效率损耗度;
20、分析每台算力设备中各长期重载组内资源使用率大于预设阈值的所有历史计算任务的执行时长的和值,记为每台算力设备中各长期重载组的超载时长;
21、每台算力设备的瘫痪可能性为每台算力设备中所有长期重载组的效率损耗度与超载时长融合的结果。
22、优选的,所述每台算力设备中各长期重载组的效率损耗度的确定方法为:
23、将每台算力设备中各长期重载组内所有历史计算任务的执行效率作为斜率估计算法的输入,得到每台算力设备中各长期重载组的斜率估计值;
24、每台算力设备中各长期重载组的效率损耗度的表达式为:qi,k表示第i台算力设备中第k个长期重载组的效率损耗度;si,k表示第i台算力设备中第k个长期重载组的斜率估计值。
25、优选的,所述每台算力设备的长期重载可靠性的确定方法为:
26、若每台算力设备中各历史计算任务的计算结果正确,每台算力设备中各历史计算任务的正确度为1,反之,所述正确度为-1;
27、分析每台算力设备中各历史计算任务的工作量占比和正确度的乘积,记为每台算力设备中各历史计算任务的计算贡献值;
28、分析每台算力设备中各长期重载组内所有历史计算任务的计算贡献值的累加和及所需存储容量累加和的比值,记为每台算力设备中各长期重载组的贡献效率比;
29、每台算力设备的长期重载可靠性为每台算力设备中所有长期重载组的贡献效率比的均值。
30、优选的,所述各计算任务的算力分配优先度的确定方法为:
31、分析各计算任务的处理开始时间与发布时间的差值,记为各计算任务的等待时长;
32、分析各计算任务的当前计算时刻与处理开始时间的差值,记为各计算任务的处理时长;
33、分析各计算任务的处理时长与所有计算任务的处理时长累加和的比值,记为各计算任务的任务完成度;
34、基于各计算任务的等待时长、任务完成度及所需存储容量,确定各计算任务的算力分配优先度。
35、优选的,所述基于各计算任务的等待时长、任务完成度及所需存储容量,确定各计算任务的算力分配优先度,进一步包括:
36、分析各计算任务的等待时长与任务完成度的乘积,记为各计算任务的执行紧迫度;
37、各计算任务的算力分配优先度为各计算任务的执行紧迫度与所需存储容量融合的结果。
38、优选的,所述对各计算任务分配算力资源,包括:
39、基于各计算任务的所需存储容量及每台算力设备的可存储容量,确定各计算任务与任意一台算力设备间的体量适配度,并将所述体量适配度与对应算力设备的长期重载运行能力的乘积作为激活函数的输入,得到各计算任务与任意一台算力设备间的算力分配概率;
40、按照各计算任务的算力分配优先度从大到小的顺序,将各计算任务与所有算力设备间的算力分配概率作为概率选择模型的输入,一次输出一个算力设备,若算力设备的可存储容量大于计算任务的所需存储容量,停止为该计算任务分配额外算力设备,反之,为该计算任务分配额外算力设备。
41、优选的,所述各计算任务与任意一台算力设备间的体量适配度的表达式为:式中,ln,i表示第n个计算任务与第i台算力设备的体量适配度;an表示第n个计算任务的所需存储容量;bi表示第i台算力设备的可存储容量;γ表示第二预设数值,其中,第二预设数值为小于1的正数。
42、本技术至少具有如下有益效果:
43、本技术基于任意算力设备的长期重载瘫痪可能性和长期重载可靠性,可得算力设备的长期重载运行能力,其有益效果在于综合考虑算力设备的技术准确率,避免仅仅考虑算力设备的瘫痪可能性作为算力资源分配的依据,容易导致低计算准确率的算力设备长期输出错误的计算结果,产生极大的错误传播风险,提高后续算力资源分配的准确性。
44、本技术基于计算任务和任意算力设备之间的体量适配度和算力设备的长期重载可靠性,可得计算任务和任意算力设备之间的算力分配概率,有益效果在于避免工作量体量较小的计算任务采用较大可存储容量的算力设备,造成算力设备资源浪费,提高大模型训练的整体效率。
45、本技术基于计算任务和任意算力设备之间的算力分配概率,通过概率选择模型进行算力资源分配,其有益效果在于采用概率选择模型避免算力设备被长期使用,降低算力资源分配时算力设备瘫痪的可能性。
1.一种面向大模型并行处理的算力资源分配方法,其特征在于,该方法包括以下步骤:
2.如权利要求1所述的一种面向大模型并行处理的算力资源分配方法,其特征在于,所述每台算力设备中各历史计算任务的执行效率的确定方法为:
3.如权利要求2所述的一种面向大模型并行处理的算力资源分配方法,其特征在于,所述每台算力设备的长期重载运行能力的确定过程为:
4.如权利要求3所述的一种面向大模型并行处理的算力资源分配方法,其特征在于,所述每台算力设备的瘫痪可能性的确定方法为:
5.如权利要求4所述的一种面向大模型并行处理的算力资源分配方法,其特征在于,所述每台算力设备中各长期重载组的效率损耗度的确定方法为:
6.如权利要求3所述的一种面向大模型并行处理的算力资源分配方法,其特征在于,所述每台算力设备的长期重载可靠性的确定方法为:
7.如权利要求1所述的一种面向大模型并行处理的算力资源分配方法,其特征在于,所述各计算任务的算力分配优先度的确定方法为:
8.如权利要求7所述的一种面向大模型并行处理的算力资源分配方法,其特征在于,所述基于各计算任务的等待时长、任务完成度及所需存储容量,确定各计算任务的算力分配优先度,进一步包括:
9.如权利要求1所述的一种面向大模型并行处理的算力资源分配方法,其特征在于,所述对各计算任务分配算力资源,包括:
10.如权利要求9所述的一种面向大模型并行处理的算力资源分配方法,其特征在于,所述各计算任务与任意一台算力设备间的体量适配度的表达式为:式中,ln,i表示第n个计算任务与第i台算力设备的体量适配度;an表示第n个计算任务的所需存储容量;bi表示第i台算力设备的可存储容量;γ表示第二预设数值,其中,第二预设数值为小于1的正数。