本发明涉及人工智能,具体涉及一种资源编排调度方法、装置、节点和存储介质。
背景技术:
1、在k8s中,让节点具备图形处理器(gpu,graphics processing unit)能力,需要节点已安装好gpu硬件驱动、容器(docker)运行时runc支持驱动调度以及需要部署k8s设备插件(device plugin)使k8s中可以看到节点gpu卡数。
2、k8s调度器作为全局的调度器对device plugin的管理调度是非常有限的,它只能处理gpu数量。面对复杂的调度场景时,device plugin因自身功能限制会处理不了,k8s调度器也无法根据集群整体的gpu设备性能进行全局编排调度。
技术实现思路
1、为解决现有存在的技术问题,本发明实施例提供一种资源编排调度方法、装置、节点和存储介质。
2、为达到上述目的,本发明实施例的技术方案是这样实现的:
3、本发明实施例提供了一种资源编排调度方法,所述方法包括:
4、主节点利用第一模型算法预估多个工作节点运行待分配的第一业务实例的计算时间;
5、所述主节点基于所述计算时间得到对应于每个工作节点的评价结果,基于所述评价结果和第二模型算法获得对应于每个工作节点对应的得分,按照每个工作节点对应的得分获得第一排序队列;
6、所述主节点至少基于所述第一排序队列,获得推荐调度队列,按照所述推荐调度队列为所述第一业务实例分配至少一个第一工作节点。
7、上述方案中,所述主节点利用第一模型算法预估多个工作节点运行待分配的第一业务实例的计算时间,包括:
8、所述主节点确定所述第一业务实例对应的第一算法分类,基于所述第一算法分类确定第一工作节点集合;所述第一工作节点集合中包括所述多个工作节点;
9、所述主节点基于每个工作节点的历史性能数据和所述第一模型算法预估每个工作节点运行所述第一业务实例的计算时间;其中,所述工作节点的历史性能数据由所述工作节点在先运行属于所述第一算法分类的第二业务实例过程中监测并发送至所述主节点。
10、上述方案中,所述评价结果包括好评或差评。
11、上述方案中,所述主节点基于所述计算时间得到对应于每个工作节点的评价结果,包括:
12、在所述计算时间大于第一阈值时,确定对应于工作节点的评价结果为差评;
13、在所述计算时间小于或等于第一阈值时,确定对应于工作节点的评价结果为好评。
14、上述方案中,所述基于所述评价结果和第二模型算法获得对应于每个工作节点对应的得分,包括:
15、所述第一节点基于每个工作节点对应的评价结果,获得每个工作节点对应的好评率,基于所述好评率和所述第二模型算法获得每个工作节点对应的得分。
16、上述方案中,所述主节点至少基于所述第一排序队列,获得推荐调度队列,包括:所述主节点基于所述第一排序队列和第二排序队列,获得推荐调度队列;其中,所述第二排序队列由所述主节点根据预设策略从多个工作节点中筛选及打分排序获得。
17、上述方案中,所述方法还包括:
18、所述主节点获得每个第一工作节点发送的性能数据,所述性能数据由第一工作节点运行所述第一业务实例的过程中监测获得;
19、所述主节点基于每个第一工作节点发送的性能数据和所述第一模型算法模型确定每个第一工作节点运行所述第一业务实例的实际计算时间;
20、所述主节点基于所述实际计算时间得到对应于每个第一工作节点的好评或差评的评价结果,基于所述评价结果和所述第二模型算法获得对应于每个第一工作节点对应的得分,按照每个第一工作节点对应的得分获得第三排序队列,基于所述第三排序队列更新所述第一排序队列。
21、上述方案中,所述主节点利用第一模型算法预估多个工作节点运行待分配的第一业务实例的计算时间之前,所述方法还包括:
22、所述主节点接收工作节点发送的第一信息,所述第一信息用于表示所述工作节点上新注册的设备插件的相关信息;所述第一信息中至少包括用于对设备插件进行识别的资源名称;
23、所述主节点将所述第一信息中的所述资源名称重写为第一标识,以及在配置文件新增或更新对应于所述工作节点的配置信息;其中,不同设备插件对应相同的所述第一标识。
24、上述方案中,所述方法还包括:所述主节点基于所述第一标识生成新的插件镜像,以及更新所述配置信息中、对应于所述设备插件的设备插件镜像路径。
25、上述方案中,所述方法还包括:所述主节点确定所述配置文件中新增或更新配置信息时,根据新增或更新的配置信息生成设备插件部署所需的部署配置文件,向工作节点发送所述部署配置文件,以触发部署配置生效。
26、上述方案中,所述方法还包括:所述主节点基于所述配置文件,监控集群中的工作节点的资源状态信息。
27、本发明实施例还提供了一种资源编排调度装置,所述装置应用于主节点;所述装置包括:计算单元、排序单元和分配单元;其中,
28、所述计算单元,用于利用第一模型算法预估多个工作节点运行待分配的第一业务实例的计算时间;
29、所述排序单元,用于基于所述计算时间得到对应于每个工作节点的评价结果,基于所述评价结果和第二模型算法获得对应于每个工作节点对应的得分,按照每个工作节点对应的得分获得第一排序队列;还用于至少基于所述第一排序队列,获得推荐调度队列;
30、所述分配单元,用于按照所述推荐调度队列为所述第一业务实例分配至少一个第一工作节点。
31、本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述资源编排调度方法的步骤。
32、本发明实施例还提供了一种节点,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明实施例所述资源编排调度方法的步骤。
33、本发明实施例还提供了一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如本发明实施例所述资源编排调度方法的步骤。
34、本发明实施例提供的资源编排调度方法、装置、节点和存储介质,所述方法包括:主节点利用第一模型算法预估多个工作节点运行待分配的第一业务实例的计算时间;基于所述计算时间得到对应于每个工作节点的评价结果,基于所述评价结果和第二模型算法获得对应于每个工作节点对应的得分,按照每个工作节点对应的得分获得第一排序队列;至少基于所述第一排序队列,获得推荐调度队列,按照所述推荐调度队列为所述第一业务实例分配至少一个第一工作节点。采用本发明实施例的技术方案,通过第一模型算法预估各工作节点运行待分配的第一业务实例的计算时间,即预估运行第一业务实例的运行情况,根据计算时间给出好评或差评的评价结果,在根据评价结果利用第二模型算法对各工作节点进行打分,从而得到第一排序队列,并根据第一排序队列对第一业务实例的分配进行指导,从而实现工作节点的全局编排调度。
1.一种资源编排调度方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述主节点利用第一模型算法预估多个工作节点运行待分配的第一业务实例的计算时间,包括:
3.根据权利要求1所述的方法,其特征在于,所述评价结果包括好评或差评。
4.根据权利要求3所述的方法,其特征在于,所述主节点基于所述计算时间得到对应于每个工作节点的评价结果,包括:
5.根据权利要求3所述的方法,其特征在于,所述基于所述评价结果和第二模型算法获得对应于每个工作节点对应的得分,包括:
6.根据权利要求1所述的方法,其特征在于,所述主节点至少基于所述第一排序队列,获得推荐调度队列,包括:
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
8.根据权利要求1所述的方法,其特征在于,所述主节点利用第一模型算法预估多个工作节点运行待分配的第一业务实例的计算时间之前,所述方法还包括:
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
10.根据权利要求8或9所述的方法,其特征在于,所述方法还包括:
11.根据权利要求8或9所述的方法,其特征在于,所述方法还包括:
12.一种资源编排调度装置,其特征在于,所述装置应用于主节点;所述装置包括:计算单元、排序单元和分配单元;其中,
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至11任一项所述方法的步骤。
14.一种节点,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至11任一项所述方法的步骤。
15.一种计算机程序产品,其特征在于,包括计算机程序指令,该计算机程序指令使得计算机执行如权利要求1至11任一项所述方法的步骤。