本申请涉及gpu资源管理,尤其涉及一种gpu资源管理方法、装置、设备、存储介质及产品。
背景技术:
1、近年来,人工智能快速发展,如何用最低的算力实现高性能机器学习、深度学习是该领域关注的难题。gpu(graphics processing unit,图形处理器)硬件是最大化算力利用的关键,但其资源昂贵且难充分利用。如何高效利用gpu资源,满足不同算法需求的任务执行,以提高资源利用率是当前待解决的问题。
技术实现思路
1、本申请提供一种gpu资源管理方法、装置、设备、存储介质及产品,能够高效利用gpu资源,满足不同算法需求的任务执行。
2、为实现上述目的,本申请实施例提供了一种gpu资源管理方法,包括:
3、对集群内的node节点进行分类;
4、对待执行算法进行测试,得到算法耗时;
5、根据所述算法耗时将所述待执行算法部署在相应的node节点;
6、当所述待执行算法在相应的node节点上执行时,根据所述待执行算法的gpu资源使用情况,对相应的node节点进行扩缩容操作。
7、作为上述方案的改进,所述对集群内的node节点进行分类,包括:
8、获取集群快照,将集群的资源存储到数据库中;
9、根据节点类型,对所述集群内的node节点进行分类并打上标签;其中,所述节点类型包括:测试节点、未使用节点、长时任务节点和短时任务节点。
10、作为上述方案的改进,所述对待执行算法进行测试,得到算法耗时,包括:
11、接收用户输入的待执行算法信息;
12、启动测试服务,将待执行算法部署在所述测试节点,根据所述待执行算法信息进行测试,得到算法耗时。
13、作为上述方案的改进,所述根据所述算法耗时将所述待执行算法部署在相应的node节点,包括:
14、当所述算法耗时大于预设时长时,将所述待执行算法部署在长时任务节点;
15、当所述算法耗时小于或等于所述预设时长时,将所述待执行算法部署在短时任务节点。
16、作为上述方案的改进,所述当所述待执行算法在相应的node节点上执行时,根据所述待执行算法的gpu资源使用情况,对相应的node节点进行扩缩容操作,包括:
17、当所述待执行算法在相应的node节点上执行时,获取所述待执行算法相应的node节点上的每一pod节点的第一gpu资源使用率;
18、根据每一所述第一gpu资源使用率,获取所述待执行算法的第二gpu资源使用率;
19、将所述第二gpu资源使用率分别和预设最小使用率、预设最大使用率进行比较,得到比较结果;
20、根据所述比较结果,对所述待执行算法相应的node节点进行扩缩容操作。
21、作为上述方案的改进,所述根据所述比较结果,对所述待执行算法相应的node节点进行扩缩容操作,包括:
22、当所述第二gpu资源使用率小于所述预设最小使用率时,若所述pod节点的总数量大于预设数量,则缩减所述pod节点;
23、当所述第二gpu资源使用率大于所述预设最大使用率时,判断是否存在与所述待执行算法相应的node节点的类型相同的其余空闲node节点;
24、若存在,则扩增所述pod节点,若不存在,则将至少一个未使用节点的类型设置为所述待执行算法相应的node节点的类型。
25、为实现上述目的,本申请实施例还提供了一种gpu资源管理装置,包括:
26、节点分类模块,用于对集群内的node节点进行分类;
27、测试模块,用于对待执行算法进行测试,得到算法耗时;
28、部署模块,用于根据所述算法耗时将所述待执行算法部署在相应的node节点;
29、扩缩容模块,用于当所述待执行算法在相应的node节点上执行时,根据所述待执行算法的gpu资源使用情况,对相应的node节点进行扩缩容操作。
30、为实现上述目的,本申请实施例还提供了一种gpu资源管理设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上述的gpu资源管理方法。
31、为实现上述目的,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上述的gpu资源管理方法。
32、为实现上述目的,本申请实施例还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上述的gpu资源管理方法。
33、与现有技术相比,本申请实施例提供的一种gpu资源管理方法、装置、设备、存储介质及产品,通过集群内的node节点进行分类;对待执行算法进行测试,得到算法耗时;根据所述算法耗时将所述待执行算法部署在相应的node节点;当所述待执行算法在相应的node节点上执行时,根据所述待执行算法的gpu资源使用情况,对相应的node节点进行扩缩容操作,避免了资源浪费,能够高效利用gpu资源,满足不同算法需求的任务执行,提高资源利用率和系统性能。
1.一种gpu资源管理方法,其特征在于,包括:
2.如权利要求1所述的gpu资源管理方法,其特征在于,所述对集群内的node节点进行分类,包括:
3.如权利要求2所述的gpu资源管理方法,其特征在于,所述对待执行算法进行测试,得到算法耗时,包括:
4.如权利要求2所述的gpu资源管理方法,其特征在于,所述根据所述算法耗时将所述待执行算法部署在相应的node节点,包括:
5.如权利要求1所述的gpu资源管理方法,其特征在于,所述当所述待执行算法在相应的node节点上执行时,根据所述待执行算法的gpu资源使用情况,对相应的node节点进行扩缩容操作,包括:
6.如权利要求5所述的gpu资源管理方法,其特征在于,所述根据所述比较结果,对所述待执行算法相应的node节点进行扩缩容操作,包括:
7.一种gpu资源管理装置,其特征在于,包括:
8.一种gpu资源管理设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1~6任一项所述的gpu资源管理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1~6任一项所述的gpu资源管理方法。
10.一种计算机程序产品,其特征在于,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如权利要求1~6任一项所述的gpu资源管理方法。