本技术涉及计算机,特别是涉及一种训练数据处理方法、装置、计算机设备和模型训练集群。
背景技术:
1、随着深度学习技术在自动驾驶等领域的广泛应用,企业往往会建立一个或多个大型服务器集群以满足不同深度学习模型的训练需求。一般情况下,为了便于管理,训练数据存储于某一数据存储区域,在不同服务器集群中的不同训练平台都需要从该数据存储区域中读取训练数据。因网络带宽限制等因素,统一管理的数据存储区域无法满足众多训练平台的训练数据请求需求,导致在数据访问量到达峰值时出现训练时间大幅度增长的现象,严重影响深度学习模型的开发进度,进而影响自动驾驶等产品的更新迭代。
2、传统方式中通过增加数据存储区域数据传输的带宽来提升训练速度,但是这种方式的部署成本高,且随着训练平台的扩增,可能需要多次调整,灵活性较差。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种训练数据处理方法、装置、计算机设备和模型训练集群,能够减少向数据存储区发送的请求,从而降低数据存储区发生网络拥堵的概率、保证各训练平台的训练效率。
2、第一方面,本技术提供了一种训练数据处理方法,所述方法应用于当前训练平台,所述当前训练平台和处于同一局域网的至少一个其他训练平台构成当前模型训练集群,所述当前模型训练集群和多个其他模型训练集群均与同一数据存储区通信连接,所述方法包括:
3、根据训练数据在当前模型训练集群中的位置、数据存储区的数据获取速度、训练数据在局域网中的传输速度确定数据发送主体;数据发送主体为当前训练平台的本地硬盘、其他训练平台以及数据存储区中的任意一个;
4、从数据发送主体请求训练数据;
5、在基于训练数据执行模型训练任务后,根据本地存储资源与数据获取速度确定目标处理策略;目标处理策略为存储策略或丢弃策略;
6、根据目标处理策略对训练数据进行处理。
7、在其中一个实施例中,根据训练数据在当前模型训练集群中的位置、数据存储区的数据获取速度、训练数据在局域网中的传输速度确定数据发送主体,包括:
8、若训练数据在当前模型训练集群中的位置为当前训练平台的本地硬盘,则将本地硬盘作为数据发送主体;
9、若当前模型训练集群中不存在训练数据,则将数据存储区作为数据发送主体;
10、若训练数据在局域网中的位置为目标训练平台,则根据数据存储区的数据获取速度和训练数据在局域网中的传输速度,从数据存储区和目标训练平台中选择数据发送主体;目标训练平台为当前模型训练集群中除当前训练平台之外的至少一个训练平台。
11、在其中一个实施例中,根据数据存储区的数据获取速度和训练数据在局域网中的传输速度,从数据存储区和目标训练平台中选择数据发送主体,包括:
12、若数据存储区的数据获取速度大于或等于训练数据在局域网中的传输速度,则选择数据存储区作为数据发送主体;
13、若数据存储区的数据获取速度小于训练数据在局域网中的传输速度,则选择目标训练平台作为数据发送主体。
14、在其中一个实施例中,根据本地存储资源与数据获取速度确定目标处理策略,包括:
15、根据本地存储资源,预估将训练数据存储至当前训练平台的本地硬盘后本地硬盘的已用存储量;
16、若已用存储量大于等于第一限制值、且小于第二限制值,则根据设定速度比例和数据存储区的最大传输速度确定参考速度;
17、若触发数据获取速度小于参考速度的条件,则确定目标处理策略为将训练数据存储至本地硬盘中;
18、若触发数据获取速度大于或等于参考速度的条件,则确定目标处理策略为丢弃训练数据。
19、在其中一个实施例中,根据设定速度比例和数据存储区的最大传输速度计算参考速度之后,所述方法还包括:
20、若触发数据获取速度小于参考速度的条件、且设定速度比例为第一速度比例,则确定目标处理策略为将训练数据存储至本地硬盘中,并将设定速度比例调整为第二速度比例;第一速度比例小于第二速度比例;
21、若触发数据获取速度大于或等于参考速度的条件、且设定速度比例为第二速度比例,则确定目标处理策略为丢弃训练数据,并将设定速度比例调整为第一速度比例。
22、在其中一个实施例中,所述方法还包括:
23、在设定速度比例为第二速度比例的情况下,若已用存储量持续大于等于第一限制值、小于第二限制值,且数据获取速度持续大于等于参考速度,则根据第一限制值和第二限制值确定第一数据量;
24、确定目标处理策略为从本地硬盘中丢弃与第一数据量相匹配的数据。
25、在其中一个实施例中,所述方法还包括:
26、若已用存储量小于第一限制值,则确定目标处理策略为将训练数据存储至本地硬盘中;
27、若已用存储量大于第二限制值,则根据第二限制值确定第二数据量,确定目标处理策略为从本地硬盘中丢弃与第二数据量相匹配的数据、将训练数据存储至本地硬盘中。
28、第二方面,本技术还提供了一种训练数据处理装置,所述装置应用于当前训练平台,所述当前训练平台和处于同一局域网的至少一个其他训练平台构成当前模型训练集群,所述当前模型训练集群和多个其他模型训练集群均与同一数据存储区通信连接,所述装置包括:
29、确定模块,用于根据训练数据在当前模型训练集群中的位置、数据存储区的数据获取速度、训练数据在局域网中的传输速度确定数据发送主体;数据发送主体为当前训练平台的本地硬盘、其他训练平台以及数据存储区中的任意一个;
30、请求模块,用于从数据发送主体请求训练数据;
31、策略确定模块,用于在基于训练数据执行模型训练任务后,根据本地存储资源与数据获取速度确定目标处理策略;目标处理策略为存储策略或丢弃策略;
32、处理模块,用于根据目标处理策略对训练数据进行处理。
33、第三方面,本技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
34、根据训练数据在当前模型训练集群中的位置、数据存储区的数据获取速度、训练数据在局域网中的传输速度确定数据发送主体;数据发送主体为当前训练平台的本地硬盘、其他训练平台以及数据存储区中的任意一个;
35、从数据发送主体请求训练数据;
36、在基于训练数据执行模型训练任务后,根据本地存储资源与数据获取速度确定目标处理策略;目标处理策略为存储策略或丢弃策略;
37、根据目标处理策略对训练数据进行处理。
38、第四方面,本技术还提供了一种模型训练集群,所述模型训练集群由处于同一局域网的多个训练平台构成,多个所述模型训练集群均与同一数据存储区通信连接,每个训练平台用于执行模型训练任务,并根据如上所述的方法的步骤对所述模型训练任务对应的训练数据进行处理。
39、上述训练数据处理方法、装置、计算机设备和模型训练集群,根据训练数据在当前模型训练集群中的位置、数据存储区的数据获取速度、训练数据在局域网中的传输速度确定数据发送主体;数据发送主体为当前训练平台的本地硬盘、其他训练平台以及数据存储区中的任意一个;从数据发送主体请求训练数据;在基于训练数据执行模型训练任务后,根据本地存储资源与数据获取速度确定目标处理策略;目标处理策略为存储策略或丢弃策略;根据目标处理策略对训练数据进行处理。通过上述方式,能够从当前局域网的其他训练平台中请求训练数据,实现在同一局域网的训练平台中共享训练数据,减少向数据存储区发送的请求;并且通过对训练数据存储,能够在本地缓存训练数据,以便当前训练平台或当前局域网的其他训练平台获取该训练数据,进一步减少向数据存储区发送的请求。通过减缓数据存储区的带宽利用情况、增加本地数据的命中率,降低数据存储区发生网络拥堵的概率、保证各训练平台的训练效率。根据本地存储资源与数据获取速度动态确定存储策略或丢弃策略,提升了训练数据处理的灵活性。
1.一种训练数据处理方法,其特征在于,所述方法应用于当前训练平台,所述当前训练平台和处于同一局域网的至少一个其他训练平台构成当前模型训练集群,所述当前模型训练集群和多个其他模型训练集群均与同一数据存储区通信连接,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据训练数据在当前模型训练集群中的位置、数据存储区的数据获取速度、训练数据在局域网中的传输速度确定数据发送主体,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据数据存储区的数据获取速度和训练数据在局域网中的传输速度,从所述数据存储区和所述目标训练平台中选择数据发送主体,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据本地存储资源与所述数据获取速度确定目标处理策略,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据设定速度比例和数据存储区的最大传输速度计算参考速度之后,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
8.一种训练数据处理装置,其特征在于,所述装置应用于当前训练平台,所述当前训练平台和处于同一局域网的至少一个其他训练平台构成当前模型训练集群,所述当前模型训练集群和多个其他模型训练集群均与同一数据存储区通信连接,所述装置包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种模型训练集群,其特征在于,所述模型训练集群由处于同一局域网的多个训练平台构成,多个所述模型训练集群均与同一数据存储区通信连接,每个训练平台用于执行模型训练任务,并根据如权利要求1至7中任一项所述的方法的步骤对所述模型训练任务对应的训练数据进行处理。