模型的在线评测方法、系统、电子设备及介质与流程

    技术2025-01-08  49


    本技术涉及计算机,尤其涉及一种模型的在线评测方法、系统、电子设备及存储介质。


    背景技术:

    1、人工智能模型是指通过算法和数据训练出来的能够模拟人类智能行为的系统。这些模型可以处理和理解大量的数据,从中学习模式并做出预测或者执行任务。人工智能模型在机器翻译、语音识别、图像识别、自然语言处理、推荐系统等领域都有着广泛的应用。

    2、人工智能模型的开发与评测流程通常包括训练,推理与评测这三个步骤。评测结果是否公正,对于人工智能模型的可信度和应用效果至关重要。公正的评测能够帮助开发者了解模型的性能和局限性,从而指导进一步的改进和优化。同时,公正的评测结果也是用户、决策者和监管机构评估和信任人工智能系统的基础。

    3、然而,目前的在线评测方案在开发者每次提交新的模型进行在线评测时,都必需重新打包与上传镜像。由于目前人工智能模型的参数量较大,导致镜像文件也很大,增加了开发者每次上传的耗时,降低了在线评测的效率。此外,在开发期间,开发者往往需要频繁修改代码。即使只有代码被修改,开发者也需要重新打包上传镜像,造成了不必要的时间浪费。


    技术实现思路

    1、本技术实施例提供了一种模型的在线评测方法、系统、电子设备及存储介质,能够避免资源重复上传,提高评测效率。

    2、第一方面,本技术实施例提供了一种模型的在线评测方法,包括:

    3、接收模型评测请求以及模型评测资源,并创建与所述模型评测请求对应的调试任务,其中,所述模型评测资源用于表征完成所述模型评测请求所需的资源;

    4、根据所述模型评测资源确定与所述调试任务对应的目标资源,并根据所述目标资源确定目标镜像、目标代码以及目标模型;

    5、通过所述目标镜像创建与所述调试任务对应的调试容器,并在所述调试容器中挂载所述目标代码和所述目标模型以执行所述调试任务,并对所述目标代码进行检测;

    6、当完成所述调试任务且对所述目标代码的检测通过时,根据所述目标资源创建推理任务,并获取与所述推理任务对应的评测数据集;

    7、通过所述目标镜像创建与所述推理任务对应的推理容器,并在所述推理容器中对所述评测数据集进行预测,生成推理结果;

    8、根据所述目标资源创建评测任务,并根据所述评测任务对所述推理结果进行在线评测,得到评测结果。

    9、在一些实施例中,本技术实施例提供的模型的在线评测方法、装置及存储介质,至少具有如下有益效果:接收模型评测请求和完成模型评测请求所需的模型评测资源,并创建与模型评测请求对应的调试任务,再根据模型评测资源确定调试任务所需的目标资源,并根据目标资源确定目标镜像、目标代码以及目标模型,之后,通过目标镜像创建与调试任务对应的调试容器,并在调试容器中挂载目标代码和目标模型以执行调试任务,从而实现对上传的资源的调试,并对目标代码进行检测,以检测代码是否能够按照要求成功运行,当完成调试任务且对目标代码的检测通过时,说明目标代码检测成功,则可以直接根据目标资源创建推理任务,即使用与调试任务相同的资源创建推理任务,无需重复上传资源,再通过目标镜像创建与推理任务对应的推理容器,并在推理容器中对评测数据集进行预测,从而能够在封闭环境里进行在线推理,生成推理结果,最后,根据目标资源创建评测任务,并根据评测任务对推理结果进行在线评测,实现对推理结果的评测,进一步实现对模型的评测。本技术实施例通过目标镜像创建与调试任务对应的调试容器,后续在调试容器中执行调试任务,并且用户能够随时访问调试容器内部,在完成调试任务且对目标代码的检测通过后,保存后的资源能够在后续的任务中重复使用,所以可以直接通过目标镜像创建与推理任务对应的推理容器,无需用户再次上传资源,避免资源重复上传,提高评测效率。

    10、在一些实施例中,所述评测任务为多个;所述根据所述评测任务对所述推理结果进行在线评测,得到评测结果,包括:

    11、对于每一个所述评测任务,设定所述评测任务的至少一个预设定指标,并确定所述预设定指标的计算程序,其中,所述预设定指标为用于衡量模型的性能的指标;

    12、获取所述评测数据集在所述预设定指标下的目标输出结果;

    13、通过所述计算程序对比所述推理结果以及所述目标输出结果,以计算所述推理结果在所述预设定指标下的指标分数,得到评测结果。

    14、在一些实施例中,在根据所述评测任务对所述推理结果进行在线评测,得到评测结果之后,所述方法还包括:

    15、确定所述评测数据集的数据类别;

    16、根据所述数据类别以及所述预设定指标创建评测榜单;

    17、将所述评测结果添加至所述评测榜单,并根据所述评测结果的指标分数对所述评测结果对应的模型进行排名。

    18、在一些实施例中,所述在所述调试容器中挂载所述目标代码和所述目标模型以执行所述调试任务,包括:

    19、获取所述调试任务的调试评测集,其中,所述调试评测集与所述评测数据集不同;

    20、在所述调试容器中挂载所述目标代码和所述目标模型,并通过所述目标代码和所述目标模型对所述评测数据集进行测试以执行所述调试任务。

    21、在一些实施例中,所述在所述推理容器中对所述评测数据集进行预测,生成推理结果,包括:

    22、在所述推理容器中挂载所述目标代码和所述目标模型,并读取所述评测数据集的输入数据;

    23、调用所述目标代码,以通过所述目标模型对所述输入数据进行预测,生成推理结果。

    24、在一些实施例中,在通过所述目标镜像创建与所述调试任务对应的调试容器之后,所述方法还包括:

    25、响应于修改指令,确定与所述修改指令对应的修改信息;

    26、根据所述修改信息更新所述目标代码;

    27、保存更新后的目标代码。

    28、在一些实施例中,在执行所述调试任务的过程中,记录所述调试任务的日志信息和输出信息;

    29、当未完成所述调试任务、对所述目标代码的检测未通过或者未完成所述推理任务,根据所述日志信息和输出信息对所述目标资源进行错误定位。

    30、在一些实施例中,所述根据所述数据类别以及所述预设定指标创建评测榜单,包括:

    31、创建与所述数据类别对应的子榜单,并根据所述预设定指标确定所述子榜单的排序项;

    32、对所述子榜单进行可视化,生成评测榜单。

    33、第二方面,本技术实施例提供了一种模型的在线评测系统,包括:

    34、资源管理模块,用于接收模型评测请求以及模型评测资源,并创建与所述模型评测请求对应的调试任务,其中,所述模型评测资源用于表征完成所述模型评测请求所需的资源;

    35、调试模块,用于根据所述模型评测资源确定与所述调试任务对应的目标资源,并根据所述目标资源确定目标镜像、目标代码以及目标模型;以及通过所述目标镜像创建与所述调试任务对应的调试容器,并在所述调试容器中挂载所述目标代码和所述目标模型以执行所述调试任务,并对所述目标代码进行检测;

    36、推理模块,用于当完成所述调试任务且对所述目标代码的检测通过时,根据所述目标资源创建推理任务,并获取与所述推理任务对应的评测数据集;以及通过所述目标镜像创建与所述推理任务对应的推理容器,并在所述推理容器中对所述评测数据集进行预测,生成推理结果;

    37、评测模块,用于根据所述目标资源创建评测任务,并根据所述评测任务对所述推理结果进行在线评测,得到评测结果。

    38、第三方面,本技术实施例提供了一种电子设备,包括至少一个处理器和用于与所述至少一个处理器通信连接的存储器;所述存储器存储有能够被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的模型的在线评测方法。

    39、第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的模型的在线评测方法。


    技术特征:

    1.一种模型的在线评测方法,其特征在于,包括:

    2.根据权利要求1所述的在线评测方法,其特征在于,所述评测任务为多个;所述根据所述评测任务对所述推理结果进行在线评测,得到评测结果,包括:

    3.根据权利要求2所述的在线评测方法,其特征在于,在根据所述评测任务对所述推理结果进行在线评测,得到评测结果之后,所述方法还包括:

    4.根据权利要求1所述的在线评测方法,其特征在于,所述在所述调试容器中挂载所述目标代码和所述目标模型以执行所述调试任务,包括:

    5.根据权利要求1所述的在线评测方法,其特征在于,所述在所述推理容器中对所述评测数据集进行预测,生成推理结果,包括:

    6.根据权利要求1所述的在线评测方法,其特征在于,在通过所述目标镜像创建与所述调试任务对应的调试容器之后,所述方法还包括:

    7.根据权利要求1所述的在线评测方法,其特征在于,所述方法还包括:

    8.根据权利要求3所述的在线评测方法,其特征在于,所述根据所述数据类别以及所述预设定指标创建评测榜单,包括:

    9.一种模型的在线评测系统,其特征在于,包括:

    10.一种电子设备,其特征在于,包括至少一个处理器和用于与所述至少一个处理器通信连接的存储器;所述存储器存储有能够被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至9中任意一项所述的模型的在线评测方法。

    11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至9中任意一项所述的模型的在线评测方法。


    技术总结
    本申请公开了模型的在线评测方法、系统、电子设备及介质,方法包括:接收模型评测请求以及模型评测资源,并创建调试任务;根据模型评测资源确定与调试任务对应的目标资源,并根据目标资源确定目标镜像、目标代码以及目标模型;通过目标镜像创建与调试任务对应的调试容器,并在调试容器中挂载目标代码和目标模型,对目标代码进行检测;当完成调试任务且对目标代码的检测通过时,根据目标资源创建推理任务;通过目标镜像创建与推理任务对应的推理容器,并在推理容器中对获取到的评测数据集进行预测,生成推理结果;对推理结果进行在线评测,得到评测结果。在本发明实施例中,无需用户再次上传资源,避免资源重复上传,提高评测效率。

    技术研发人员:邓健豪,相洋,侯永帅,娄联章,潘囿丞,尹曦
    受保护的技术使用者:鹏城实验室
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-24802.html

    最新回复(0)