本技术涉及人工智能领域或其他相关领域,具体而言,涉及一种模型的筛选方法、装置、计算机存储介质以及电子设备。
背景技术:
1、在人工智能领域,尤其是在自然语言处理中,评估大型语言模型(large languagemodels,llms)的性能是一个复杂而多维度的问题,它涉及评价方法本身以及评价数据集等。传统的性能评估方法主要依赖于预测精度、召回率和f1分数等指标来衡量模型的预测能力,其中,准确性和召回率是衡量模型在预测任务中表现的重要指标,高准确性意味着模型在大多数情况下能够做出正确的预测,而高召回率则表明模型能够识别出尽可能多的相关实例。这些指标在评估模型的分类或匹配任务中相对有效,但它们在面对大型语言模型时存在一些限制和缺陷。
2、传统评估方法主要关注词形匹配(形似性),而不是词义匹配(神似性),也即以预测结果中有多少个字是和标准答案相同,从而通过数值计算方法获得分数,但大模型给出的答案,往往会出现意思相近,但表达方式不同的情况,而在这种情况下,用户可以理解这个答案是对的,也即出现表达方式不同但语义相近的答案被错误地评为低分;反之,有时候大模型输出的答案乱七八糟,可能完全无法表达含义,但是恰好有多个字与标准答案能够对应,这时评估系统也会给出一个比较高的分数。此外,传统评估方法往往忽视了模型输出的上下文和语境,导致结果较为僵化和死板,无法适应语言的多样性和复杂性,无法灵活的进行模型评估,而目前最灵活的方式就是依赖人类专家进行评估,但这种方法耗时、成本高,且难以实现自动化和规模化。
3、针对相关技术中无法灵活评估业务咨询模型的性能,进而在筛选业务咨询模型时存在筛选准确率较低的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本技术的主要目的在于提供一种模型的筛选方法、装置、计算机存储介质以及电子设备,以解决相关技术中无法灵活评估业务咨询模型的性能,进而在筛选业务咨询模型时存在筛选准确率较低的问题。
2、为了实现上述目的,根据本技术的一个方面,提供了一种模型的筛选方法。该方法包括:获取目标领域的n个业务咨询模型,并获取评估测试集,其中,评估测试集包括m个测试题目,m个测试题目用于对每个业务咨询模型进行校验,m、n为正整数;将m个测试题目输入n个业务咨询模型,输出n组初始答案,其中,每组初始答案包括m个初始答案;获取性能测试模型,利用性能测试模型对n组初始答案进行测试,输出n个测试评分,根据n个测试评分对n个业务咨询模型进行筛选,得到目标领域的业务咨询模型。
3、进一步地,评估测试集还包括m个测试题目关联的m个测试答案,利用性能测试模型对n组初始答案进行测试,输出n个测试评分包括:从评估测试集中抽取出m个测试答案;对于一个业务咨询模型,将业务咨询模型关联的一组初始答案以及m个测试答案输入性能测试模型,输出m个初始测试评分;对于一个业务咨询模型,将m个初始测试评分进行加权求和计算,得到业务咨询模型关联的测试评分。
4、进一步地,性能测试模型通过以下方式训练得到:获取k个历史测试题目以及k个历史测试题目关联的k个历史测试答案,根据k个历史测试答案生成目标提示词清单,其中,目标提示词清单包括y个提示词,每个提示词关联多个维度信息,每个维度信息对应一个测试评分标准,y、k为正整数;获取预设性能测试模型,将k个历史测试题目输入预设性能测试模型,输出k个第一预设测试答案,并利用目标提示词清单中的y个提示词对k个第一预设测试答案进行对比,得到k个对比结果;根据y个提示词关联的多个维度信息以及测试评分标准对k个对比结果进行评分,得到k个第一校验评分,根据k个第一校验评分确定第一总校验评分;利用第一总校验评分对预设性能测试模型的模型参数进行调整,得到调整后的测试模型,并将调整后的测试模型确定为性能测试模型。
5、进一步地,性能测试模型通过以下方式训练得到:获取z个示例集,其中,每个示例集包括示例测试题目、示例测试答案以及测试评分标准,z为正整数;将z个示例集中的示例测试题目输入预设性能测试模型,输出z个第二预设测试答案;利用每个示例集的测试评分标准对每个第二预设测试答案进行评分,得到z个第二校验评分,根据z个第二校验评分确定第二总校验评分;根据第二总校验评分对预设性能测试模型的模型参数进行调整,得到调整后的测试模型,并将调整后的测试模型确定为性能测试模型。
6、进一步地,根据n个测试评分对n个业务咨询模型进行筛选,得到目标领域的业务咨询模型包括:将n个测试评分进行降序排序,得到测试序列;从测试序列的预设位置获取目标测试评分,将目标测试评分关联的业务咨询模型确定为目标领域的业务咨询模型。
7、进一步地,获取评估测试集包括:接收性能测试请求,根据性能测试请求确定性能要求;获取预设知识库,并根据性能要求从预设知识库中筛选出m个测试题目,其中,预设知识库包括多个用于测试模型的测试题目;由m个测试题目生成评估测试集。
8、进一步地,由m个测试题目生成评估测试集包括:将m个测试题目输入性能测试模型,输出m个候选测试答案,并将m个候选测试答案发送至审核机构;在接收到审核机构返回的m个审核测试答案的情况下,将m个审核测试答案确定为m个测试答案,并由m个测试答案和m个测试题目构成评估测试集,其中,m个审核测试答案是指审核机构对m个候选测试答案进行修改后得到的答案。
9、为了实现上述目的,根据本技术的另一方面,提供了一种模型的筛选装置。该装置包括:第一获取单元,用于获取目标领域的n个业务咨询模型,并获取评估测试集,其中,评估测试集包括m个测试题目,m个测试题目用于对每个业务咨询模型进行校验,m、n为正整数;输入单元,用于将m个测试题目输入n个业务咨询模型,输出n组初始答案,其中,每组初始答案包括m个初始答案;第二获取单元,用于获取性能测试模型,利用性能测试模型对n组初始答案进行测试,输出n个测试评分,根据n个测试评分对n个业务咨询模型进行筛选,得到目标领域的业务咨询模型。
10、根据本发明实施例的另一方面,还提供了一种计算机存储介质,计算机存储介质用于存储程序,其中,程序运行时控制计算机存储介质所在的设备执行一种模型的筛选方法。
11、根据本发明实施例的另一方面,还提供了一种电子设备,包含一个或多个处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种模型的筛选方法。
12、根据本发明实施例的另一方面,还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时执行一种模型的筛选方法。
13、通过本技术,采用以下步骤:获取目标领域的n个业务咨询模型,并获取评估测试集,其中,评估测试集包括m个测试题目,m个测试题目用于对每个业务咨询模型进行校验,m、n为正整数;将m个测试题目输入n个业务咨询模型,输出n组初始答案,其中,每组初始答案包括m个初始答案;获取性能测试模型,利用性能测试模型对n组初始答案进行测试,输出n个测试评分,根据n个测试评分对n个业务咨询模型进行筛选,得到目标领域的业务咨询模型,解决了相关技术中无法灵活评估业务咨询模型的性能,进而在筛选业务咨询模型时存在筛选准确率较低的问题,通过获取目标领域的多个业务咨询模型,并基于目标领域获取评估测试集,将评估测试集中的测试题目输入上述业务咨询模型,输出对应的初始答案,然后利用性能测试模型对初始答案进行测试输出对应的测试评分,最后根据测试评分从业务咨询模型中选择出目标领域的业务咨询模型,进而达到了灵活评估目标领域的业务咨询模型的性能,同时准确筛选业务咨询模型的效果。
1.一种模型的筛选方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述评估测试集还包括m个测试题目关联的m个测试答案,利用所述性能测试模型对所述n组初始答案进行测试,输出n个测试评分包括:
3.根据权利要求1所述的方法,其特征在于,所述性能测试模型通过以下方式训练得到:
4.根据权利要求1所述的方法,其特征在于,所述性能测试模型通过以下方式训练得到:
5.根据权利要求1所述的方法,其特征在于,根据所述n个测试评分对所述n个业务咨询模型进行筛选,得到所述目标领域的业务咨询模型包括:
6.根据权利要求1所述的方法,其特征在于,获取评估测试集包括:
7.根据权利要求6所述的方法,其特征在于,由所述m个测试题目生成所述评估测试集包括:
8.一种模型的筛选装置,其特征在于,包括:
9.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的模型的筛选方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的模型的筛选方法。