一种针对大语言模型的数学推理训练集的生成方法

    技术2025-08-01  14


    :本发明涉及数据处理,特别涉及一种针对大语言模型的数学推理训练集的生成方法。

    背景技术

    0、
    背景技术:

    1、随着大语言模型时代的到来,其对许多任务展现了前所未有的潜力,尤其是生成类任务,其中之一便是数学推理。数学推理涉及利用数学概念、事实、运算等方法来解释和解决问题,是一项非常复杂的生成任务。一些闭源大语言模型(例如gpt4、palm-2)表现出了良好的性能,但是闭源大语言模型及其使用的训练数据集尚未公开。而一些开源大语言模型llama2,codellama的性能远远低于闭源模型,因此亟需设计一种训练集对开源大语言模型进行指令微调,以此缩小两者之间数学推理能力的差距。


    技术实现思路

    0、
    技术实现要素:

    1、本发明设计了一种针对大语言模型的数学推理训练集的生成方法,以达到缩小开源大语言模型和闭源大语言模型之间的数学推理性能差距的目的。

    2、一种针对大语言模型的数学推理训练集的生成方法,其特征在于,包括:

    3、获取数学领域开源数据集;

    4、为所述开源数据集中的数学问题设计文字提示;

    5、为所述开源数据集中的每个数学问题生成期望输出程序:将所述开源数据集中的每个数学问题分别和所述文字提示输入至闭源大语言模型中得到每个数学问题对应的期望输出程序;

    6、利用外部解释器运行所述期望输出程序且与正确答案比较,若运行结果正确,则将当前数学问题和其对应的期望输出程序加入至训练集中;若运行结果错误,则舍弃当前数学问题。构造的训练集可用于指令微调开源大语言模型,以此缩小开源大语言模型和闭源大语言模型之间数学推理能力的差距,所述指令微调为在数学问题后面加上某种指令对开源大语言模型进行额外训练;一般的,对生成的训练集中的每个数学问题加上指令“let's write apythonprogram.”与对应的期望输出程序组成一条数据,需要说明的是,指令不唯一;所述开源大语言模型为llama2,codellama中的一种。

    7、优选的,为所述开源数据集中的数学问题设计文字提示(prompt)包括让闭源大语言模型采用变量mask开源数据集中数学问题中数字常量的指令及让闭源大语言模型返回带有文档字符串(docstring)和详细注释的python程序,其中,所述python程序具体用于解决mask掉数字常量后的数学问题;闭源大语言模型会采用贴合问题场景的变量mask数学问题中的数字常量,一般的,有原始问题“weng earns$12an hour forbabysitting.yesterday,she just did 50minutes of babysitting.how much didsheearn?”该问题被闭源大语言模型mask掉数字常量后则为“weng earns$[hourly_wage]anhourfor babysitting.yesterday,shejust did[babysitting_minutes]minutesofbabysitting.how much did she earn?”变量名hourly_wage和babysitting_minutes和数学问题建立了联系,更贴合语境;docstring不仅介绍了期望输出程序的功能,也介绍了程序中使用的变量和结果表达。

    8、优选的,所述开源数据集设计的文字提示还定义了闭源大语言模型返回答案的格式从而提高了生成数据的可用性,同时prompt还通过举例来利用闭源大语言模型的上下文学习能力,提高模型的准确性。

    9、优选的,若外部解释器运行所述期望输出程序错误时,利用所述闭源大语言模型修改所述期望输出程序的错误,若修改后的期望输出程序运行正确,则将当前数学问题和修改后的期望输出程序加入至所述训练集中,若修改后的期望输出程序仍运行错误,则舍弃当前数学问题。

    10、优选的,对所述期望输出程序进行修改具体为:将当前数学问题、正确答案、期望输出程序及修改期望输出程序中的错误的指令一起输入至所述闭源大语言模型中,一般的,所述指令为“通过小的修改来修正期望输出程序中的错误,进而解决数学问题”。

    11、优选的,所述外部解释器为python。

    12、优选的,所述数学领域开源数据集包括gsm8k、math、aqua、mathqa、mathematics、numglue、theoremqa。

    13、优选的,所述闭源大语言模型为gpt4。

    14、本方法为开源数据集中的数学问题设计prompt,通过闭源大语言模型生成期望输出程序,将运行正确的程序和对应的加上指令的问题作为一条数据加入至训练集,用本方法生成的训练集对开源大语言模型进行指令微调,以此提升开源大语言模型解决各种数学领域问题的能力,缩小与闭源大语言模型之间的差距。



    技术特征:

    1.一种针对大语言模型的数学推理训练集的生成方法,其特征在于,包括:

    2.如权利要求1所述的一种针对大语言模型的数学推理训练集的生成方法,其特征在于,为所述开源数据集中的数学问题设计文字提示包括让闭源大语言模型采用变量mask开源数据集中数学问题中数字常量的指令及让闭源大语言模型返回带有文档字符串和详细注释的python程序,其中,所述python程序具体用于解决mask掉数字常量后的数学问题。

    3.如权利要求2所述的一种针对大语言模型的数学推理训练集的生成方法,其特征在于,为所述开源数据集设计的文字提示还定义了闭源大语言模型返回答案的格式。

    4.如权利要求1所述的一种针对大语言模型的数学推理训练集的生成方法,其特征在于,若外部解释器运行所述期望输出程序错误时,利用所述闭源大语言模型修改所述期望输出程序的错误,若修改后的期望输出程序运行正确,则将当前数学问题和修改后的期望输出程序加入至所述训练集中,若修改后的期望输出程序仍运行错误,则舍弃当前数学问题。

    5.如权利要求4所述的一种针对大语言模型的数学推理训练集的生成方法,其特征在于,对所述期望输出程序进行修改具体为:将当前数学问题、正确答案、期望输出程序及修改期望输出程序中的错误的指令一起输入至所述闭源大语言模型中。

    6.如权利要求4所述的一种针对大语言模型的数学推理训练集的生成方法,其特征在于,所述外部解释器为python。

    7.如权利要求1所述的一种针对大语言模型的数学推理训练集的生成方法,其特征在于,所述数学领域开源数据集包括gsm8k、math、aqua、mathqa、mathematics、numglue、theoremqa。

    8.如权利要求1所述的一种针对大语言模型的数学推理训练集的生成方法,其特征在于,所述闭源大语言模型为gpt4。


    技术总结
    一种针对大语言模型的数学推理训练集的生成方法包括:获取数学领域开源数据集;为开源数据集中的数学问题设计文字提示;为开源数据集中的每个数学问题生成期望输出程序:将开源数据集中的每个数学问题分别和文字提示输入至闭源大语言模型中得到每个数学问题对应的期望输出程序;利用外部解释器运行期望输出程序,若运行结果正确,则将当前数学问题和其对应的期望输出程序加入至训练集中;若运行结果错误,则舍弃当前数学问题。用本方法生成的训练集对开源大语言模型进行指令微调,以此提升开源大语言模型解决各种数学领域问题的能力,缩小与闭源大语言模型之间的差距。

    技术研发人员:闫琰,夏宗军,林路翔,李琳,陈志飞,姚于迪
    受保护的技术使用者:中国矿业大学(北京)
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-34864.html

    最新回复(0)