一种面向机翻大语言模型的预推断式并行推理方法、装置及介质与流程

    技术2025-04-12  7


    本发明属于机器翻译,具体地说,是涉及一种面向机翻大语言模型的预推断式并行推理方法、装置及介质。


    背景技术:

    1、随着chatgpt等大语言模型的兴起,将大语言模型技术应用于机器翻译领域成为学术界的热点。然而,在机翻实践中,大语言模型执行机器翻译的推理速度很低,一些近期研究表明大语言模型的推理速度可能比传统机器翻译模型慢两个数量级,这成为推广机翻大语言模型的一个难题。

    2、上述问题是两个方面造成的:一方面,大语言模型的参数量过大,导致推理过程中计算量过大,即使是轻量版本的大语言模型,其参数量也为传统机器翻译模型的几十到上百倍左右;另一方面,自回归形式的推理方式无法实现并行,和传统机器翻译模型类似,大语言模型依然使用自回归解码方式进行推理,在这种推理方式中模型只能串行地预测每个token,而无法并行处理,使得时间成本大大增加,并且显卡利用率较低。


    技术实现思路

    1、本发明的目的在于提供一种面向机翻大语言模型的预推断式并行推理方法,以解决现有技术所存在的技术问题。

    2、为了实现上述目的,本发明采取的技术方案如下:

    3、一种面向机翻大语言模型的预推断式并行推理方法,包括以下步骤:

    4、(1)预推断token:运行机翻大语言模型,执行一次非自回归形式的推理,机翻大语言模型根据输入原文x,机翻译文的第一个token记为s,译文长度为n,随机猜测译文y中每个位置的token,记为:

    5、;

    6、(2)执行并行翻译:记当前迭代次数为t,根据步骤(1)中的预推断,或者上一步的并行结果,执行一次并行的机器翻译,计算得到每个译文位置进一步的token,记为并行结果;

    7、(3)对并行翻译的结果进行验证修改:根据当前步的并行翻译的前一步的并行结果或初始化的结果,与当前步的并行结果进行逐token对比,如果当前步的第i个token计算得到词表概率大于前一步的第i个token的概率,则进行推理结果更新,否则,停止推理结果更新,并将之前的推理结果复制到当前步的推理结果中,得到初步的推理结果;

    8、(4)已有结果缓存:将所述步骤(3)得到的初步的推理结果,进行n-gram切分,并缓存到候选池中,记为,再进行一次并行推理,得到最终的迭代结果,记为:

    9、。

    10、优选的,所述步骤(2)中,当首次执行并行的机器翻译,并行结果的计算方式为:

    11、。

    12、优选的,所述步骤(2)中,当执行并行的机器翻译为后续时间步的,并行结果的计算方式为:

    13、。

    14、优选的,所述步骤(3)中,当所述步骤(2)中为首次执行并行的机器翻译时,则根据初始化的结果,与当前步的并行结果进行逐token对比。

    15、优选的,所述步骤(3)中,当所述步骤(2)中执行并行的机器翻译为后续时间步的,则根据当前步的并行翻译的前一步的并行结果,与当前步的并行结果进行逐token对比。

    16、为了实现上述目的,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行,以实现所述的面向机翻大语言模型的预推断式并行推理方法。

    17、为了实现上述目的,本发明还提供了一种面向机翻大语言模型的预推断式并行推理的装置,包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使得所述面向机翻大语言模型的预推断式并行推理的装置执行所述的面向机翻大语言模型的预推断式并行推理方法。

    18、与现有技术相比,本发明具备以下有益效果:

    19、(1)本发明通过预推断和并行翻译,解决了传统大语言模型推理过程中,并行程度不够的问题。

    20、(2)本发明通过结果验证和修改,优化并行化翻译过程中带来的潜在错误。

    21、(3)本发明通过n-gram缓存池,充分利用机翻大语言模型的历史翻译结果,减少了并行化翻译过程的运行轮数。



    技术特征:

    1.一种面向机翻大语言模型的预推断式并行推理方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的面向机翻大语言模型的预推断式并行推理方法,其特征在于,所述步骤(2)中,当首次执行并行的机器翻译,并行结果的计算方式为:

    3.根据权利要求2所述的面向机翻大语言模型的预推断式并行推理方法,其特征在于,所述步骤(2)中,当执行并行的机器翻译为后续时间步的,并行结果的计算方式为:

    4.根据权利要求3所述的面向机翻大语言模型的预推断式并行推理方法,其特征在于,所述步骤(3)中,当所述步骤(2)中为首次执行并行的机器翻译时,则根据初始化的结果,与当前步的并行结果进行逐token对比。

    5.根据权利要求4所述的面向机翻大语言模型的预推断式并行推理方法,其特征在于,所述步骤(3)中,当所述步骤(2)中执行并行的机器翻译为后续时间步的,则根据当前步的并行翻译的前一步的并行结果,与当前步的并行结果进行逐token对比。

    6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行,以实现如权利要求1~5中任一项所述的面向机翻大语言模型的预推断式并行推理方法。

    7.一种面向机翻大语言模型的预推断式并行推理的装置,其特征在于,包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使得所述面向机翻大语言模型的预推断式并行推理的装置执行如权利要求1~5中任一项所述的面向机翻大语言模型的预推断式并行推理方法。


    技术总结
    本发明属于机器翻译技术领域,提供了一种面向机翻大语言模型的预推断式并行推理方法、装置及介质,其中方法包括:(1)预推断token:运行机翻大语言模型,执行一次非自回归形式的推理,机翻大语言模型根据输入原文x,随机猜测译文y中每个位置的token,记为:(2)执行并行翻译:记当前迭代次数为t,根据步骤(1)中的预推断,或者上一步的并行结果,执行一次并行的机器翻译,计算得到每个译文位置进一步的token,记为并行结果;(3)对并行翻译的结果进行验证修改;(4)已有结果缓存。本发明通过预推断和并行翻译,解决了传统大语言模型推理过程中,并行程度不够的问题,优化并行化翻译过程中带来的潜在错误。

    技术研发人员:朱宪超,胡刚,霍展羽,李晶
    受保护的技术使用者:四川语言桥信息技术有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-29129.html

    最新回复(0)