键值缓存方法、文本解码方法、装置以及计算机存储介质与流程

    技术2025-01-21  41


    本申请涉及键值缓存,特别是涉及一种键值缓存方法、文本解码方法、文本解码装置以及计算机存储介质。


    背景技术:

    1、语言模型接收的是token(文本片段),token是划分文本的最小单元,是文本的数值表示,进行模型推理前需要将文本转换为token序列。大语言模型推理阶段逐个生成token,如果当前生成的是第n个token,按照自注意力结构的特点,它需要利用前n-1个token的键值进行计算。前n-1个token的键值已经在生成对应token时计算过一遍,预先将其保存后称之为键值缓存,那么在生成第n个token时就可以直接使用键值缓存,避免冗余运算。键值缓存会随着token生成而一直增长,而某些键值缓存对后续的预测结果可能不起作用,为了减轻键值缓存带来的内存负担,同时保证大语言模型推理的精度,通常会采用键值缓存优化技术减少内存占用。

    2、然而,目前的键值缓存优化技术没有考虑大语言模型的语义特征在不同网络层的分布特点,对每个注意力层采用固定大小的键值缓存大小,不能有效减少键值缓存大小。‌


    技术实现思路

    1、为解决上述技术问题,本申请提出了一种键值缓存方法、文本解码方法、文本解码装置以及计算机存储介质。

    2、为解决上述技术问题,本申请提出了一种键值缓存方法,所述键值缓存方法包括:

    3、基于当前待解码文本片段,获取若干已解码文本片段;

    4、获取所述若干已解码文本片段的键值缓存,其中,所述键值缓存为按照大语言模型网络的自注意力层从高到低排列的若干键值缓存;

    5、按照预设键值缓存分配策略保留所有键值缓存中的部分键值缓存,丢弃其余键值缓存;

    6、其中,所述若干已解码文本片段的保留键值缓存中第一自注意力层的键值缓存数量少于第二自注意力层的键值缓存,所述第一自注意力层的层数低于所述第二自注意力层的层数。

    7、为解决上述技术问题,本申请还提出一种文本解码方法,所述文本解码方法包括:

    8、基于当前待解码文本片段,获取若干已解码文本片段的键值缓存;

    9、基于所述键值缓存对所述当前待解码文本片段进行解码,获取文本预测推理结果;

    10、其中,所述若干已解码文本片段的键值缓存通过上述的键值缓存方法获取。

    11、为解决上述技术问题,本申请还提出一种文本解码装置,所述文本解码装置包括存储器以及与所述存储器耦接的处理器;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如上述的键值缓存方法,和/或文本解码方法。

    12、为解决上述技术问题,本申请还提出一种计算机存储介质,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现上述的键值缓存方法,和/或文本解码方法。

    13、与现有技术相比,本申请的有益效果是:文本解码装置基于当前待解码文本片段,获取若干已解码文本片段;获取所述若干已解码文本片段的键值缓存,其中,所述键值缓存为按照大语言模型网络的自注意力层从高到低排列的若干键值缓存;按照预设键值缓存分配策略保留所有键值缓存中的部分键值缓存,丢弃其余键值缓存;其中,所述若干已解码文本片段的保留键值缓存中第一自注意力层的键值缓存数量少于第二自注意力层的键值缓存,所述第一自注意力层的层数低于所述第二自注意力层的层数。通过上述键值缓存方法,根据顶层网络特征语义稠密,底层网络特征语义稀疏的特点,自顶向下保留不同大小的键值缓存,使得保留的键值缓存更加有效,不会丢失掉文本片段解码所需的主要信息,提高键值缓存效率。



    技术特征:

    1.一种键值缓存方法,其特征在于,所述键值缓存方法包括:

    2.根据权利要求1所述的键值缓存方法,其特征在于,

    3.根据权利要求2所述的键值缓存方法,其特征在于,

    4.根据权利要求1所述的键值缓存方法,其特征在于,

    5.根据权利要求4所述的键值缓存方法,其特征在于,

    6.根据权利要求1所述的键值缓存方法,其特征在于,

    7.根据权利要求6所述的键值缓存方法,其特征在于,

    8.根据权利要求1所述的键值缓存方法,其特征在于,

    9.一种文本解码方法,其特征在于,所述文本解码方法包括:

    10.一种文本解码装置,其特征在于,所述文本解码装置包括存储器以及与所述存储器耦接的处理器;

    11.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如权利要求1至8任一项所述的键值缓存方法,和/或权利要求9所述的文本解码方法。


    技术总结
    本申请提出一种键值缓存方法、文本解码方法、文本解码装置以及计算机存储介质。键值缓存方法包括:基于当前待解码文本片段,获取若干已解码文本片段;获取若干已解码文本片段的键值缓存;按照预设键值缓存分配策略保留所有键值缓存中的部分键值缓存,丢弃其余键值缓存;其中,若干已解码文本片段的保留键值缓存中第一自注意力层的键值缓存数量少于第二自注意力层的键值缓存,第一自注意力层的层数低于第二自注意力层的层数。通过上述键值缓存方法,根据顶层网络特征语义稠密,底层网络特征语义稀疏的特点,自顶向下保留不同大小的键值缓存,使得保留的键值缓存更加有效,不会丢失掉文本片段解码所需的主要信息,提高键值缓存效率。

    技术研发人员:林贤早,王康
    受保护的技术使用者:浙江大华技术股份有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-25362.html

    最新回复(0)