本申请涉及人工智能技术,特别涉及基于信息片段的混合专家网络的实现方法和装置。
背景技术:
1、在人工智能领域,混合专家(moe)是一种特殊的大模型架构,旨在通过将大型神经网络模型分解为多个较小的子模型来提高效率和灵活性,其中分解得到的子模型即“专家”。每个专家都专注于处理特定类型的输入或任务,同时,通过一个门控网络负责根据输入数据动态地选择和加权这些专家的输出。这种方法允许模型在处理不同类型的数据时,通过门控网络只激活相关的专家,从而减少了计算资源的消耗,并提高了模型的专业化程度。
2、目前,moe的各类实现方式中,有的实现方式对于大模型的每一层都进行一次专家选择,造成训练和推理的计算及存储成本较大;有的实现方式针对不同的任务进行专家选择,减少了模型组合的可能性,浪费了参数存储;总之,上述各类moe实现方法中都没有进行合理的专家选择,影响整个系统效率。
技术实现思路
1、本申请提供一种基于信息片段的混合专家网络的实现方法和装置,能够更合理地进行专家网络选择,有效提高整个系统的效率。
2、为实现上述目的,本申请采用如下技术方案:
3、一种基于信息片段的混合专家网络的实现方法,所述混合专家网络包括多个备选的专家网络,所述实现方法包括:
4、判断所述混合专家网络的任一输出是否为预设的信息段结束符号;
5、当所述任一输出是所述信息段结束符号时,利用预先训练好的专家选择网络,基于对当前信息段的所有输出进行第一处理后得到的第一处理结果,从所述多个备选的专家网络中选择至少一个作为当前专家网络;当所述任一输出不是所述信息段结束符号时,当前专家网络保持不变;
6、将所述任一输出作为输入,通过启用所述当前专家网络的所述混合专家网络,进行下一次推理;
7、其中,所述当前信息段的所有输出为:所述任一输出之前最近一次输出的信息段结束符号之后的第一个输出开始到所述任一输出为止的所有输出。
8、较佳地,在得到所述混合专家网络的第一个输出前,该方法进一步包括:
9、对组成提示部分的所有模型输入进行所述第一处理,得到提示处理结果;
10、利用所述专家选择网络,基于所述提示处理结果,从所述多个备选的专家网络中选择一个作为当前专家网络;
11、通过启用所述当前专家网络的所述混合专家网络,对所述提示部分进行推理得到所述第一个输出。
12、较佳地,将属于同一信息片段的多个输入组成训练样本,用于进行所述专家选择网络和所述专家网络的训练。
13、较佳地,所述第一处理为平均池化处理或特征融合处理。
14、较佳地,所述专家网络为注意力网络或前馈网络。
15、一种基于信息片段的混合专家网络的实现装置,所述混合专家网络包括多个备选的专家网络,所述实现装置包括:判断单元、专家网络选择单元和推理单元;
16、所述判断单元,用于判断所述混合专家网络的任一输出是否为预设的信息结束符号,若是,则通知所述专家网络选择单元;否则,当前专家网络保持不变;
17、所述专家网络选择单元,用于在接收到通知后,利用预先训练好的专家选择网络,基于对当前信息段的所有输出进行第一处理后得到的第一处理结果,从所述多个备选的专家网络中选择至少一个作为当前专家网络;其中,所述当前信息段的所有输出为:所述当前输出之前最近一次输出的语义结束符号之后的第一个输出到所述当前输出为止的所有输出;
18、所述推理单元,用于将所述当前输出作为输入,通过启用所述当前专家网络的所述混合专家网络,进行下一次推理,将下一次推理得到的输出作为当前输出发送给所述判断单元,直到任务结束。
19、较佳地,所述实现装置进一步包括:提示部分处理单元,用于对组成提示部分的所有模型输入进行所述第一处理,得到提示处理结果;利用所述专家选择网络,基于所述提示处理结果,从所述多个备选的专家网络中选择一个作为当前专家网络;通过启用所述当前专家网络的所述混合专家网络,对所述提示部分进行推理得到所述混合专家网络的第一个输出,并将所述第一个输出作为当前输出发送给所述推理单元。
20、较佳地,所述实现装置进一步包括训练单元,用于将属于同一信息片段的多个输入组成训练样本,进行所述专家选择网络和所述专家网络的训练。
21、较佳地,所述第一处理为平均池化处理或特征融合处理。
22、较佳地,所述专家网络为注意力网络或前馈网络。
23、一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时可实现上述任一项所述的基于信息片段的混合专家网络的实现方法。
24、一种计算机程序产品,包括计算机可执行指令,所述计算机可执行指令在被处理器执行时实现上述任一项所述的基于信息片段的混合专家网络的实现方法。
25、由上述技术方案可见,本申请中提供基于信息片段的混合专家网络,该网络包括多个备选的专家网络;相应混合专家网络在实现时,判断混合专家网络的任一输出是否为预设的信息段结束符号,如果是,则基于对当前信息段的所有输出进行第一处理后得到的处理结果,在多个备选的专家网络中选择至少一个作为当前专家网络,用于进行下一次推理;如果不是,仍然保持上次选择的专家网络不变进行下一次推理。通过上述方式,以信息段为单位进行专家网络的选择,相比于每层都进行专家网络选择的方式,能够有效减小计算及存储成本;同时,从信息段整体角度选择专家网络,更能体现moe的设计核心,且相比于针对任务进行专家选择的方式,有效增加了模型组合的可能性,避免了很多参数存储的浪费;总之,本申请的方法能够平衡计算及存储成本和模型组合的多样性,更合理地进行专家网络选择,有效提高了整个系统的效率。
1.一种基于信息片段的混合专家网络的实现方法,其特征在于,所述混合专家网络包括多个备选的专家网络,所述实现方法包括:
2.根据权利要求1所述的方法,其特征在于,在得到所述混合专家网络的第一个输出前,该方法进一步包括:
3.根据权利要求1或2所述的方法,其特征在于,将属于同一信息片段的多个输入组成训练样本,用于进行所述专家选择网络和所述专家网络的训练。
4.根据权利要求1或2所述的方法,其特征在于,所述第一处理为平均池化处理或特征融合处理。
5.根据权利要求1或2所述的方法,其特征在于,所述专家网络为注意力网络或前馈网络。
6.一种基于信息片段的混合专家网络的实现装置,其特征在于,所述混合专家网络包括多个备选的专家网络,所述实现装置包括:判断单元、专家网络选择单元和推理单元;
7.根据权利要求6所述的实现装置,其特征在于,所述实现装置进一步包括:提示部分处理单元,用于对组成提示部分的所有模型输入进行所述第一处理,得到提示处理结果;利用所述专家选择网络,基于所述提示处理结果,从所述多个备选的专家网络中选择一个作为当前专家网络;通过启用所述当前专家网络的所述混合专家网络,对所述提示部分进行推理得到所述混合专家网络的第一个输出,并将所述第一个输出作为当前输出发送给所述推理单元。
8.根据权利要求6或7所述的实现装置,其特征在于,所述实现装置进一步包括训练单元,用于将属于同一信息片段的多个输入组成训练样本,进行所述专家选择网络和所述专家网络的训练。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时可实现权利要求1~5任一项所述的基于信息片段的混合专家网络的实现方法。
10.一种计算机程序产品,其特征在于,包括计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如权利要求1~5任一项所述的基于信息片段的混合专家网络的实现方法。
