本申请涉及自然语言处理,例如涉及一种面向大规模语言模型的超长文本序列的处理方法、装置。
背景技术:
1、深度学习技术在自然语言处理领域的应用已变得日益普遍,其中,transformer架构以其卓越的序列建模能力脱颖而出,成为构建大规模语言模型的优选方案。
2、但不容忽视的是,尽管transformer在众多任务中取得了显著成效,其在处理长序列数据时却暴露出一定的效率问题,特别是在注意力机制的计算环节上,这一问题尤为明显,已成为制约模型性能提升和应用场景拓展的核心难题。由此引发的是计算资源需求的急剧增加,以及训练和推理时间的延长。
3、在硬件资源受限的情况下,为了缓解计算压力,往往需要采取截断或采样等措施,但这些做法通常会以牺牲模型精度为代价。这一计算效率的瓶颈对transformer在处理诸如长文档、持续对话、大规模知识图谱等超长序列任务时的性能造成了严重影响,具体表现为训练成本的上升、迭代周期的延长,以及因内存限制而无法充分处理超长输入数据。
4、这些问题进一步阻碍了transformer在长文本分析、文档摘要、知识推理等领域对长序列信息进行深入理解和精确建模的能力发挥。
5、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
2、本公开实施例提供了一种面向大规模语言模型的超长文本序列的处理方法、装置,以提升transformer模型处理长序列数据的效率,降低计算复杂度。
3、在一些实施例中,所述方法包括:
4、文本序列预处理:用于对输入的超长文本序列进行预处理,包括动态序列分割与自适应序列重排,将所述超长文本序列分割成多个连续且重叠的块,并过滤掉无关噪声;
5、构建超长文本序列处理网络:基于transformer架构构建一个处理网络以处理经过预处理的文本序列块;
6、分块并行处理与融合:将所述文本序列块进行分块并行处理,并将处理结果进行融合;
7、持续学习与反馈循环:用于根据处理结果动态调整处理策略,并反馈给文本序列预处理步骤。
8、可选地,所述动态序列分割与自适应序列重排步骤包括:
9、a.将超长文本序列分割成多个连续且重叠的块,使每两个相邻块之间有固定的重叠部分;
10、b.过滤掉无关噪声,包括停用词、特殊符号;
11、c.构建轻量级内容重要性评估网络(cien),为每个分块基于预设参数进行基于内容重要性的评分,所述预设参数包括词频、关键词出现和句法结构;
12、d.根据cien的评分结果实施自适应序列重排策略,将重要性较高的文本块置于处理序列的前端。
13、可选地,cien包括:
14、输入层,对原始文本进行预处理,包括分词、去除停用词、词干提取,将文本分块转换为固定长度的词向量表示;
15、特征提取层,用于从文本块中提取多个特征,特征提取层包括词频统计模块、关键词检测模块、句法结构分析模块、语义理解模块;
16、特征融合层,使用多层感知机将特征提取层的模块提取的特征进行融合;
17、输出层将融合后的特征映射为一个单一的分数,该分数反映文本块的内容重要性。
18、可选地,构建超长文本序列处理网络,包括:
19、基于transformer架构构建处理网络,通过多级transformer子模块实现对文本序列的深度分层解析;
20、利用自适应稀疏掩码和多维度并发计算策略,降低计算复杂度,同时保证模型对长序列深层次语义结构的准确建模。
21、可选地,构建超长文本序列处理网络,还包括:引入超长序列的多维度并发计算策略,将q、k、v注意力矩阵切分为多个子矩阵;将每个子矩阵分配给独立的线程块进行并发计算;通过异步通信机制合并子矩阵结果以重建完整的注意力矩阵;并将计算结果直接写入高性能内存的预定区域。
22、可选地,所述构建超长文本序列处理网络,还包括:
23、引入三维并发计算策略,结合批量、注意力头数和序列长度三个维度的并行化;
24、其中,在批量维度上,批量数据被分割成多个子批次,每个子批次在不同的gpu或gpu内部的并行计算单元上并行处理,在注意力头维度上,模型的注意力头被分配给不同的gpu或gpu内部的并行计算单元,每个计算单元仅处理部分注意力头的计算。
25、可选地,所述方法还包括计算资源动态调配与优化步骤,所述计算资源动态调配与优化包括:
26、根据cien的评分结果以及当前计算资源的负载情况,动态调整模型处理的序列长度;
27、在资源不足时,减少重叠部分以提高处理效率;
28、在处理过程中,持续监控资源使用情况,并根据需要动态调配计算资源。
29、在一些实施例中,所述装置,包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行前述的面向大规模语言模型的超长文本序列的处理方法。
30、在一些实施例中,所述存储介质存储有程序指令,所述程序指令在运行时,执行前述的面向大规模语言模型的超长文本序列的处理方法。
31、本公开实施例提供的面向大规模语言模型的超长文本序列的处理方法、装置,可以实现以下技术效果:
32、本公开通过动态序列分割和自适应序列重排策略,实现了对超长文本序列的高效处理,降低了计算复杂度和内存需求。
33、采用分块并行处理策略,同时处理多个文本块,提高了处理效率。
34、通过持续学习和反馈循环机制,不断优化文本序列预处理和分块策略,进一步提高了处理效率和模型性能。
35、本公开通过创新的计算策略与优化技术,显著提升了transformer模型处理长序列数据的效率,降低了计算复杂度,减少了内存需求,同时保持或提升了模型性能。
36、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
1.一种面向大规模语言模型的超长文本序列的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述动态序列分割与自适应序列重排步骤包括:
3.根据权利要求2所述的方法,其特征在于,所述cien包括:
4.根据权利要求1至3任一项所述的方法,其特征在于,所述构建超长文本序列处理网络,包括:
5.根据权利要求4所述的方法,其特征在于,所述构建超长文本序列处理网络,还包括:
6.根据权利要求5所述的方法,其特征在于,所述构建超长文本序列处理网络,还包括:
7.根据权利要求6所述的方法,其特征在于,所述方法还包括计算资源动态调配与优化步骤,所述计算资源动态调配与优化包括:
8.一种面向大规模语言模型的超长文本序列的处理装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至7任一项所述的面向大规模语言模型的超长文本序列的处理方法。
9.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至7任一项所述的面向大规模语言模型的超长文本序列的处理方法。