本技术涉及一种基于knn检索增强的文本分类方法及装置、设备、介质,属于自然语言处理。
背景技术:
1、文本分类是自然语言处理(nlp)的基础任务之一,它涉及将给定文本自动归类到一个或多个预定义类别中。这项技术在垃圾邮件检测、情感分析、关系抽取等多个应用场景中具有重要意义。传统的文本分类方法依赖于机器学习模型,需要进行繁琐的特征工程,而深度学习方法,尤其是基于循环神经网络(rnn)、卷积神经网络(cnn)和transformer架构的模型(如bert和roberta),因其能够自动从原始数据中学习高级特征而受到青睐。
2、基于深度学习的文本分类方法通常包括两个阶段:训练和推理。在训练阶段,模型通过学习训练数据集的特征来进行参数优化。然而,在推理阶段,训练数据集通常只用于生成模型的初始参数,而不再参与分类决策过程。这意味着训练数据集的语义信息没有在推理阶段得到充分利用。深度学习模型,如cnn、lstm、bert或roberta,用于从文本数据中提取特征表示。在结构上,这些模型通常由多个层组成,包括输入层、隐藏层和输出层。输入层接收文本数据,隐藏层通过各种网络结构(如卷积层、循环层或自注意力层)处理数据,输出层则根据学习到的特征进行分类。在操作和工作过程中,模型首先在训练阶段通过前向传播学习数据集的特征表示,并通过反向传播算法调整模型参数以最小化损失函数。在推理阶段,模型使用训练好的参数对新的文本数据进行分类,通常是基于学习到的特征表示和softmax函数来预测文本的类别。然而,这些现有技术在推理阶段未能充分利用训练数据集中的语义信息,导致模型在处理与训练数据分布相似的新文本时可能表现不佳。为了解决这一问题,本发明提出了一种新的文本分类方法,即k-最近邻检索增强模型(kra),通过在推理阶段引入基于训练数据集的检索和文本增强技术,显著提高了模型的分类性能和泛化能力。
3、现有深度学习基础的文本分类方法存在的缺点和问题主要包括以下几点:
4、1.训练数据集在推理阶段的利用不足:在传统的文本分类方法中,训练数据集仅在训练阶段被用来训练模型,而在推理阶段很少或根本没有被利用。这导致训练数据集中蕴含的丰富语义信息没有得到充分利用,限制了模型在新文本上的分类性能。
5、2.泛化能力有限:由于模型仅依赖于训练阶段学到的特征表示,对于训练集之外的新文本,模型可能无法很好地泛化。特别是在数据集较小或者类别不平衡的情况下,模型的泛化能力更加受限。
6、3.对大型数据集的依赖:一些先进的文本分类方法,如基于transformer的模型,虽然在性能上取得了显著提升,但它们通常需要大量的标注数据来训练,这不仅成本高昂,而且可能难以获得。
7、这些缺点和问题产生的原因包括:
8、1.数据集的静态使用:在传统方法中,训练数据集的角色是静态的,仅用于模型的初步训练,而不是动态地参与到推理过程中,这限制了模型利用数据的能力。
9、2.特征表示的局限性:深度学习模型虽然能够自动提取特征,但这些特征表示可能不足以覆盖所有可能的文本变化和类别,特别是在面对与训练数据分布不同的新文本时。
10、3.模型结构的固定性:现有的深度学习模型结构通常是固定的,它们在设计时就确定了如何处理和表示文本数据,这可能不适应所有类型的文本分类任务。
技术实现思路
1、为解决上述技术问题,本技术的实施例分别提供了一种基于knn检索增强的文本分类方法及装置、设备、介质,通过在推理阶段动态地利用训练数据集,并结合文本增强技术,提高了模型的泛化能力和分类准确性。这种方法不仅能够更好地利用训练数据集中的语义信息,还能够通过扩展检索集来增强模型对新文本的适应性。
2、本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
3、根据本技术实施例的一个方面,提供了一种基于knn检索增强的文本分类方法,所述方法包括:
4、构建函数f(·),响应于输入的训练集,利用所述函数f(·)将所述训练数据集的文本序列映射到固定长度向量表示形式,将所有文本序列的向量表示和对应的标签存储于训练数据集中;
5、构建文本增强模块,利用所述文本增强模块对所述训练数据集进行增强得到增强后的训练数据集;
6、构建k-最近邻分类器,利用所述增强后的训练数据集对所述k-最近邻分类器进行训练,以训练好的k-最近邻分类器实现文本分类。
7、进一步地,响应于输入的训练集,利用所述函数f(·)将所述训练数据集的文本序列映射到固定长度向量表示形式,将所有文本序列的向量表示和对应的标签存储于训练数据集中,具体包括:
8、获取训练集d中的第i个示例(ci,li)∈d,其中ci表示第i个文本序列,li表示第i个标签;
9、确定一个键值对(ki,vi),键ki表示文本序列的向量表示,值vi表示文本序列的标签;
10、数据存储(k,v)通过如下公式将所有文本序列的向量表示和标签存储在训练数据集中:
11、(k,v)={(f(ci),li)|(ci,li)∈d}
12、其中f(ci)为文本序列的向量表示。
13、进一步地,所述文本增强模块通过同义词替换、随机插入、随机交换、随机删除和反向翻译对所述训练数据集进行增强得到增强后的训练数据集;
14、所述同义词替换为将原始文本中的一些单词替换为同义词;
15、所述随机插入为在原始文本中随机插入一个或多个额外的单词或短语,以模拟真实场景中的噪声或干扰;
16、所述随机交换为随机交换原始文本中的单词或短语;
17、所述随机删除为以设定概率删除原始文本中的单词或短语,模拟信息缺失的情况;
18、所述反向翻译为将原始文本翻译成其他语言,并将翻译后的文本翻译回原始语言。
19、进一步地,基于训练好的k-最近邻分类器,通过如下步骤实现文本分类:
20、响应于输入的文本x,得到模型生成向量f(x);
21、利用所述模型生成向量f(x)搜索数据存储,根据欧几里得距离获取最近邻k;
22、将原文对应的最近邻k输入到文本增强模块中,得到增强的邻向量k′;
23、根据每个增强的邻居向量f(c′)和f(x)之间的欧几里得距离计算增强的邻向量k′的权重;
24、根据增强的邻向量k′的权重计算相邻标签的概率分布以得到knn预测结果;
25、根据knn预测结果确定最终预测结果。
26、进一步地,根据每个增强的邻居向量f(c′)和f(x)之间的欧几里得距离,通过如下公式计算增强的邻向量k′的权重:
27、w′=softmax(-|d′|)
28、其中,w′是增强的邻向量k′的权重,d′是每个增强的邻居向量f(c′)和f(x)之间的欧几里得距离,softmax是归一化指数函数。
29、进一步地,根据增强的邻向量k′的权重,通过如下公式计算相邻标签的概率分布以得到knn预测结果:
30、knn(x)=w'l′
31、其中,knn(x)是knn预测结果,w′是增强的邻向量k′的权重,l′是增强邻居的标签集。
32、进一步地,根据knn预测结果,通过如下公式确定最终预测结果:
33、s=λknn(x)+(1-λ)softmax(f(x))
34、其中,s是最终预测结果,比率λ是一个超参数,用于调整模型的概率分布和从相邻向量获得的概率分布,softmax(f(x))是模型预测结果,所述模型为深度学习模型,包括cnn、lstm、bert和roberta中的一种。
35、根据本技术实施例的一个方面,提供了一种基于knn检索增强的文本分类装置,包括:
36、表示存储单元,被配置为构建函数f(·),响应于输入的训练集,利用所述函数f(·)将所述训练数据集的文本序列映射到固定长度向量表示形式,将所有文本序列的向量表示和对应的标签存储于训练数据集中;
37、文本增强单元,被配置为构建文本增强模块,利用所述文本增强模块对所述训练数据集进行增强得到增强后的训练数据集;
38、推理预测单元,被配置为构建k-最近邻分类器,利用所述增强后的训练数据集对所述k-最近邻分类器进行训练,以训练好的k-最近邻分类器实现文本分类。
39、到对应数据的情况下,对所述数据进行加密后发送至所述数据申请端。
40、根据本技术实施例的一个方面,提供了一种电子设备,包括:控制器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述控制器执行时,使得所述控制器实现上所述的基于knn检索增强的文本分类方法。
41、根据本技术实施例的一个方面,还提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述的基于knn检索增强的文本分类方法。
42、根据本技术实施例的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的基于knn检索增强的文本分类方法。
43、在本技术的实施例所提供的技术方案中,至少具有以下优点:
44、1.解决训练数据集在推理阶段利用不足的问题:在训练阶段构建了一个表示存储,用于保存训练样本的嵌入表示。在推理阶段,模型通过检索测试文本的最近邻居,并结合文本增强技术,使得训练数据集的语义信息得以在分类决策中发挥作用。
45、2.提高模型的泛化能力:模型在推理阶段不仅依赖于训练阶段学到的特征表示,还能够根据检索到的最近邻居和它们的增强版本进行分类决策。这种方法使得模型能够处理更多样化的文本,提高了对新文本的适应性和泛化能力。
46、3.减少对大型数据集的依赖:通过文本增强技术扩展了检索集的大小,这意味着即使在训练数据集较小的情况下,模型也能够通过增强技术生成更多的训练样本,从而减少了对大规模标注数据集的需求。
47、应理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
1.一种基于knn检索增强的文本分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于knn检索增强的文本分类方法,其特征在于,响应于输入的训练集,利用所述函数f(·)将所述训练数据集的文本序列映射到固定长度向量表示形式,将所有文本序列的向量表示和对应的标签存储于训练数据集中,具体包括:
3.根据权利要求1所述的基于knn检索增强的文本分类方法,其特征在于,所述文本增强模块通过同义词替换、随机插入、随机交换、随机删除和反向翻译对所述训练数据集进行增强得到增强后的训练数据集;
4.根据权利要求1所述的基于knn检索增强的文本分类方法,其特征在于,基于训练好的k-最近邻分类器,通过如下步骤实现文本分类:
5.根据权利要求4所述的基于knn检索增强的文本分类方法,其特征在于,根据每个增强的邻居向量f(c′)和f(x)之间的欧几里得距离,通过如下公式计算增强的邻向量k′的权重:
6.根据权利要求4所述的基于knn检索增强的文本分类方法,其特征在于,根据增强的邻向量k′的权重,通过如下公式计算相邻标签的概率分布以得到knn预测结果:
7.根据权利要求4所述的基于knn检索增强的文本分类方法,其特征在于,根据knn预测结果,通过如下公式确定最终预测结果:
8.一种基于knn检索增强的文本分类装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:控制器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述控制器执行时,使得所述控制器实现权利要求1至7中任一项所述的基于knn检索增强的文本分类方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至7中任一项所述的基于knn检索增强的文本分类方法。