本发明涉及自然语言处理,尤其是涉及一种文本处理方法、装置、电子设备和计算机可读存储介质。
背景技术:
1、在实际对话系统中,用户的未知意图识别一直是一个具有挑战性的工作。识别用户的意图可以帮助提高面向任务的对话系统的响应质量。在设计一个对话系统时,需要预先收集一组预期的客户意图来训练意图识别模型。但是,这些预定义的意图并不能完全满足客户的需求。这意味着有必要通过反复整合从未标记的用户话语中发现的新意图来扩展意图识别模型。为了减少从大量对话数据中人工识别未知意图的工作量,现有技术通常使用聚类算法对相似意图进行分组,利用对话分组可以直接用作新意图标签或用作更快注释的启发式方法。在此过程中,主要有两个研究问题,如何学习对话语义表示和如何提升聚类效果。现有的方法通常依赖于大量的标记数据,利用已知意图标记对话数据进行语义表征学习,但这需要大量的已知意图类别标签和每个类别标记数据。此外,使用伪标记方法用来生成监督信号,以进行表示学习和聚类,但这些标签通常是有噪声的,可能会导致错误传播,降低了文本向量表示的准确率,模型的学习能力和泛化能力不够好,文本意图识别的准确度较差。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种文本处理方法、装置、电子设备和计算机可读存储介质,通过数据增强方法扩大了实例分类阶段的输入样本,并将原实例也作为输入样本,提高了文本向量表示的准确率,也增强了模型的学习能力和泛化能力,提高了文本意图识别的准确度。
2、第一方面,本发明提供了一种文本处理方法,包括:获取待识别文本数据;其中,待识别文本数据包括多条话语文本;将待识别文本数据和预先设置的分类簇值输入预先训练完成的文本聚类模型中,输出与预先设置的分类簇值相等数量的文本聚类簇;其中,文本聚类模型的训练过程包括多任务预训练阶段和实例分类阶段;在多任务预训练阶段输出的文本实例中选取预设的分类个数的原点文本实例,基于多任务预训练阶段输出的文本实例中多个文本实例与原点文本实例的距离,将多任务预训练阶段输出的文本实例分为对应预设的分类个数的邻域,将邻域内的文本实例进行数据增强获取增强文本实例,将增强文本实例和原点文本实例作为实例分类阶段的训练样本。
3、在本发明一些较佳的实施例中,文本聚类模型通过下述方法训练:获取训练样本数据;其中,训练样本数据包括开源数据集、任务标注集和任务未知集;基于训练样本数据训练初始模型,获得文本聚类模型;其中,文本聚类模型的训练过程依次包括多任务预训练阶段、实例分类阶段和文本聚类阶段。
4、在本发明一些较佳的实施例中,多任务预训练阶段通过下述损失函数约束多任务预训练阶段的第一损失值:其中,lstg1为第一损失值,lce()为交叉熵损失函数;lmlm()为掩码语言模型损失函数,为开源数据集的数据集,为为内部任务数据集,所述内部任务数据集包括所述任务标注集和所述任务未知集集合的数据集,θ为初始模型的模型参数。
5、在本发明一些较佳的实施例中,多任务预训练阶段还通过下述损失函数约束多任务预训练阶段的第二损失值:其中,lstg2为第二损失值,lce()为交叉熵损失函数;lmlm()为掩码语言模型损失函数,为任务标注集的数据集,为任务标注集和任务未知集集合的数据集,θ为初始模型的模型参数。
6、在本发明一些较佳的实施例中,实例分类阶段包括下述步骤:将多任务预训练阶段输出的文本实例分为对应预设的分类个数的邻域,将邻域内的文本实例进行数据增强获取增强文本实例,将增强文本实例和原点文本实例作为实例分类阶段的训练样本;基于实例分类阶段的训练样本进行近邻分类学习,直至预设的分类损失函数达到预设的条件,输出分类文本数据。
7、在本发明一些较佳的实施例中,预设的分类损失函数如下:
8、
9、其中,lstg3为预设的分类损失值,li为中间参数,为实例分类阶段的训练样本中与原点文本实例成正相关的正样例集,为实例分类阶段的训练样本中与原点文本实例成负相关的负样例集,为正相关样例数,h为嵌入向量,为增强文本实例的嵌入向量,i为预设的分类个数,j为实例分类阶段的训练样本中与原点文本实例成正相关的正样例,k为实例分类阶段的训练样本中与原点文本实例成负相关的负样例,τ为温度参数,sim()为相似度函数。
10、在本发明一些较佳的实施例中,文本聚类模型的训练过程还包括:文本聚类阶段;文本聚类阶段包括下述步骤:选取与预先设置的分类簇值相等数量的聚类中心;计算分类文本数据中的各个样本与聚类中心的距离;将分类文本数据中的各个样本按照聚类中心归为与预先设置的分类簇值相等数量的文本聚类簇;计算各个簇中多个样本的中心向量,将中心向量确定为新的聚类中心,直至满足预设的条件,输出聚类完成的文本聚类簇。
11、第二方面,本发明提供了一种文本处理装置,包括:文本数据获取模块,用于获取待识别文本数据;其中,待识别文本数据包括多条话语文本;文本聚类簇输出模块,用于将待识别文本数据和预先设置的分类簇值输入预先训练完成的文本聚类模型中,输出与预先设置的分类簇值相等数量的文本聚类簇;其中,文本聚类模型的训练过程包括多任务预训练阶段和实例分类阶段;在多任务预训练阶段输出的文本实例中选取预设的分类个数的原点文本实例,基于多任务预训练阶段输出的文本实例中多个文本实例与原点文本实例的距离,将多任务预训练阶段输出的文本实例分为对应预设的分类个数的邻域,将邻域内的文本实例进行数据增强获取增强文本实例,将增强文本实例和原点文本实例作为实例分类阶段的训练样本。
12、第三方面,本发明提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述的文本处理方法。
13、第四方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述的文本处理方法。
14、本发明带来了以下有益效果:
15、本发明提供了一种文本处理方法、装置、电子设备和计算机可读存储介质,该方法包括:获取待识别文本数据;其中,待识别文本数据包括多条话语文本;将待识别文本数据和预先设置的分类簇值输入预先训练完成的文本聚类模型中,输出与预先设置的分类簇值相等数量的文本聚类簇;其中,文本聚类模型的训练过程包括多任务预训练阶段和实例分类阶段;在多任务预训练阶段输出的文本实例中选取预设的分类个数的原点文本实例,基于多任务预训练阶段输出的文本实例中多个文本实例与原点文本实例的距离,将多任务预训练阶段输出的文本实例分为对应预设的分类个数的邻域,将邻域内的文本实例进行数据增强获取增强文本实例,将增强文本实例和原点文本实例作为实例分类阶段的训练样本;通过数据增强方法扩大了实例分类阶段的输入样本,并将原实例也作为输入样本,提高了文本向量表示的准确率,也增强了模型的学习能力和泛化能力,提高了文本意图识别特别是未知意图识别的准确度。
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的文本处理方法,其特征在于,所述文本聚类模型通过下述方法训练:
3.根据权利要求2所述的文本处理方法,其特征在于,所述多任务预训练阶段通过下述损失函数约束所述多任务预训练阶段的第一损失值:
4.根据权利要求3所述的文本处理方法,其特征在于,所述多任务预训练阶段还通过下述损失函数约束所述多任务预训练阶段的第二损失值:
5.根据权利要求2所述的文本处理方法,其特征在于,所述实例分类阶段包括下述步骤:
6.根据权利要求5所述的文本处理方法,其特征在于,所述预设的分类损失函数如下:
7.根据权利要求5所述的文本处理方法,其特征在于,所述文本聚类模型的训练过程还包括:文本聚类阶段;所述文本聚类阶段包括下述步骤:
8.一种文本处理装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述权利要求1至7任一项所述的文本处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的文本处理方法。