本发明涉及情感分类,更具体地,涉及一种无监督领域自适应的情感分类方法、装置及介质。
背景技术:
1、基于适配器的无监督域适应方法(unsupervised domain adaptation methodusing adapters,udapter)基于适配器提出两种改进方法来提升域适应能力,一种方法是两阶段适配器(two-step domain and task adapters,tsdta),一种方法是联结领域任务适配器(joint domain task adapters,jdta)。tsdta首先添加一个领域适配器来学习域对齐信息,然后再在这个领域适配器上堆叠一个任务适配器来使用域对齐信息来学习源域的任务表示,最后用来进行域适应。jdta这个方法只添加一个适配器来同时学习域对齐知识和源域任务表示。
2、两阶段适配器是一种用于领域适应的训练过程,它特别适用于那些拥有大量标记数据源域和可能没有标记数据希望模型进行泛化的目标域之间存在显著差异的情况。这个过程分为两个主要步骤:领域适配器(domain adapter)的训练和任务适配器(taskadapter)的训练。作者首先利用源域和目标域的无监督数据训练领域适配器。领域适配器的目的是学习如何将源域的数据表示转换为对目标域更具泛化能力的表示。训练完成后,保存领域适配器的权重。这一步骤确保了所学习的领域不变特征可以被保留下来,用于后续步骤。接下来,在领域适配器的基础上堆叠任务适配器。任务适配器专注于源域的监督数据,学习如何根据领域适配器提供的特征执行特定任务。在训练任务适配器时,领域适配器是冻结的(即其权重不会更新),这样可以确保领域适配器学到的领域不变特征不会在任务学习过程中被破坏。在实际应用(推理)中,将领域适配器和任务适配器堆叠起来。这样做可以确保输入数据首先通过领域适配器进行处理,学习到领域不变的特征,然后这些特征被送入任务适配器来做出最终预测。
3、联结领域任务适配器是一种集成的域适应方法,它旨在通过一个适配器同时学习任务相关的表征和减少源域和目标域之间的分布差异。训练过程中,联结领域任务适配器采用一个联合损失函数,这个损失函数由两部分组成:任务损失和领域散度损失。任务损失专注于源域的监督样本,以提高任务性能;而领域散度损失则试图减少源域和目标域之间的分布差异。联结领域任务适配器的重点是将源域的有监督样本(即标有正确标签的样本)和目标域的无监督样本(没有标签的样本)的表示映射到一个共同的特征空间中,在减少两个域之间的分布差异的同时保留对任务有用的信息。
4、现有技术存在两个问题,第一个问题是领域适配器训练的过程中,虽然对齐了源领域和目标领域的领域表示信息,但是对齐的领域表示信息是直接在通用的预训练模型上面直接进行微调的,没有利用到源领域的任务信息,所以对于域适应能力是有影响的。第二个问题是联结领域任务适配器的联结方法过于简单,只是线性的加和,不能有效的动态区分领域不变信息和任务表示信息的重要程度,导致情感分类的准确性有待提高。
技术实现思路
1、提供了本发明以解决现有技术中存在的上述问题。因此,需要一种无监督领域自适应的情感分类方法、装置及介质,以更加有效的利用源领域的任务表示信息增强域适应能力。
2、根据本发明的第一方面,提供了一种无监督领域自适应的情感分类方法,所述方法包括:
3、获取域适应对,所述域适应对包括源域和目标域,所述源域是有数据实例和标签的有监督情感数据,所述目标域是只有实例而没有标签的无监督情感数据;
4、利用源域的实例和标签对任务适配器进行训练得到第一参数;
5、在以第一参数配置的任务适配器上堆叠领域适配器,利用源域和目标域的实例对领域适配器进行训练得到第二参数;
6、通过融合模块将任务适配器和领域适配器的学习成果进行融合,在第一参数和第二参数不变的情况下,利用源域对所述融合模块进行训练,得到第三参数;
7、以第三参数配置的融合模块对以第一参数配置的任务适配器和以第二参数配置的领域适配器进行融合得到预测模型,利用所述预测模型实现情感分类预测。
8、进一步地,所述任务适配器的目标是学习特定任务的表示,计算过程如下所示:
9、tal=wup·(wdown·hl)+rl
10、(1)
11、其中,tal为特定任务的表示,hl为隐层输出,rl为前馈层的输出,wdown∈rh×d为下投影矩阵,将隐层表示投影到更低的维度,wup∈rd×h为上投影矩阵,将激活后的低维特征投影回到更高的维度,其中r表示实数集,d、h表示维度,d<<h。
12、进一步地,在对所述任务适配器进行训练时,仅在情感分类任务上训练时才更新任务适配器的参数,通过如下公式更新任务适配器的参数:
13、
14、其中,φn表示任务适配器的更新参数,dn表示源域数据,有n个源域,θ0表示在训练过程中冻结的预训练模型参数,ln表示最小化损失函数。
15、进一步地,通过如下公式计算领域适配器中新的隐层表示:
16、tal=wup·(wdown·hl)+rl
17、(3)
18、sdal=wup1·(wdown1·tal)+tal
19、(4)
20、其中,tal为特定任务的表示即任务适配器的输出,hl为任务适配器的隐层输出,rl为任务适配器的前馈层的输出,wdown∈rh×d为任务适配器的下投影矩阵,将任务适配器的隐层表示投影到更低的维度,wup∈rd×h为任务适配器的上投影矩阵,将激活后的任务适配器中的低维特征投影回到更高的维度,其中r表示实数集,d、h表示维度,d<<h,wup1为领域适配器的上投影矩阵,wdown1为领域适配器的下投影矩阵,sdal为领域适配器的输出。
21、进一步地,在预训练模型的最后一层接入每层领域适配器的源领域隐层输出和目标领域隐层输出之间度量距离的累积,表示为:
22、
23、其中div{·}表示度量距离函数,表示源领域在l层的领域适配器输出,表示目标领域在l层的领域适配器输出。
24、进一步地,所述融合模块包括每一层l的key、value和query矩阵,分别表示为kl、vl和ql,
25、每个适配器的输出被用作key矩阵和value矩阵的输入,所述适配器包括至少一个所述务适配器和至少一个所述领域适配器,所述适配器的输出计算公式如公式(5)和公式(6)所示:
26、
27、其中,表示领域适配器的输出,表示领域适配器的上投影矩阵,表示领域适配器的上投影矩阵,xl,t表示变压器中加和归一化后的隐层输出,rl表示变压器中加和归一化前的隐层输出,表示任务适配器的输出,表示任务适配器的上投影矩阵,表示表示任务适配器的下投影矩阵;
28、在每一层l和每一个时间步t,query矩阵以预训练模型的输出hl作为输入,key矩阵以各自适配器的输出作为输入,query矩阵与所有key矩阵的点积被传递到一个softmax函数中,计算公式如公式(8)和公式(9)所示:
29、
30、其中,表示领域适配器中各向量运算后经过softmax函数处理的中间结果,表示预训练模型中变压器的隐层输出的转置,表示领域适配器上投影矩阵后的输出,表示任务适配器中各向量运算后经过softmax函数处理的中间结果,表示任务适配器上投影矩阵后的输出;
31、value矩阵以适配器的输出作为输入,通过公式(10)和公式(11)进行矩阵运算:
32、
33、其中,表示领域适配器和适配器融合模块query矩阵进行矩阵运算后的中间结果,表示领域适配器的输出,表示任务适配器和适配器融合模块query矩阵进行矩阵运算后的中间结果,表示任务适配器的输出;
34、通过公式(12)拼接两个适配器的中间结果并得到输出:
35、
36、其中,ol,t表示添加适配器和适配器融合模块后的变压器层输出。
37、根据本发明的第二方面,提供一种无监督领域自适应的情感分类装置,所述装置包括:
38、数据获取模块,被配置为获取域适应对,所述域适应对包括源域和目标域,所述源域是有数据实例和标签的有监督情感数据,所述目标域是只有实例而没有标签的无监督情感数据;
39、第一训练模块,被配置为利用源域的实例和标签对任务适配器进行训练得到第一参数;
40、第二训练模块,被配置为在以第一参数配置的任务适配器上堆叠领域适配器,利用源域和目标域的实例对领域适配器进行训练得到第二参数;
41、第三训练模块,被配置为通过融合模块将任务适配器和领域适配器的学习成果进行融合,在第一参数和第二参数不变的情况下,利用源域对所述融合模块进行训练,得到第三参数;
42、分类预测模块,被配置为以第三参数配置的融合模块对以第一参数配置的任务适配器和以第二参数配置的领域适配器进行融合得到预测模型,利用所述预测模型实现情感分类预测。
43、根据本发明的第三方面,提供一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的方法。
44、本发明至少具有以下有益效果:
45、1、首先训练任务适配器,然后堆叠在任务适配器上进行训练以获得更好的域对齐表示,最后融合堆叠领域适配器和任务适配器进行训练后在目标领域进行域适应。双适配器融合方法通过适配器融合模块解决了动态区分领域不变信息和任务表示信息重要程度的问题,而堆叠领域适配器堆叠在任务适配器上进行训练,学习的域不变信息是基于任务信息的,比基于预训练模型的通用信息在目标领域域适应的时候更加有用。
46、2、一方面使用任务适配器中学习到的任务表示信息,另一方面使用(堆叠)领域适配器中学习到的域不变信息,通过插拔式的适配器来进行抽取,然后再利用适配器融合模块进行双适配器的融合,通过适配器融合模块在源领域上进行有监督的训练,从而在目标领域上更好地进行无监督领域自适应。实验结果表明,本发明能提高多领域情感分类数据集的域适应能力。
1.一种无监督领域自适应的情感分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述任务适配器的目标是学习特定任务的表示,计算过程如下所示:
3.根据权利要求2所述的方法,其特征在于,在对所述任务适配器进行训练时,仅在情感分类任务上训练时才更新任务适配器的参数,通过如下公式更新任务适配器的参数:
4.根据权利要求1所述的方法,其特征在于,通过如下公式计算领域适配器中新的隐层表示:
5.根据权利要求4所述的方法,其特征在于,在预训练模型的最后一层接入每层领域适配器的源领域隐层输出和目标领域隐层输出之间度量距离的累积,表示为:
6.根据权利要求1所述的方法,其特征在于,所述融合模块包括每一层l的key、value和query矩阵,分别表示为kl、vl和ql,
7.一种无监督领域自适应的情感分类装置,其特征在于,所述装置包括:
8.一种存储有指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,执行根据权利要求1至6中任一项所述的方法。