基于多源领域适应的文本情感分类方法、系统及设备

    技术2025-05-16  32


    本发明涉及计算机,具体是涉及一种基于多源领域适应的文本情感分类方法、系统、设备及存储介质。


    背景技术:

    1、情感分类是自然语言处理领域中的一项重要任务,其目标是从文本数据中识别并分类出人物的情感倾向。在执行情感分类任务时,文本数据需要被转换为向量形式以便于机器的处理和运算,该文本数据通常是拥有大量标记的数据集,这些数据集包含文本及其对应的情感标签(如积极情感、消极情感、中性情感等),最终应用的分类模型需要学习和理解文本中的上下文信息和语义信息以捕捉相应的情感特征。目前已有学者提出在情感分类中引入领域适应,更多的是从单个源域学习情感分类模型再将其泛化到目标域中应用,在遇到多源域问题时通常利用源域合并方式将其简化为单源域问题,但这一简化方式忽略不同源域之间的差异性,可能导致学习到的情感分类模型在目标域中的性能下降,从而使得问题落入次优解。


    技术实现思路

    1、本发明提供一种基于多源领域适应的文本情感分类方法、系统、设备及存储介质,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。

    2、第一方面,提供一种基于多源领域适应的文本情感分类方法,包括:

    3、获取目标域数据集和多个源域数据集,所述目标域数据集包括未携带真实情感分类标签的若干个目标文本序列,每个源域数据集包括携带真实情感分类标签的若干个源文本序列;

    4、获取第一分类损失函数和总损失函数,所述总损失函数包括第二分类损失函数和域对齐损失函数,所述域对齐损失函数用于衡量各个源域的联合概率分布和目标域的联合概率分布之间的对齐差异;

    5、利用所述目标域数据集、所述多个源域数据集和所述第一分类损失函数对预先搭建的文本情感分类模型进行预训练,且在预训练完毕时输出每个目标文本序列对应的伪标签,以对所述目标域数据集进行更新;

    6、利用更新后的目标域数据集、所述多个源域数据集和所述总损失函数对预训练后的文本情感分类模型进行正式训练,且在正式训练完毕时输出每个目标文本序列对应的预测情感分类标签。

    7、进一步地,所述预先搭建的文本情感分类模型包括roberta语言模型和softmax分类器,所述roberta语言模型用于从输入的文本序列中提取出特征向量,所述softmax分类器用于对所述特征向量进行处理得到所述文本序列对应的预测情感分类标签。

    8、进一步地,所述利用所述目标域数据集、所述多个源域数据集和所述第一分类损失函数对预先搭建的文本情感分类模型进行预训练包括:

    9、对所述目标域数据集包含的每个目标文本序列随机设置一个表示情感分类结果的初始伪标签,得到初步更新后的目标域数据集;

    10、利用所述roberta语言模型对所述初步更新后的目标域数据集和所述多个源域数据集进行处理,得到携带初始伪标签的目标域特征向量集和携带真实情感分类标签的多个源域特征向量集;

    11、利用所述目标域特征向量集、所述多个源域特征向量集和所述第一分类损失函数对所述softmax分类器进行训练,在训练过程中对所述softmax分类器的网络参数和每个目标文本序列对应的初始伪标签进行更新。

    12、进一步地,所述第一分类损失函数包括源域损失函数和目标域损失函数,所述源域损失函数用于衡量所述softmax分类器在每次迭代训练中输出的每个源文本序列对应的预测情感分类标签和真实情感分类标签之间的差异,所述目标域损失函数用于衡量所述softmax分类器在相邻两次迭代训练中输出的每个目标文本序列对应的两个更新后的初始伪标签之间的差异。

    13、进一步地,所述预训练后的文本情感分类模型包括所述roberta语言模型和预训练后的softmax分类器,在正式训练过程中对所述roberta语言模型的网络参数和所述预训练后的softmax分类器的网络参数均进行更新。

    14、进一步地,所述第二分类损失函数用于衡量所述预训练后的文本情感分类模型在每次迭代训练中输出的每个源文本序列对应的预测情感分类标签和真实情感分类标签之间的差异。

    15、进一步地,所述域对齐损失函数的表达式为:

    16、

    17、其中,la为所述域对齐损失函数,n为所述多个源域数据集的数量,d1s为第s个源域数据集反映的对齐差异,d2为所述更新后的目标域数据集反映的对齐差异,ms为第s个源域数据集包含的源文本序列的数量,为第s个源域数据集包含的第i个源文本序列,为所述第i个源文本序列对应的真实情感分类标签,mt为所述更新后的目标域数据集包含的目标文本序列的数量,为所述更新后的目标域数据集包含的第j个目标文本序列,为所述第j个目标文本序列对应的伪标签,θ为所述roberta语言模型在每次迭代训练之后更新得到的权重参数,k为相似性度量函数,δ为条件函数,σ为调控参数,m为联合域数据集包含的文本序列的数量,所述联合域数据集是由所述更新后的目标域数据集和所述多个源域数据集进行合并得到的,xr为所述联合域数据集包含的第r个文本序列,yr为所述第r个文本序列对应的真实情感分类标签或者伪标签。

    18、第二方面,提供一种基于多源领域适应的文本情感分类系统,包括:

    19、第一模块,用于获取目标域数据集和多个源域数据集,所述目标域数据集包括未携带真实情感分类标签的若干个目标文本序列,每个源域数据集包括携带真实情感分类标签的若干个源文本序列;

    20、第二模块,用于获取第一分类损失函数和总损失函数,所述总损失函数包括第二分类损失函数和域对齐损失函数,所述域对齐损失函数用于衡量各个源域的联合概率分布和目标域的联合概率分布之间的对齐差异;

    21、第三模块,用于利用所述目标域数据集、所述多个源域数据集和所述第一分类损失函数对预先搭建的文本情感分类模型进行预训练,且在预训练完毕时输出每个目标文本序列对应的伪标签,以对所述目标域数据集进行更新;

    22、第四模块,用于利用更新后的目标域数据集、所述多个源域数据集和所述总损失函数对预训练后的文本情感分类模型进行正式训练,且在正式训练完毕时输出每个目标文本序列对应的预测情感分类标签。

    23、第三方面,提供一种计算机设备,包括存储器和处理器,所述存储器上存储计算机程序,所述处理器执行所述计算机程序以实现如第一方面所述的基于多源领域适应的文本情感分类方法。

    24、第四方面,提供一种计算机可读存储介质,其上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于多源领域适应的文本情感分类方法。

    25、本发明至少具有以下有益效果:通过对文本情感分类模型中包含的softmax分类器进行两次训练以及对文本情感分类模型中包含的roberta语言模型进行单次训练,并且在roberta语言模型的训练过程中采用直接对齐各个源域的联合概率分布和目标域的联合概率分布这一策略,可以缩小各个源域与目标域之间的分布差异,使得最终训练得到的文本情感分类模型在目标域中具有较好的泛化效果,提高标签分类准确率。


    技术特征:

    1.一种基于多源领域适应的文本情感分类方法,其特征在于,包括:

    2.根据权利要求1所述的基于多源领域适应的文本情感分类方法,其特征在于,所述预先搭建的文本情感分类模型包括roberta语言模型和softmax分类器,所述roberta语言模型用于从输入的文本序列中提取出特征向量,所述softmax分类器用于对所述特征向量进行处理得到所述文本序列对应的预测情感分类标签。

    3.根据权利要求2所述的基于多源领域适应的文本情感分类方法,其特征在于,所述利用所述目标域数据集、所述多个源域数据集和所述第一分类损失函数对预先搭建的文本情感分类模型进行预训练包括:

    4.根据权利要求3所述的基于多源领域适应的文本情感分类方法,其特征在于,所述第一分类损失函数包括源域损失函数和目标域损失函数,所述源域损失函数用于衡量所述softmax分类器在每次迭代训练中输出的每个源文本序列对应的预测情感分类标签和真实情感分类标签之间的差异,所述目标域损失函数用于衡量所述softmax分类器在相邻两次迭代训练中输出的每个目标文本序列对应的两个更新后的初始伪标签之间的差异。

    5.根据权利要求2所述的基于多源领域适应的文本情感分类方法,其特征在于,所述预训练后的文本情感分类模型包括所述roberta语言模型和预训练后的softmax分类器,在正式训练过程中对所述roberta语言模型的网络参数和所述预训练后的softmax分类器的网络参数均进行更新。

    6.根据权利要求5所述的基于多源领域适应的文本情感分类方法,其特征在于,所述第二分类损失函数用于衡量所述预训练后的文本情感分类模型在每次迭代训练中输出的每个源文本序列对应的预测情感分类标签和真实情感分类标签之间的差异。

    7.根据权利要求5所述的基于多源领域适应的文本情感分类方法,其特征在于,所述域对齐损失函数的表达式为:

    8.一种基于多源领域适应的文本情感分类系统,其特征在于,包括:

    9.一种计算机设备,包括存储器和处理器,所述存储器上存储计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如权利要求1至7任一项所述的基于多源领域适应的文本情感分类方法。

    10.一种计算机可读存储介质,其上存储计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于多源领域适应的文本情感分类方法。


    技术总结
    本发明公开一种基于多源领域适应的文本情感分类方法、系统、设备及存储介质,其方法包括:获取未携带真实情感分类标签的目标域数据集以及携带真实情感分类标签的多个源域数据集;获取第一分类损失函数以及考虑到对齐各个源域和目标域的联合概率分布的总损失函数;利用目标域数据集、多个源域数据集和第一分类损失函数对文本情感分类模型进行预训练,随后输出每个目标文本序列对应的伪标签以更新目标域数据集;利用更新后的目标域数据集、多个源域数据集和总损失函数对预训练后的文本情感分类模型进行正式训练,随后输出每个目标文本序列对应的预测情感分类标签。本发明可以缩小各个源域与目标域之间的分布差异,提高模型在目标域中的泛化能力。

    技术研发人员:佟禹,麦旭鹏,陈颖
    受保护的技术使用者:汕头大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-30763.html

    最新回复(0)