一种基于依存句法增强的文本细粒度情感分析系统

    技术2026-05-06  14


    本发明涉及人工智能及文本情感分析,特别涉及一种基于依存句法增强的文本细粒度情感分析系统。


    背景技术:

    1、情感分析又称为意见挖掘、主观性分析等,就是将主观态度挖掘出来的一个过程。由于在网络上产生的大量数据都是以文本的形式存在的,所以基于文本的情感分析是至关重要的。情感分析已经应用于意见搜索、商业决策、信息预测、情绪管理等各个领域中。文本情感分析是指通过计算机算法对文本数据进行处理,从而识别和提取文本中所蕴含的情感信息。传统的文本情感分析方法通常基于词典或规则,难以处理复杂的自然语言文本。而文本细粒度情感分析则通过将文本分解为更细小的语义单位(如单词或短语),能够更准确地分析文本中的情感信息。现有细粒度情感分析技术主要存在以下两个问题:

    2、对文本的依存句法信息利用不足:现有技术往往基于预训练语言模型进行细粒度的情感分析,更注重于提取文本的语义和上下文序列信息,而忽略了文本的依存句法信息,这可能导致处理复杂文本表达能力不足、对长距离依赖关系建模不充分等问题。

    3、现有技术的分析精度高度依赖于数据领域:现有的细粒度情感分析技术往往采用有监督学习的方式,使模型在大量有标注数据上进行训练,从而达到较好的分析效果。对于这样的在已知的数据领域训练好的细粒度情感分析模型,将其直接应用于新的数据领域往往会导致其性能大幅下降。对于新的数据领域,通过手工标注大量数据来重新训练模型的代价十分昂贵。


    技术实现思路

    1、鉴于上述技术问题,本发明提供至少解决上述部分技术问题的一种基于依存句法增强的文本细粒度情感分析系统,该系统在分析过程中使用了文本的依存句法信息,因此能够获得更为准确的细粒度情感分析结果。该系统在分析过程能够根据新的数据领域调整内部模型的参数,因此能够在无需重新标注数据、无需重新训练的情况下对新的数据领域进行分析。

    2、为实现上述目的,本发明采取的技术方案为:

    3、本发明提供一种基于依存句法增强的文本细粒度情感分析系统,该系统包括:特征提取模块和标签预测模块,其中:

    4、所述特征提取模块包括:文本语义嵌入模块、依存句法分析模块、依存句法嵌入模块以及语义和依存句法信息融合模块,其中:

    5、所述文本语义嵌入模块,使用预训练语言模型对文本的语义信息进行嵌入,获得文本的语义嵌入结果;

    6、所述依存句法分析模块,对文本进行依存句法分析,得到文本的依存分析结果;

    7、所述依存句法嵌入模块,对文本的语义嵌入结果和依存分析结果进行处理,得到文本的依存句法嵌入结果;

    8、所述依存和句法信息融合模块,将文本的语义嵌入结果和依存句法嵌入结果进行信息融合,获得文本的综合嵌入特征;

    9、所述标签预测模块,根据所述文本的综合嵌入特征进行情感标签预测,得到文本细粒度情感分析结果。

    10、优选的,所述文本语义嵌入模块中采用bert预训练模型对文本进行分词、编码和语义特征提取,bert模型包括多个隐层,选择最后一层隐层的输出结果作为输入文本的语义嵌入结果。

    11、优选的,所述依存句法分析模块中采用依存句法分析工具spacy获取文本的依存分析结果,并将所述依存分析结果转换成代表结构信息的邻接矩阵和代表连接关系类型信息的关系类型矩阵。

    12、优选的,所述依存句法嵌入模块中,使用结合边特征嵌入的图注意力网络edgegat对文本的语义嵌入结果和依存分析结果进行处理,处理流程为:

    13、首先对文本的语法连接关系类型进行随机初始化嵌入,将离散的类型序号转换成连续取值的向量;然后使用多层edgegat来提取依存句法信息,在每层的edgegat中,选择中心节点,使用中心节点的所有邻居节点和邻居边的特征来计算注意力分数,然后对注意力分数归一化,最后采用加权求和的方式更新中心节点的特征,获得每层的依存句法嵌入结果;

    14、获得每层的依存句法嵌入结果后,采用加权求和的方式获取最终的依存句法嵌入结果。

    15、优选的,所述依存和句法信息融合模块中,使用基于方面项和意见术语的双注意力机制交叉融合语义和依存句法信息,获得文本的综合嵌入特征。

    16、优选的,所述标签预测模块由全连接层和归一化函数组成,在训练阶段根据预测结果和真实标签计算交叉熵损失函数,并使用基于梯度下降的优化算法更新参数;在情感分析时,直接使用预测的情感标签作为最终细粒度情感分析结果。

    17、优选的,由所述特征提取模块和所述标签预测模块组成学生模型以及教师模型;并在该系统中增加领域判别模块;其中:

    18、所述学生模型与所述教师模型结构相同,但两者参数不同;所述学生模型用于预测源领域有标签数据的情感标签结果;所述教师模型用于预测目标领域无标签数据的情感标签结果;

    19、所述领域判别模块用于根据领域分类结果进行领域对抗训练,包括:领域分类层、特征聚合层和梯度反转层;其中,所述领域分类层用于判断输入的文本数据来自于源领域数据集还是目标领域数据集;所述特征聚合层使用注意力机制将文本序列的每个词的特征向量聚合成代表输入文本序列整体的特征向量;所述梯度反转层用于将反向传播过程中来自领域分类损失的梯度方向自动取反,在前向传播过程中实现恒等变换。

    20、优选的,对于目标领域无标签数据,同时使用学生模型和教师模型预测情感标签结果,最后对两个预测结果计算一致性正则化来约束学生模型和教师模型参数的更新。

    21、优选的,训练时,所述教师模型使用学生模型参数的指数移动平均更新参数。

    22、与现有技术相比,本发明的技术方案至少具有如下有益技术效果:

    23、1.本发明提供了一种基于依存句法增强的文本细粒度情感分析系统,该系统在分析过程中使用了文本的依存句法信息,能够获得更为准确的细粒度情感分析结果。

    24、2.本发明提供了一种基于依存句法增强的文本细粒度情感分析系统,该系统使用领域对抗训练策略和基于平均教师的半监督学习方法,通过已知数据领域的有标注数据进行领域自适应训练,在分析过程能够根据新的数据领域调整内部模型的参数,因此能够在无需重新标注数据、无需重新训练的情况下对新的数据领域进行分析。

    25、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

    26、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。



    技术特征:

    1.一种基于依存句法增强的文本细粒度情感分析系统,其特征在于,该系统包括:特征提取模块和标签预测模块,其中:

    2.根据权利要求1所述的一种基于依存句法增强的文本细粒度情感分析系统,其特征在于,所述文本语义嵌入模块中采用bert预训练模型对文本进行分词、编码和语义特征提取,bert模型包括多个隐层,选择最后一层隐层的输出结果作为输入文本的语义嵌入结果。

    3.根据权利要求1所述的一种基于依存句法增强的文本细粒度情感分析系统,其特征在于,所述依存句法分析模块中采用依存句法分析工具spacy获取文本的依存分析结果,并将所述依存分析结果转换成代表结构信息的邻接矩阵和代表连接关系类型信息的关系类型矩阵。

    4.根据权利要求3所述的一种基于依存句法增强的文本细粒度情感分析系统,其特征在于,所述依存句法嵌入模块中,使用结合边特征嵌入的图注意力网络edgegat对文本的语义嵌入结果和依存分析结果进行处理,处理流程为:

    5.根据权利要求1所述的一种基于依存句法增强的文本细粒度情感分析系统,其特征在于,所述依存和句法信息融合模块中,使用基于方面项和意见术语的双注意力机制交叉融合语义和依存句法信息,获得文本的综合嵌入特征。

    6.根据权利要求1所述的一种基于依存句法增强的文本细粒度情感分析系统,其特征在于,所述标签预测模块由全连接层和归一化函数组成,在训练阶段根据预测结果和真实标签计算交叉熵损失函数,并使用基于梯度下降的优化算法更新参数;在情感分析时,直接使用预测的情感标签作为最终细粒度情感分析结果。

    7.根据权利要求1所述的一种基于依存句法增强的文本细粒度情感分析系统,其特征在于,由所述特征提取模块和所述标签预测模块组成学生模型以及教师模型;并在该系统中增加领域判别模块;其中:

    8.根据权利要求7所述的一种基于依存句法增强的文本细粒度情感分析系统,其特征在于,对于目标领域无标签数据,同时使用学生模型和教师模型预测情感标签结果,最后对两个预测结果计算一致性正则化来约束学生模型和教师模型参数的更新。

    9.根据权利要求7所述的一种基于依存句法增强的文本细粒度情感分析系统,其特征在于,训练时,所述教师模型使用学生模型参数的指数移动平均更新参数。


    技术总结
    本发明公开了一种基于依存句法增强的文本细粒度情感分析系统,该系统包括:特征提取模块和标签预测模块,其中:特征提取模块提取包含文本语义信息和依存句法信息的深层嵌入特征;标签预测模块根据文本的深层嵌入特征进行情感标签预测,以得到细粒度情感分析结果;还可由特征提取模块和标签预测模块组成学生模型以及教师模型,二者结构相同,参数不同,学生模型用于预测源领域有标签数据的情感标签结果,教师模型用于预测目标领域无标签数据的情感标签结果;并在系统中增加领域判别模块,根据领域分类结果进行领域对抗训练。该系统能够获得更为准确的细粒度情感分析结果;能够在无需重新标注数据、无需重新训练的情况下对新的数据领域进行分析。

    技术研发人员:冯逸骏,李长江,李牧
    受保护的技术使用者:北京航空航天大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-42382.html

    最新回复(0)