基于文本指导的层级跨模态情感分析方法及相关装置

    技术2025-12-10  4


    本发明涉及深度学习,尤其涉及一种基于文本指导的层级跨模态情感分析方法及相关装置。


    背景技术:

    1、情绪作为个体对某一特定话题、人或事物产生的情感体验和反应,是人类心理活动中不可或缺的部分。情绪体验往往受到内在或外在刺激的影响,可以包括从基本的快乐、悲伤、愤怒、恐惧演变到更为复杂的情感变化。这些情绪不仅影响我们的日常生活,也在社交互动、职业发展、健康状况等方面扮演着至关重要的角色。在心理学和计算机科学的交叉领域中,情绪分析成为一个热门的研究主题。尤其是随着数字技术的发展,如文本、音频和视频等多模态数据的广泛应用,多模态情感分析逐渐受到关注。多模态情感分析在多个领域中有着广泛的应用,例如人机交互、社交媒体分析和系统推荐等。在人机交互领域中,多模态情感分析可以用于创建更加智能的交互方式,从语音、文字、表情等多个维度对用户情感进行分析,以提供更加个性化的服务。在社交媒体分析领域,多模态情感分析可以对论坛、小红书、抖音等社交平台上的文本、图片和视频进行分析,从而了解用户对某一事件或产品的情感态度。在系统推荐中,多模态情感分析可以通过对用户的历史行为、偏好和反馈进行分析,从而为用户提供更加精准的个性化推荐服务。例如在电商平台上,该技术可以根据用户的购买记录和评价,推荐其可能感兴趣的商品。

    2、多模态情感分析不仅要考虑不同模态数据的结合,还需关注各模态之间信息的一致性和差异性。早期的情感分析主要集中在文本数据的处理上,通过自然语言处理技术来分析和识别情感内容。然而,随着技术的进步,多模态数据的综合分析成了一个重要的研究方向。视频数据能够捕捉到人们的面部表情和身体语言,面部表情和身体语言也可以成为情绪表达的一种;而音频数据则反映出人们因情绪变化而产生的声音特征,声调高,也许当时那个人处于愤怒;声音震动,也许说明当时那个人处于害怕情况;文本数据能够直接强烈地表达人们的情绪意愿。有效地整合这些多模态数据是情感分析研究的一大挑战,近年来,研究者们提出了各种融合策略,以提高情感分析的准确性和鲁棒性,但是模态之间的重要信息提取和模态产生的噪声对另一模态信息影响,以及跨模态交互期间重要信息存在丢失现象一直没有得到很好的解决方案。

    3、因此,现有的多模态情感分析存在模态之间信息交互不足、噪声干扰及信息丢失等问题,进而导致多模态情感分析的可靠性较差。


    技术实现思路

    1、本发明提供了一种基于文本指导的层级跨模态情感分析方法及相关装置,用于解决现有的多模态情感分析的可靠性较差的技术问题。

    2、本发明提供的一种基于文本指导的层级跨模态情感分析方法,所述方法包括:

    3、获取多模态数据,分别对各模态数据进行预处理,得到各模态的初始特征,并将所有模态的初始特征投影至同一维度上;多模态包括文本模态、视频模态和音频模态;

    4、将各模态的初始特征分别输入至对应的单模态编码器中进行编码处理,得到各模态的二级特征,并基于各模态的二级特征构建掩码矩阵,通过所述掩码矩阵反馈调整各模态的二级特征的权重值,输出各模态的三级特征;

    5、将各模态的三级特征依次输入至对应的transformer模型中进行自注意力运算,并映射到同一低维空间中,得到各模态的初始层级特征向量;

    6、对文本模态的初始层级特征向量进行多次自注意力运算,得到文本模态的不同层级特征向量,以文本模态的不同层级特征向量提供查询向量并结合非文本模态的初始层级特征向量执行多次超模态注意力任务,输出各模态的目标特征向量;

    7、将所有模态的目标特征向量进行跨模态融合,生成情感分析结果。

    8、进一步的,所述分别对各模态数据进行预处理,得到各模态的初始特征,并将所有模态的初始特征投影至同一维度上的步骤,包括:

    9、通过facs编码系统对所述视频模态的数据进行预处理,得到视频模态的初始特征;

    10、通过bert模型对所述文本模态的数据进行预处理,得到文本模态的初始特征;

    11、通过covarep提取库对所述音频模态的数据进行预处理,得到音频模态的初始特征;

    12、通过一维时间卷积层将所述视频模态的初始特征、所述文本模态的初始特征和所述音频模态的初始特征投影至同一维度上。

    13、进一步的,所述将各模态的初始特征分别输入至对应的单模态编码器中进行编码处理,得到各模态的二级特征,并基于各模态的二级特征构建掩码矩阵,通过所述掩码矩阵反馈调整各模态的二级特征的权重值,输出各模态的三级特征的步骤,包括:

    14、将各模态的初始特征输入至对应的lstm编码器中进行编码,将lstm编码器的最后一层的输出作为对应模态的隐藏状态;

    15、将各模态的隐藏状态输入至对应的transformer模型中进行注意力计算,得到用于表征各模态的上下文信息的二级特征;

    16、基于各模态的二级特征构建掩码矩阵,通过所述掩码矩阵反馈调整各模态的二级特征的权重值,输出各模态的三级特征。

    17、进一步的,所述基于各模态的二级特征构建掩码矩阵,通过所述掩码矩阵反馈调整各模态的二级特征的权重值,输出各模态的三级特征的步骤,包括:

    18、归一化各模态的二级特征,并基于归一化后的各模态的二级特征构建掩码矩阵;

    19、基于所述掩码矩阵的任意两个模态的掩码值,计算其他模态的反馈掩码;各模态的反馈掩码用于调整各模态的二级特征的权重值;

    20、通过各模态的反馈掩码和二级特征进行点积运算,得到各模态的三级特征。

    21、进一步的,各模态的掩码值的计算方式为:

    22、

    23、式中:表示k模态的掩码值,l、a和v分别表示文本模态、音频模态和视频模态,表示k模态的二级特征;

    24、各模态的反馈掩码的计算方式为:

    25、

    26、式中:表示j模态的反馈掩码;

    27、各模态的三级特征的计算方式为:

    28、

    29、式中:表示j模态的三级特征,表示j模态的二级特征。

    30、进一步的,所述对文本模态的初始层级特征向量进行多次自注意力运算,得到文本模态的不同层级特征向量,以文本模态的不同层级特征向量提供查询向量并结合非文本模态的初始层级特征向量执行多次超模态注意力任务,输出各模态的目标特征向量的步骤,包括:

    31、将文本模态的初始层级特征向量输入至transformer模型中进行两次自注意力运算,得到文本模态的二层级特征向量和三层级特征向量;

    32、初始化非文本模态的超模态特征,按照层级以文本模态的不同层级特征向量提供查询向量并结合非文本模态的初始层级特征向量执行多次超模态注意力任务,以更新非文本模态的超模态特征;

    33、将文本模态的不同层级特征向量进行累加运算,得到文本模态的目标特征向量;分别将视频模态和音频模态关联的所有超模态特征进行累加运算,得到视频模态和音频模态对应的目标特征向量。

    34、进一步的,所述初始化非文本模态的超模态特征,按照层级以文本模态的不同层级特征向量提供查询向量并结合非文本模态的初始层级特征向量执行多次超模态注意力任务,以更新非文本模态的超模态特征的步骤,包括:

    35、初始化视频模态的超模态特征和音频模态的超模态特征;

    36、按照层级依次以文本模态的不同层级特征向量提供查询向量并以视频模态的初始层级特征向量作为键向量和值向量执行三次超模态注意力任务,以逐层更新视频模态的超模态特征,得到多个不同层级的视频模态的超模态特征;

    37、按照层级依次以文本模态的不同层级特征向量提供查询向量并以音频模态的初始层级特征向量作为键向量和值向量执行三个超模态注意力任务,以逐层更新音频模态的超模态特征,得到多个不同层级的音频模态的超模态特征。

    38、进一步的,视频模态的超模态特征的更新方式为:

    39、

    40、式中:表示视频模态v和文本模态l经过跨模态注意力机制后的第j+1层级的视频模态的超模态特征,其中j∈{0,1,2};表示文本模态l的第j层级特征向量,表示视频模态v的初始层级特征向量;

    41、音频模态的超模态特征的更新方式为:

    42、

    43、式中:表示音频模态a和文本模态l经过跨模态注意力机制后的第j+1层级的视频模态的超模态特征,其中j∈{0,1,2};表示文本模态l的第j层级特征向量,表示视频模态v的初始层级特征向量。

    44、本发明还提供了一种基于文本指导的层级跨模态情感信息融合装置,所述装置包括:

    45、初始特征获取模块,用于获取多模态数据,分别对各模态数据进行预处理,得到各模态的初始特征,并将所有模态的初始特征投影至同一维度上;多模态包括视频模态、文本模态和音频模态;

    46、三级特征输出模块,用于将各模态的初始特征分别输入至对应的单模态编码器中进行编码处理,得到各模态的二级特征,并基于各模态的二级特征构建掩码矩阵,通过所述掩码矩阵反馈调整各模态的二级特征的权重值,输出各模态的三级特征;

    47、初始层级特征向量生成模块,用于将各模态的三级特征依次输入至对应的transformer模型中进行自注意力运算,并映射到同一低维空间中,得到各模态的初始层级特征向量;

    48、目标特征向量生成模块,用于对文本模态的初始层级特征向量进行多次自注意力运算,得到文本模态的不同层级特征向量,以文本模态的不同层级特征向量提供查询向量并结合非文本模态的初始层级特征向量执行多次超模态注意力任务,输出各模态的目标特征向量;

    49、情感分析结果生成模块,用于将所有模态的目标特征向量进行跨模态融合,生成情感分析结果。

    50、本发明还提供了一种基于文本指导的层级跨模态情感信息融合设备,所述设备包括处理器以及存储器:

    51、所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

    52、所述处理器用于根据所述程序代码中的指令执行权利要求1-8任一项所述的层级跨模态情感分析方法。

    53、从以上技术方案可以看出,本发明具有以下优点:

    54、本发明提供了一种基于文本指导的层级跨模态情感分析方法及相关装置,其中方法包括:获取多模态数据,分别对各模态数据进行预处理,得到各模态的初始特征,并将所有模态的初始特征投影至同一维度上;多模态包括文本模态、视频模态和音频模态;将各模态的初始特征分别输入至对应的单模态编码器中进行编码处理,得到各模态的二级特征,并基于各模态的二级特征构建掩码矩阵,通过掩码矩阵反馈调整各模态的二级特征的权重值,输出各模态的三级特征;将各模态的三级特征依次输入至对应的transformer模型中进行自注意力运算,并映射到同一低维空间中,得到各模态的初始层级特征向量;对文本模态的初始层级特征向量进行多次自注意力运算,得到文本模态的不同层级特征向量,以文本模态的不同层级特征向量提供查询向量并结合非文本模态的初始层级特征向量执行多次超模态注意力任务,输出各模态的目标特征向量;将所有模态的目标特征向量进行跨模态融合,生成情感分析结果。

    55、在本发明中,通过掩码矩阵来捕捉不同模态之间的差异和一致性,从而调整每个模态特征的贡献,避免信息丢失,以优化后续的融合过程;对文本模态的特征进行多次自注意力机制处理,然后分别将每次处理后的文本模态的特征与音频模态和视频模态进行交叉注意力以执行超模态注意力任务,并结合transformer自注意力机制有效整合多模态的信息,能有效地促进多模态信息间的交互且减少模态之间的噪声干扰,增强情感分析的分类性能,从而提高情感强度的准确性,提高多模态情感分析的可靠性,进而解决了现有的多模态情感分析存在模态之间信息交互不足、噪声干扰及信息丢失等问题,进而解决多模态情感分析的可靠性较差的技术问题。


    技术特征:

    1.一种基于文本指导的层级跨模态情感分析方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的层级跨模态情感分析方法,其特征在于,所述分别对各模态数据进行预处理,得到各模态的初始特征,并将所有模态的初始特征投影至同一维度上的步骤,包括:

    3.根据权利要求1所述的层级跨模态情感分析方法,其特征在于,所述将各模态的初始特征分别输入至对应的单模态编码器中进行编码处理,得到各模态的二级特征,并基于各模态的二级特征构建掩码矩阵,通过所述掩码矩阵反馈调整各模态的二级特征的权重值,输出各模态的三级特征的步骤,包括:

    4.根据权利要求3所述的层级跨模态情感分析方法,其特征在于,所述基于各模态的二级特征构建掩码矩阵,通过所述掩码矩阵反馈调整各模态的二级特征的权重值,输出各模态的三级特征的步骤,包括:

    5.根据权利要求4所述的层级跨模态情感分析方法,其特征在于,

    6.根据权利要求1所述的层级跨模态情感分析方法,其特征在于,所述对文本模态的初始层级特征向量进行多次自注意力运算,得到文本模态的不同层级特征向量,以文本模态的不同层级特征向量提供查询向量并结合非文本模态的初始层级特征向量执行多次超模态注意力任务,输出各模态的目标特征向量的步骤,包括:

    7.根据权利要求6所述的层级跨模态情感分析方法,其特征在于,所述初始化非文本模态的超模态特征,按照层级以文本模态的不同层级特征向量提供查询向量并结合非文本模态的初始层级特征向量执行多次超模态注意力任务,以更新非文本模态的超模态特征的步骤,包括:

    8.根据权利要求6所述的层级跨模态情感分析方法,其特征在于,

    9.一种基于文本指导的层级跨模态情感信息融合装置,其特征在于,所述装置包括:

    10.一种基于文本指导的层级跨模态情感信息融合设备,其特征在于,所述设备包括处理器以及存储器:


    技术总结
    本发明公开了一种基于文本指导的层级跨模态情感分析方法及相关装置。方法包括:通过单模态编码器编码处理各模态,构建掩码矩阵以反馈调整各模态的二级特征的权重值;对文本模态的特征进行多次自注意力运算,得到文本模态的不同层级特征向量并以其提供查询向量,结合非文本模态的特征向量执行多次超模态注意力任务,输出并跨模态融合各模态的目标特征向量,生成情感分析结果。在本发明中,通过掩码矩阵捕捉各模态间的差异和一致性,调整各模态的特征贡献,避免信息丢失;对文本模态的特征进行多次自注意力处理,分别将每次处理后的文本模态与非文本模态进行超模态注意力任务,促进多模态信息交互且减少模态间的噪声干扰,提高情感分析的可靠性。

    技术研发人员:钟婷,冯广,周垣桦,林健忠
    受保护的技术使用者:广东工业大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-37735.html

    最新回复(0)