一种多粒度相似性增强的篇章级事件论元抽取方法及系统与流程

    技术2025-03-04  35


    本发明属于文本信息抽取领域,具体为一种多粒度相似性增强的篇章级事件论元抽取方法。


    背景技术:

    1、目前,随着互联网和社交媒体的快速发展,大量的非结构化文本数据不断涌现,人们需要准确、高效地从海量文本中获取结构化的事件相关信息,从而进行分析研究,为决策提供支持。此外,许多下游自然语言处理任务也极度依赖结构化的事件信息作为输入,如信息检索、知识图谱构建等。

    2、事件论元抽取任务旨在从非结构化的文本数据中自动识别和提取出描述某一事件的事件论元,并分类它们所扮演的论元角色。这一任务是自然语言处理的一个关键但尚未解决的问题,特别是在处理篇章级文本时更为困难,因为论元会分散到不同的句子当中,而距离触发词较远的事件论元通常因为文本距离的缘故无法很好的被识别出来;除此之外,文档中往往存在很多事件无关但混淆度较高的噪音实体,影响某个论元角色的抽取结果。

    3、针对篇章级事件论元抽取的这些难点,近期有不少技术被提出来解决上述问题。其根据范式不同可以被分为两类:

    4、1、分类范式:这一类技术的底层逻辑是通过对篇章中的实体进行分类来判断其是否为事件论元,并识别对应的论元角色。除此之外,这类技术额外使用了图表示学习方法进行了辅助增强,以此建模远距离论元的长程依赖关系,从而更好的抽取远距离论元,并使模型聚焦于有效实体。具体地说,其借助启发式规则或者外部工具构造整个文档的语义关联图,然后使用图神经网络建模构造的语义关联图得到辅助嵌入表示,最后将辅助嵌入表示融入到文本语义向量中,来增强文本嵌入的长程建模能力。

    5、2、生成范式:生成式语言模型表现出了较强的长文本理解能力,其可以较好理解整个文档中包含的语义关联信息。生成范式的方法利用生成式语言模型的这一优势,将事件论元抽取的底层逻辑转化为文本生成任务,从而缓解远距离论元的抽取和噪音实体的影响。其把需要抽取的事件论元角色转化为自然语言格式的相关模版,连同模版和整个篇章输入给模型,要求其直接端到端的递归生成每个事件论元角色对应的论元实体。

    6、尽管如此,这些方法在抽取远距离论元时仍然效果不佳,在rams数据集上的实验结果表明,现有最佳方法在抽取与触发词同句子的论元时,可以达到53.9%的f1值,但对于其他句子的论元只能达到10.7%~24.5%的结果。另外,现有方法仍然无法摆脱同类型噪音实体的影响,将一些语义较相近的实体识别错误。

    7、由于现有的篇章级事件论元方法仍然受困于上述难题,如何帮助篇章级事件论元抽取方法建模长程依赖并缓解噪音的影响成为了亟待解决的问题,因此本发明为篇章级事件论元抽取任务设计了辅助模块,提出了一种多粒度相似性增强的篇章级事件论元抽取方法。


    技术实现思路

    1、为了克服现有的篇章级事件论元抽取模型对于远距离论元和噪音实体的建模力度的不足,本发明提供一种从段落粒度和句子粒度分别基于相似性增强的篇章级事件论元抽取方法。

    2、本发明解决其技术问题所采用的技术方案是:

    3、一种多粒度相似性增强的篇章级事件论元抽取方法,包括以下步骤:

    4、将文档使用预训练语言模型bert进行编码,获取文档中每个单词的嵌入表示;

    5、基于文档构建异构图,该异构图包含句子节点和段落节点,句子节点表示句子,段落节点表示段落中的触发词和事件论元,该异构图的边表示句子、段落、触发词和事件论元之间的关系;

    6、计算句子和段落中单词的嵌入表示,初始化句子节点和段落节点的表示;

    7、通过多层图卷积网络进行多层信息传播和节点表示更新,并使用前馈神经网络得到节点的嵌入表示;

    8、将节点的嵌入表示输入到训练好的多粒度相似性增强模型中,识别抽取文档的事件论元;

    9、该多粒度相似性增强模型的训练步骤包括:

    10、以事件论元作为正样本,以随机采样的段落作为负样本,基于正、负样本的嵌入,通过对比学习拉近触发词和正样本的事件论元的距离,推远触发词与负样本的距离;

    11、将包含事件论元的句子作为正样本,将不包含触发词和事件论元的句子作为负样本,基于正、负样本的嵌入,使用排序损失使正样本的嵌入表示相似度高于负样本。

    12、进一步地,对文档进行编码的步骤包括:

    13、将文档中的所有句子串联成初始单词序列;

    14、在该序列中的事件触发词的前后添加标识,得到完整的单词序列;

    15、将完整的单词序列输入到预训练语言模型进行编码。

    16、进一步地,异构图包括以下三类边:

    17、句子-句子边,连接每个句子节点与触发词所在的句子节点;

    18、段落-句子边,连接每个段落节点与对应的句子节点;

    19、段落-段落边,连接每个论元节点和触发词节点。

    20、进一步地,使用句子中的单词嵌入表示进行最大池化操作,初始化句子节点的表示。

    21、进一步地,使用段落中触发词或事件论元的单词嵌入表示进行最大池化操作,初始化段落节点的表示。

    22、进一步地,通过多层图卷积网络进行多层信息传播和节点表示更新的式子为:

    23、

    24、其中,l是多层图卷积网络gcn的层数,是第i个节点在第l层的卷积嵌入表示,则是该节点的全部邻居节点。

    25、进一步地,训练时,两种正样本的嵌入都是通过多层图卷积网络和多层图卷积网络得到,两种负样本的嵌入都是通过预训练语言模型bert编码得到。

    26、进一步地,对比学习产生的对比损失lc为:

    27、

    28、其中,sim表示余弦相似度,vi表示正样本嵌入,ta表示正样本嵌入集合,hj表示负样本嵌入,tr表示负样本嵌入集合,vt表示触发词的卷积嵌入表示,τ表示对比损失的超参数。

    29、进一步地,排比损失lr为:

    30、

    31、其中,sim表示余弦相似度,表示正样本嵌入,tp表示正样本嵌入集合,表示负样本嵌入,tn表示负样本嵌入集合,是触发词所在句子的异构图嵌入向量表示,m是排序损失的超参数。

    32、一种多粒度相似性增强的篇章级事件论元抽取系统,包括:

    33、篇章文本编码模块,用于通过预训练语言模型bert对输入的文档进行编码,获取文档中每个单词的嵌入表示;

    34、异构图融合模块,用于构建文档的异构图,该异构图包含句子节点和段落节点,句子节点表示句子,段落节点表示段落中的触发词和事件论元,该异构图的边表示句子、段落、触发词和事件论元之间的关系;计算句子和段落中单词的嵌入表示,初始化句子节点和段落节点的表示;通过多层图卷积网络进行多层信息传播和节点表示更新,并使用前馈神经网络得到节点的嵌入表示;

    35、多粒度相似性增强模块,基于对比学习和排序损失训练完成后,用于识别抽取文档中事件论元;其中,基于对比学习的训练步骤包括:以事件论元作为正样本,以随机采样的段落作为负样本,基于正、负样本的嵌入,通过对比学习拉近触发词和正样本的事件论元的距离,推远触发词与负样本的距离;基于排序损失的训练步骤包括:将包含事件论元的句子作为正样本,将不包含触发词和事件论元的句子作为负样本,基于正、负样本的嵌入,使用排序损失使正样本的嵌入表示相似度高于负样本。

    36、与现有技术相比,本发明具有以下优点:

    37、1)本发明通过引入不同粒度的相似性增强,能够更准确地抽取远距离事件论元,有效解决远距离论元抽取难题。

    38、2)本发明通过段落粒度的对比增强和句子粒度的排序增强设计,能够缓解噪音实体对抽取结果的影响,提升了事件论元抽取的准确性。

    39、3)本发明在提高事件论元抽取任务性能的同时,在推理过程中没有引入额外的模块,保持了高效的推理过程,不影响整体的运行效率。

    40、4)本发明针对篇章级事件论元抽取的主要难题,提供了一种创新且有效的解决方案,显著改善了对复杂文本中事件论元的识别能力。


    技术特征:

    1.一种多粒度相似性增强的篇章级事件论元抽取方法,其特征在于,包括以下步骤:

    2.如权利要求1所述的方法,其特征在于,对文档进行编码的步骤包括:

    3.如权利要求1所述的方法,其特征在于,异构图包括以下三类边:

    4.如权利要求1所述的方法,其特征在于,使用句子中的单词嵌入表示进行最大池化操作,初始化句子节点的表示。

    5.如权利要求1所述的方法,其特征在于,使用段落中触发词或事件论元的单词嵌入表示进行最大池化操作,初始化段落节点的表示。

    6.如权利要求1所述的方法,其特征在于,通过多层图卷积网络进行多层信息传播和节点表示更新的式子为:

    7.如权利要求1所述的方法,其特征在于,训练时,两种正样本的嵌入都是通过多层图卷积网络和多层图卷积网络得到,两种负样本的嵌入都是通过预训练语言模型bert编码得到。

    8.如权利要求1所述的方法,其特征在于,对比学习产生的对比损失lc为:

    9.如权利要求1所述的方法,其特征在于,排比损失lr为:

    10.一种多粒度相似性增强的篇章级事件论元抽取系统,其特征在于,包括:


    技术总结
    本发明公开了一种多粒度相似性增强的篇章级事件论元抽取方法及系统,属于文本信息抽取领域。本发明首先将文档输入预训练语言模型编码,得到高维度嵌入表示;然后构建包含句子和段落节点的异构图,通过图神经网络融合全局语义信息;最后,通过对比学习和排序损失增强段落和句子粒度的相似性。本发明解决了远距离事件论元抽取的难题,并有效缓解了噪音实体对抽取结果的干扰,提高了抽取的准确性和鲁棒性。

    技术研发人员:王元杰,柳毅,赵淳璐,潘进,骆奕霖,李紫微,姚晓,辛永辉
    受保护的技术使用者:国家计算机网络与信息安全管理中心
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-27245.html

    最新回复(0)