一种面向耕地保护的长文本事件抽取方法

    技术2024-11-02  53


    本技术属于自然语言处理,尤其涉及一种面向耕地保护的长文本事件抽取方法。


    背景技术:

    1、数据驱动的深度学习技术虽然在许多遥感研究中取得显著效果,但在涉及复杂遥感场景推理时适用性有限。为了解决上述问题,知识模型与深度学习的耦合是解决地表复杂场景建模的有效手段。因此,耦合先验知识的遥感智能解译方法是当前耕地监测的重要研究趋势。故耕地保护先验知识的抽取显得尤为重要。

    2、依据自然语言处理理论,事件抽取是实现上述先验知识抽取的主流方法。具体而言,事件抽取(ee,event extraction)的目的是依据预先定义好的事件模式,从非结构化或半结构化文本中抽取出满足事件模式的事件信息,如触发词与事件论元实体(包含时间、人物、地点等),并以结构化的形式表示。事件抽取多以基于深度学习的方法为主,如经典的bert(bert是一种语言表示模型)与条件随机场(conditional random fields,简称 crf)组合的事件抽取模型。这些基于深度学习的事件抽取方法往往需要特定领域数据集进行模型训练,以满足某一领域的需求。因此,对于特定领域事件抽取,构建领域数据集是实现领域事件抽取的首要任务。然而,与其它领域数据相比,耕地保护事件文本同时包含多个时间与空间信息,具备类型多样的主客体论元,且缺乏对应的标注数据集,导致其它领域的事件抽取数据集与事件抽取方法难以直接迁移到耕地保护领域。同时,耕地保护领域数据集存在数据样本稀少、数据分布不平衡等低资源现象,常规基于bert等预训练的事件抽取方法在低资源场景下效果不佳,已有低资源事件抽取方法未充分考虑先验知识及词性等特征。同时,大多面向长文本的事件抽取方法存在特征缺失等问题。在人工智能技术驱动的自然语言处理工具chatgpt(chat generative pre-trained transformer)的冲击下,大语言模型(llm,large language model)成为当今自然语言处理(nlp,natural languageprocessing)领域研究的一个热点,进而诞生了glm、gpt-4、llama-2等llm基座模型。llm具有强大的自然语言理解能力、文本生成能力和涌现能力,因此也被用于事件抽取方面的探索。由于大语言模型的输入长度相较于bert等预训练模型具有显著优势,然而,直接借助大语言模型进行事件抽取精度不高,大语言模型的领域微调需要消耗大量资源。针对上述问题,提示学习被广泛应用于长文本的事件抽取,提示学习(prompt learning)框架是预训练语言模型领域最近几年出现的新范式:prompt learning范式让下游任务适应预训练语言模型,与使用bert预训练模型,通过微调去适应下游任务的方式相比,prompt learning框架不依赖于特定任务的训练数据,适应多种nlp任务和低资源场景。然而,现有针对长文本的事件抽取方法并未充分考虑先验知识,在编码时也未充分考虑词性等特征,造成耕地保护领域的长文本事件抽取精度低。


    技术实现思路

    1、本技术实施例提供了一种面向耕地保护的长文本事件抽取方法,可以解决耕地保护领域的长文本事件抽取精度低的问题。

    2、本技术实施例提供了一种面向耕地保护的长文本事件抽取方法,包括:

    3、对耕地保护领域的待抽取长文本进行分块处理,使用jieba库获得分块后每个句子的词性表示,将词性表示向量化后得到第一词性特征,并利用训练后的bert模型对分块得到的每个句子进行编码,得到每个句子的第一嵌入向量;

    4、利用卷积神经网络对每个第一嵌入向量进行句子级特征提取,得到每个第一嵌入向量的第一句子特征;

    5、根据待抽取长文本对应的所有第一词性特征、第一嵌入向量、每个第一嵌入向量的第一句子特征,确定待抽取长文本的事件触发词和实体;

    6、根据事件触发词、实体和每个第一嵌入向量的第一句子特征,确定待抽取长文本的事件类型;事件类型为耕地变化事件、恢复事件、发现事件中的一种或多种;

    7、从预先获得的耕地保护领域的事件抽取数据集中确定出与待抽取长文本相似度最高的目标先验文本;事件抽取数据集包括多个先验文本;

    8、确定事件类型对应的事件提示模板;事件提示模板包括:抽取任务信息、需根据目标先验文本的事件信息填充的先验知识、待抽取长文本、用于指示从待抽取长文本的实体中筛选目标实体的条件指令,抽取任务信息用于指示根据先验知识对待抽取长文本进行事件抽取;

    9、根据目标先验文本的事件信息、待抽取长文本及待抽取长文本的实体对事件提示模板进行填充,并将填充后的事件提示模板输入大语言模型进行处理,得到待抽取长文本的事件抽取结果。

    10、可选的,根据待抽取长文本对应的所有第一词性特征、第一嵌入向量、每个第一嵌入向量的第一句子特征,确定待抽取长文本的事件触发词和实体,包括:

    11、分别针对待抽取长文本对应的每个第一嵌入向量,对第一嵌入向量、第一嵌入向量的第一句子特征和第一嵌入向量对应的第一词性特征进行拼接,得到第一融合特征;

    12、将待抽取长文本对应的所有第一融合特征输入条件随机场进行解码,得到待抽取长文本的事件触发词和实体。

    13、可选的,根据事件触发词、实体和每个第一嵌入向量的第一句子特征,确定待抽取长文本的事件类型,包括:

    14、根据事件触发词在待抽取长文本中的位置,从待抽取长文本对应的所有第一嵌入向量中确定出事件触发词对应的第一目标嵌入向量,并根据实体在待抽取长文本中的位置,从待抽取长文本对应的所有第一嵌入向量中确定出实体对应的第二目标嵌入向量;

    15、根据第一目标嵌入向量、第二目标嵌入向量和每个第一嵌入向量的第一句子特征,确定待抽取长文本的事件类型。

    16、可选的,根据第一目标嵌入向量、第二目标嵌入向量和每个第一嵌入向量的第一句子特征,确定待抽取长文本的事件类型,包括:

    17、对第一目标嵌入向量、第二目标嵌入向量和每个第一嵌入向量的第一句子

    18、特征进行拼接,得到第二融合特征;

    19、将第二融合特征输入事件类型分类器进行分类处理,得到待抽取长文本的事件类型。

    20、可选的,事件类型分类器为多分类器。

    21、可选的,确定事件类型对应的事件提示模板,包括:

    22、从预先构建的提示库中查询得到事件类型对应的事件提示模板;提示库存储有多个事件类型,以及每个事件类型对应的事件提示模板。

    23、可选的,在利用训练后的bert模型对分块得到的每个句子进行编码之前,长文本事件抽取方法还包括:

    24、分别针对多个先验文本中的每个先验文本,对先验文本进行分块处理,使用jieba库获得分块后每个句子的词性表示,将词性表示向量化后得到第二词性特征,并利用原始bert模型对分块得到的每个句子进行编码,得到每个句子的第二嵌入向量;

    25、利用卷积神经网络对每个第二嵌入向量进行句子级特征提取,得到每个第二嵌入向量的第二句子特;

    26、根据事件抽取数据集对应的所有第二嵌入向量、所有第二嵌入向量的第二句子特征和所有第二嵌入向量对应的第二词性特征对原始bert模型进行训练,得到训练后的bert模型。

    27、可选的,根据事件抽取数据集对应的所有第二嵌入向量、所有第二嵌入向量的第二句子特征和所有第二嵌入向量对应的第二词性特征对原始bert模型进行训练,得到训练后的bert模型,包括:

    28、分别针对事件抽取数据集对应的每个句子,对句子对应的第二嵌入向量、第二句子特征和第二词性特征进行拼接,得到第三融合特征;

    29、分别针对得到的每个第三融合特征,将第三融合特征以及第三融合特征对应的真实标签作为一训练样本;真实标签为第三融合特征对应的句子的真实实体;

    30、将得到的所有训练样本输入条件随机场,得到实体识别损失、每个第三融合特征对应的句子的事件触发词样本和实体样本;

    31、分别针对每个第三融合特征,根据第三融合特征对应的句子的事件触发词样本在句子中的位置,从句子对应的第二嵌入向量中确定出事件触发词样本对应的第三目标嵌入向量,并根据第三融合特征对应的句子的实体样本在句子中的位置,从句子对应的第二嵌入向量中确定出实体样本对应的第四目标嵌入向量,对第三目标嵌入向量、第四目标嵌入向量、第三融合特征对应的第二句子特征进行融合,得到第四融合特征;

    32、将得到的所有第四融合特征输入事件类型分类器进行分类处理,得到每个第四融合特征对应的先验文本的事件类型分类结果;

    33、根据每个第四融合特征的事件类型分类结果和每个第四融合特征对应的先验文本的真实事件类型,确定事件检测损失;

    34、根据实体识别损失和事件检测损失的和值,对原始bert模型的参数进行调整,并将调整后的bert模型作为训练后的bert模型。

    35、可选的,根据实体识别损失和事件检测损失的和值,对原始bert模型的参数进行调整,并将调整后的bert模型作为训练后的bert模型,包括:

    36、判断实体识别损失和事件检测损失的和值是否小于或等于预设损失值;

    37、若实体识别损失和事件检测损失的和值大于预设损失值,则对原始bert模型的参数进行调整,并将参数调整后的bert模型作为原始bert模型,返回执行利用原始bert模型对分块得到的每个句子进行编码,得到每个句子的第二嵌入向量的步骤;

    38、若实体识别损失和事件检测损失的和值小于或等于预设损失值,则将原始bert模型作为训练后的bert模型。

    39、可选的,从预先获得的耕地保护领域的事件抽取数据集中确定出与待抽取长文本相似度最高的目标先验文本,包括:

    40、分别针对事件抽取数据集中每个先验文本,根据待抽取长文本对应的所有第一嵌入向量、先验文本对应的所有第二嵌入向量,计算待抽取长文本与先验文本的相似度值;

    41、将计算得到的所有相似度值中数值最大的相似度值对应的先验文本,作为与待抽取长文本相似度最高的目标先验文本。

    42、本技术的上述方案有如下的有益效果:

    43、在本技术的实施例中,通过利用bert模型对待抽取长文本分块后的每个句子进行编码,使用jieba库获得每块句子的词性表示,将词性表示向量化后得到第一词性特征,并利用卷积神经网络对编码后的嵌入向量进行句子级特征提取,然后利用编码后的嵌入向量以及提取到的句子特征和词性特征,确定待抽取长文本的事件触发词和实体,并利用事件触发词、实体和句子特征确定待抽取长文本的事件类型,接着基于该事件类型确定事件提示模板,并从先验事件抽取数据集中确定与待抽取长文本最相似的先验文本,再基于先验文本、待抽取长文本及其实体对事件提示模板进行填充,并将填充后的事件提示模板输入大语言模型进行处理,得到待抽取长文本的事件抽取结果。其中,基于嵌入向量、句子特征和词性特征三个维度的信息确定待抽取长文本的事件触发词、实体、事件类型,提升了事件触发词、实体、事件类型的准确性,同时基于高准确性的实体、先验事件抽取数据集中先验知识对设计的事件提示模板进行填充,提升了事件提示模板的准确性,从而使得大语言模型在基于自身的上下文理解能力对事件提示模板进行事件抽取时,能充分利用已有先验知识,提高大语言模型的事件抽取能力,提升耕地保护领域的长文本事件抽取精度。

    44、此外,由于在利用大语言模型进行事件抽取时不需要对大语言模型进行微调,从而解决了大语言模型微调消耗资源大的问题。

    45、本技术的其它有益效果将在随后的具体实施方式部分予以详细说明。


    技术特征:

    1.一种面向耕地保护的长文本事件抽取方法,其特征在于,包括:

    2.根据权利要求1所述的长文本事件抽取方法,其特征在于,所述根据所述待抽取长文本对应的所有第一词性特征、第一嵌入向量、每个所述第一嵌入向量的第一句子特征,确定所述待抽取长文本的事件触发词和实体,包括:

    3.根据权利要求1所述的长文本事件抽取方法,其特征在于,所述根据所述事件触发词、所述实体和每个所述第一嵌入向量的第一句子特征,确定所述待抽取长文本的事件类型,包括:

    4.根据权利要求3所述的长文本事件抽取方法,其特征在于,所述根据所述第一目标嵌入向量、所述第二目标嵌入向量和每个所述第一嵌入向量的第一句子特征,确定所述待抽取长文本的事件类型,包括:对所述第一目标嵌入向量、所述第二目标嵌入向量和每个所述第一嵌入向量的第一句子特征进行拼接,得到第二融合特征;

    5.根据权利要求4所述的长文本事件抽取方法,其特征在于,所述事件类型分类器为多分类器。

    6.根据权利要求1所述的长文本事件抽取方法,其特征在于,所述确定所述事件类型对应的事件提示模板,包括:

    7.根据权利要求1所述的长文本事件抽取方法,其特征在于,在所述利用训练后的bert模型对分块得到的每个句子进行编码之前,所述长文本事件抽取方法还包括:

    8.根据权利要求7所述的长文本事件抽取方法,其特征在于,所述根据所述事件抽取数据集对应的所有第二嵌入向量、所有第二嵌入向量的第二句子特征和所有第二嵌入向量对应的第二词性特征对所述原始bert模型进行训练,得到训练后的bert模型,包括:

    9.根据权利要求8所述的长文本事件抽取方法,其特征在于,所述根据所述实体识别损失和所述事件检测损失的和值,对所述原始bert模型的参数进行调整,并将调整后的bert模型作为训练后的bert模型,包括:

    10.根据权利要求7所述的长文本事件抽取方法,其特征在于,所述从预先获得的耕地保护领域的事件抽取数据集中确定出与所述待抽取长文本相似度最高的目标先验文本,包括:


    技术总结
    本申请适用于自然语言处理技术领域,提供了一种面向耕地保护的长文本事件抽取方法,包括:对待抽取长文本进行分块,获得分块后每个句子的第一词性特征;利用Bert模型进行编码,得到分块后每个句子的第一嵌入向量;对每个第一嵌入向量进行句子级特征提取,得到第一句子特征;根据第一嵌入向量、第一句子特征和第一词性特征,确定事件触发词和实体;根据事件触发词、实体和第一句子特征,确定待抽取长文本的事件类型;确定与待抽取长文本最相似度的先验文本;根据事件类型确定对应的事件提示模板;对事件提示模板进行填充,利用大语言模型对填充后的事件提示模板进行处理,得到事件抽取结果。本申请能提升耕地保护领域的长文本事件抽取精度。

    技术研发人员:侯东阳,胡志国,周晓光
    受保护的技术使用者:中南大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-21438.html

    最新回复(0)