本发明涉及关系抽取,尤其涉及一种基于实体代词消解和关系相关性增强的文档级关系抽取方法及系统。
背景技术:
1、关系抽取(re)的主要任务是从已知实体对中提取出相应的关系,以便进一步分析不同实体之间的语义关联。早期主要集中在句子级关系抽取,从单个句子中提取实体之间的关系。然而,在实际应用场景中,实体可能分布在段落或文档的不同句子中,句子级关系抽取难以满足其实际需求,从文档中抽取实体之间的关系,即文档级关系抽取(docre)变得更加重要,近年来引起更为广泛的关注。
2、现有docre研究大致可分为基于图和基于序列两种方式,其中,基于图的方法将文档中的信息转化为图结构,进而构建合适的图模型或算法来识别关系。基于序列的方法通常采用transformer模型对文档中实体间的交互及上下文信息进行序列化建模,捕获实体信息,并生成相应的实体表示,最终根据实体表示进行关系预测。
3、尽管已有方法取得了一定的效果,但往往忽略了docre中两类重要的特征信息,如实体代词、实体间关系相关性等。对于实体代词信息,如图1所示,从人的思维认知角度出发,我们可以判断出文档中的代词it指代的是歌曲each time you break my heart,从而得到更多实体信息,根据扩充的实体信息进一步探索实体each time you break my heart与madonna之间的关系。然而已有模型未充分关注文档中的代词信息,导致模型对实体上下文的理解能力不足,最终降低关系抽取性能。对于实体间的关系相关性,图1中的实体eachtime you break my heart与实体madonna之间存在两种关系。通过图1的虚线图可以观察到关系的共现频率,当值较大时可认为其存在一定的相关性。然而,已有模型未充分考虑该问题,导致关系预测出现偏差。
技术实现思路
1、本发明针对上述问题,提出一种基于实体代词消解和关系相关性增强的文档级关系抽取方法及系统。首先,通过对llms进行思维链提示构造,实现从代词到实体的转换,增强实体信息的完整性,最终得到代词增强的文档级关系抽取数据集pr-docred。然后,我们提出了关系过滤模块,基于关系的共现情况构建概率矩阵,得到关系之间的相关性先验知识。最后,对模型初步预测关系的概率由高到低重排序,并结合关系相关性先验知识对其进行过滤,获取最终的多关系预测结果。
2、为了实现上述目的,本发明采用以下技术方案:
3、本发明一方面提出一种基于实体代词消解和关系相关性增强的文档级关系抽取系统,包括:代词消解模块,证据句抽取模块,关系抽取模块及关系过滤模块;
4、代词消解模块,用于利用大语言模型对源文档d进行代词消解,得到增强文档d';
5、证据句抽取模块,用于在d'上进行证据句抽取;
6、关系抽取模块,用于在d'上进行关系抽取,还用于对抽取得到的证据句按照源文档d中的顺序构造的伪文档dp进行关系抽取;
7、关系过滤模块,用于结合d'和dp中抽取的关系预测最终实体间的关系。
8、进一步地,所述代词消解模块具体用于:
9、预先统计实体代词的数量,在提示中指明代词在文档中出现的次数;
10、采用思维链的提示引导大语言模型输出代词在文档出现的次数,并指明该代词指代的实体;
11、将文档中的代词替换为相应实体;
12、在新增实体所在句子位置之后的实体进行相应位置的后移操作,以此来更新实体列表中每个实体在句子中所处的位置,从而更新实体列表信息,最终得到增强文档d'。
13、进一步地,该系统还包括:编码器模块,用于对文档进行编码。
14、进一步地,所述证据句抽取模块和关系抽取模块均在编码后的d'上进行相应操作。
15、进一步地,所述编码器模块中,按照以下方式计算实体对(eh,et)的上下文嵌入c(h,t):
16、
17、a(h,t)=ah·at
18、其中,h是文档的嵌入表示,ah、at分别表示头实体和尾实体的注意力,a(h,t)表示头尾实体的注意力通过点乘操作来衡量二者之间的相似度。
19、进一步地,所述证据句抽取模块中,按照以下方式得出句子sk对实体对(eh,et)的重要程度:
20、
21、其中,p(sk|(eh,et))表示句子sk对实体对(eh,et)的重要程度,wq和bq为可训练参数,σ为激活函数,c(h,t)表示实体对(eh,et)的上下文嵌入。
22、进一步地,所述关系抽取模块中,按照以下方式得出实体对(eh,et)关系为r的概率:
23、
24、其中,p(r|(eh,et))表示实体对(eh,et)关系为r的概率,σ为激活函数,wr、wh、wt、和br均为可训练的参数,c(h,t)表示实体对(eh,et)的上下文嵌入。
25、进一步地,所述关系过滤模块具体用于:
26、重新排序d'和dp中抽取的关系,并选择排名前m的关系进行后处理;
27、针对重新排序的前m种关系,基于关系共现概率矩阵,设置阈值超参数β,若存在某种关系组合在关系概率矩阵中对应的概率高于β,则将其添加到最终的候选关系中,否则,将关系概率预测得分最高的作为最终的关系。
28、本发明另一方面提出一种基于实体代词消解和关系相关性增强的文档级关系抽取方法,包括:
29、利用大语言模型对源文档d进行代词消解,得到增强文档d';
30、在d'上进行关系抽取和证据句抽取;
31、对抽取得到的证据句按照源文档d中的顺序构造成伪文档dp,并对dp进行关系抽取;
32、结合d'和dp中抽取的关系预测最终实体间的关系。
33、与现有技术相比,本发明具有的有益效果:
34、(1)针对现实文档中实体代词指代往往模糊不清的问题,通过对大语言模型(llms)进行思维链提示构造,从而实现代词消解,增强了实体信息的完整性,并基于此对源文档进行处理,得到一个新的代词消解增强的文档。
35、(2)针对多关系现象带来的关系预测精度不高问题,结合关系的共现分析实体之间的关系相关性,进而构建了一个关系过滤模块,以对实体关系的有效性进行分析过滤,有效地识别实体间可能存在的多种关系,进而提升关系抽取准确性。
1.一种基于实体代词消解和关系相关性增强的文档级关系抽取系统,其特征在于,包括:代词消解模块,证据句抽取模块,关系抽取模块及关系过滤模块;
2.根据权利要求1所述的基于实体代词消解和关系相关性增强的文档级关系抽取系统,其特征在于,所述代词消解模块具体用于:
3.根据权利要求1所述的基于实体代词消解和关系相关性增强的文档级关系抽取系统,其特征在于,该系统还包括:编码器模块,用于对文档进行编码。
4.根据权利要求3所述的基于实体代词消解和关系相关性增强的文档级关系抽取系统,其特征在于,所述证据句抽取模块和关系抽取模块均在编码后的d'上进行相应操作。
5.根据权利要求3所述的基于实体代词消解和关系相关性增强的文档级关系抽取系统,其特征在于,所述编码器模块中,按照以下方式计算实体对(eh,et)的上下文嵌入c(h,t):
6.根据权利要求1所述的基于实体代词消解和关系相关性增强的文档级关系抽取系统,其特征在于,所述证据句抽取模块中,按照以下方式得出句子sk对实体对(eh,et)的重要程度:
7.根据权利要求1所述的基于实体代词消解和关系相关性增强的文档级关系抽取系统,其特征在于,所述关系抽取模块中,按照以下方式得出实体对(eh,et)关系为r的概率:
8.根据权利要求1所述的基于实体代词消解和关系相关性增强的文档级关系抽取系统,其特征在于,所述关系过滤模块具体用于:
9.一种基于实体代词消解和关系相关性增强的文档级关系抽取方法,其特征在于,包括: