实体匹配方法、装置、设备及计算机可读存储介质与流程

    技术2026-02-07  2


    本申请涉及计算机领域,具体涉及一种实体匹配方法、装置、设备和计算机可读存储介质。


    背景技术:

    1、实体链接是将文本中提到的指称与其知识库中相应的实体进行链接起来的任务,可以解决实体间存在的歧义性问题。实体链接的过程中需要进行指称识别和实体消歧,其中,指称识别也称为ner(named entity recognition,命名实体识别),可以识别出文本中的人名、地名等专有名称和有意义的时间、日期等相关实体并加以归类。实体消歧能够消除指称识别结果中存在的歧义问题,以找到与所识别出来的指称相匹配的实体。

    2、相关技术中,在对文本进行指称识别处理,生成指称识别结果后,可将该指称识别结果进行实体消歧。然而,当指称识别时生成了错误的指称识别结果,那么进行实体消歧时也会出错,会造成指称匹配到错误的实体上,导致最终的实体链接结果出错。

    3、因此,如何提高实体匹配的准确性是亟待解决的问题。


    技术实现思路

    1、为解决上述技术问题,本申请的实施例提供了一种实体匹配方法、装置、设备以及计算机可读存储介质,可以提高实体匹配的准确性。

    2、其中,本申请所采用的技术方案为:

    3、一种实体匹配方法,包括:

    4、基于第一特征向量和第二特征向量计算得到预测指称特征向量;其中,所述第一特征向量是对待识别文本进行特征识别得到的,所述第二特征向量是对与所述待识别文本相关联的媒体文件进行特征识别得到的;

    5、基于所述预测指称特征向量在知识库中确定至少一个候选实体,并获取所述至少一个候选实体的特征向量;

    6、基于所述第一特征向量、所述第二特征向量和所述预测指称特征向量计算得到预测指称融合向量;

    7、将所述预测指称融合向量和所述至少一个候选实体的特征向量进行相似度计算,得到至少一个相似度值,并基于所述至少一个相似度值从所述至少一个候选实体中选择目标候选实体。

    8、在本申请的一个实施例中,基于前述方案,将所述第一特征向量和第二特征向量进行相加运算,得到待预测指称特征向量;对所述待预测指称特征向量进行拆分处理,得到多个待预测指称特征向量片段;基于所述待识别文本的上下文信息在所述多个待预测指称特征向量片段中选择出所述预测指称特征向量。

    9、在本申请的一个实施例中,基于前述方案,在所述将所述第一特征向量和第二特征向量进行相加运算,得到待预测指称特征向量之前,对所述待识别文本转化为向量表示,得到文本中间特征向量;获取预设训练模型;通过所述预设训练模型对所述句子特征向量进行训练,得到所述第一特征向量。

    10、在本申请的一个实施例中,基于前述方案,所述第一特征向量的维度是基于所述预设训练模型所包括的预设向量维度信息所确定的;在所述将所述第一特征向量和第二特征向量进行相加运算,得到待预测指称特征向量之前,对所述媒体文件进行特征识别,得到媒体中间特征向量;获取所述预设向量维度信息;基于所述预设向量维度信息对所述媒体中间特征向量进行维度转换,得到所述第二特征向量。

    11、在本申请的一个实施例中,基于前述方案,将所述多个待预测指称特征向量片段分别与所述上下文信息的特征向量进行相似度对比,得到多个指称相似度值;将指称相似度值大于或等于预设指称相似度阈值的待预测指称特征向量片段确定为所述预测指称特征向量。

    12、在本申请的一个实施例中,基于前述方案,获取所述预测指称特征向量所对应的预测指称项;在所述知识库中查询与所述预测指称项相关联的实体,得到所述至少一个候选实体;获取所述至少一个候选实体的特征向量。

    13、在本申请的一个实施例中,基于前述方案,对所述至少一个候选实体进行特征识别,得到至少一个候选实体中间特征向量;通过预设训练模型对所述至少一个候选实体中间特征向量进行训练,得到所述至少一个候选实体的特征向量。

    14、在本申请的一个实施例中,基于前述方案,获取所述预设权值列表,所述预设权值列表包括所述第一特征向量的权值、所述第二特征向量的权值和所述预测指称特征向量的权值;基于所述预设权值列表,对所述第一特征向量、所述第二特征向量和所述预测指称特征向量进行加权求和运算,得到所述预测指称融合向量。

    15、在本申请的一个实施例中,基于前述方案,从所述多个相似度值中选择值最大的相似度值作为目标相似度值;将所述目标相似度值所对应的候选实体作为所述目标候选实体。

    16、一种实体匹配装置,包括:

    17、计算单元,用于基于第一特征向量和第二特征向量计算得到预测指称特征向量;其中,所述第一特征向量是对待识别文本进行特征识别得到的,所述第二特征向量是对与所述待识别文本相关联的媒体文件进行特征识别得到的;

    18、确定单元,用于基于所述预测指称特征向量在知识库中确定至少一个候选实体,并获取所述至少一个候选实体的特征向量;

    19、所述计算单元,还用于基于所述第一特征向量、所述第二特征向量和所述预测指称特征向量计算得到预测指称融合向量;

    20、所述计算单元,还用于将所述预测指称融合向量和所述至少一个候选实体的特征向量进行相似度计算,得到至少一个相似度值,并基于所述至少一个相似度值从所述至少一个候选实体中选择目标候选实体。

    21、一种实体匹配设备,包括处理器及存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时实现如上的实体匹配方法。

    22、一种计算机可读存储介质,其上存储有计算机可读指令,当计算机可读指令被计算机的处理器执行时,使计算机执行如上的实体匹配方法。

    23、一种计算机程序产品,包括计算机可读指令,计算机可读指令被处理器执行时实现如上的实体匹配方法。

    24、在上述技术方案中,

    25、一方面,引入了第二特征向量,并结合待识别文本的第一特征向量进行指称识别,提高了指称识别的准确性,进而提高了实体匹配的准确性。

    26、另一方面,第二特征向量参与了预测指称的识别过程(即指称识别),也参与了目标候选实体的确定过程(即实体消歧),实现了第二特征向量在指称识别和实体消歧的公用,使得指称识别和实体消歧的结合在一起,充分利用了两者的关联关系,提升了指称识别和实体消歧的效果,从而提高了实体匹配的准确性。

    27、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。



    技术特征:

    1.一种实体匹配方法,其特征在于,包括:

    2.根据权利要求1所述的方法,其特征在于,所述基于第一特征向量和第二特征向量计算得到预测指称特征向量,包括:

    3.根据权利要求2所述的方法,其特征在于,在所述将所述第一特征向量和第二特征向量进行相加运算,得到待预测指称特征向量之前,所述方法还包括:

    4.根据权利要求3所述的方法,其特征在于,所述第一特征向量的维度是基于所述预设训练模型所包括的预设向量维度信息所确定的;

    5.根据权利要求2所述的方法,其特征在于,所述基于所述待识别文本的上下文信息在所述多个待预测指称特征向量片段中选择出所述预测指称特征向量,包括:

    6.根据权利要求1所述的方法,其特征在于,所述基于所述预测指称特征向量在知识库中确定至少一个候选实体,并获取所述至少一个候选实体的特征向量,包括:

    7.根据权利要求6所述的方法,其特征在于,所述获取所述至少一个候选实体的特征向量,包括:

    8.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征向量、所述第二特征向量和所述预测指称特征向量计算得到预测指称融合向量,包括:

    9.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个相似度值从所述至少一个候选实体中选择目标候选实体,包括:

    10.一种实体匹配装置,其特征在于,包括:

    11.一种实体匹配设备,其特征在于,包括:

    12.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至9中任一项所述的方法。


    技术总结
    本申请的实施例公开了一种实体匹配方法、装置、设备及计算机可读存储介质。该方法包括:基于第一特征向量和第二特征向量计算得到预测指称特征向量;基于预测指称特征向量在知识库中确定至少一个候选实体,并获取至少一个候选实体的特征向量;基于第一特征向量、第二特征向量和预测指称特征向量计算得到预测指称融合向量;将预测指称融合向量和至少一个候选实体的特征向量进行相似度计算,得到至少一个相似度值,并基于至少一个相似度值从至少一个候选实体中选择目标候选实体。通过该方法,可以提高实体匹配的准确性。

    技术研发人员:蒲仁杰,孙福宁
    受保护的技术使用者:腾讯科技(深圳)有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-40148.html

    最新回复(0)