一种基于对比视图的时变知识图谱去噪方法

    技术2024-11-24  50


    本发明属于知识图谱,具体涉及一种基于对比视图的时变知识图谱去噪方法。


    背景技术:

    1、随着互联网的发展,网络数据内容呈现出爆炸式增长的态势,丰富的网络数据能够为各领域和学科的研究提供数据基础。但互联网内容具有规模庞大、异质多元、结构稀疏等特点,如何从海量数据中有效地获取信息和知识是众多研究者关注的关键问题。为了描述数据中的实体和实体间的关系,知识图谱于2012年由谷歌正式提出,如今已广泛应用于智能搜索、智能问答、推荐系统等领域。

    2、知识图谱能够以三元组的形式表示现实世界的丰富知识信息,以其强大的语义处理和结构组织能力为互联网数据的挖掘分析奠定了基础。知识图谱中的三元组由实体和关系组成,是知识事实的一种结构化表示形式。相较于现有的静态知识图谱,时变知识图谱通过引入时间戳,将三元组扩展为四元组结构,能够表征现实世界中的时间信息,体现知识图谱的动态变化情况。在对知识图谱进行分析的过程中,时间信息起着非常重要的作用,因为结构化的知识通常只在特定时间段内有效,事实的演变也遵循一定的时间顺序。

    3、自动构建的知识图谱通常含有相当数量的噪声和错误,需要通过知识图谱噪声检测找到错误的噪声三元组,提供知识图谱的准确性和规范性。现有的知识图谱去噪方法主要分为两种。一是基于知识图谱嵌入表示进行去噪,以链接预测的方式对知识嵌入的合理性进行评估,从而达到噪声检测的效果;二是挖掘知识图谱中的路径或特定规则进行去噪,从图论和关联规则等视角引入置信度指标作为噪声的判断依据。此外,目前有许多方法同时结合了知识图谱的路径特征与三元组嵌入特征,通过路径或规则得到的事实改善稀疏实体的嵌入,或是通过嵌入提高路径或规则的挖掘效率,融合全局和局部特征对三元组噪声进行检测。

    4、知识图谱噪声检测任务已经有了一系列解决方案,只是现有的研究主要集中在静态知识图谱领域,对于时变知识图谱领域的噪声检测研究较少。在保留了时间信息的同时,时变知识图谱引入了额外的复杂时间噪声,给知识图谱去噪任务带来了巨大的挑战,例如上一时刻的正常的实体对和连接关系在下一时刻可能就成为了噪声,即三元组具有时间有效性。相较于实体噪声和关系噪声,这种时序特征导致的复杂噪声检测更加困难。现有的知识图谱去噪方法分为基于嵌入的知识图谱去噪方法和基于路径的知识图谱去噪方法,但现有的方法无法在时间尺度上对实体和关系进行分析评估,无法判断同一三元组在不同时刻的时间有效性,不能直接应用于时变知识图谱领域。


    技术实现思路

    1、为解决上述技术问题,本发明提供了一种基于对比视图的时变知识图谱去噪方法,通过搭建时序嵌入框架,并建立三元组级别的对比视图对知识(三元组)进行去噪,能够以无监督的方式准确地检测出时变知识图谱中的实体、关系和时间噪声。

    2、本发明采用的技术方案为:一种基于对比视图的时变知识图谱去噪方法,具体步骤如下:

    3、s1、构建基于时间演化的嵌入学习框架;

    4、其中,所述嵌入学习框架包括:知识图谱预处理模块、瞬时视图主体处理模块、演化视图处理模块、瞬时视图客体处理模块、置信度计算单元模块。

    5、s2、原始时变知识图谱输入知识图谱预处理模块进行预处理,得到反映静态信息的知识图谱瞬时切片和反映前后演变信息的知识图谱演化切片;

    6、s3、基于步骤s2得到的图谱切片,应用对比视图构建规则,分别得到瞬时图谱的主体模式和客体模式视图序列,以及演化图谱的主体模式和客体模式视图序列;

    7、s4、步骤s3得到的视图序列分别输入瞬时视图主体处理模块、瞬时视图客体处理模块、演化视图处理模块,得到不同时刻的图谱切片下所有三元组的时间相关嵌入表示;

    8、其中,不同时刻下每个三元组的嵌入都具有主体模式视图和客体模式视图两种表示。

    9、s5、基于步骤s5得到的嵌入表示,输入置信度计算单元模块进行三元组置信度计算,作为评价三元组是否为噪声的标准,完成时变知识图谱去噪。

    10、进一步地,所述步骤s1具体如下:

    11、演化视图处理模块包括:主体模式视图单元、客体模式视图单元、两种模式视图分别对应的时间门单元;

    12、瞬时视图主体处理模块包括:主体模式视图单元、门控单元;

    13、瞬时视图客体处理模块包括:客体模式视图单元、门控单元;

    14、其中,演化视图处理模块作用于瞬时视图主体处理模块和瞬时视图客体处理模块之间,衔接相邻时刻的三元组嵌入表示。

    15、进一步地,所述步骤s2具体如下:

    16、所述预处理为:按照时间顺序和时间粒度将时变知识图谱划分为静态知识图谱序列,即不同时刻的知识图谱切片。

    17、输入原始时变知识图谱g为由一系列四元组构成的图结构。

    18、其中,s表示主体实体,p表示关系断言,o表示客体实体,t则表示时间,表示所有四元组的时间范围。

    19、首先按照时间戳对知识图谱g的所有四元组进行排序和分组,根据设置好的时间粒度将g划分静态知识图谱序列,表达式如下:

    20、g={g1,g2,…gt-1,gt}

    21、其中,序列中的每个元组gt表示t时刻下的知识图谱瞬时切片。相应的,四元组集合(s,p,o,t)转换为三元组集合序列

    22、经过时间切片处理,原始四元组已转换为知识图谱瞬时切片中的三元组,对相邻知识图谱瞬时切片中的三元组进行比较和筛选,得到反映三元组随时间变化情况的知识图谱演化切片,则每个演化切片的三元组筛选方式表达式如下:

    23、

    24、其中,表示异或操作,对gt-1和gt中的所有三元组进行实体和关系级别的比较,去除相邻时刻切片gt-1和gt中保持不变的三元组,保留实体或关系发生改变的三元组。

    25、进一步地,所述步骤s3具体如下:

    26、步骤s2得到的知识图谱瞬时切片和演化切片为(s,p,o)形式组织的三元组结构,构建数据增强框架,即将三元组视作新的节点,基于连接模式分别从主体和客体角度构建三元组层次的对比视图,分别为主题模式视图和客体模式视图。

    27、其中,对知识图谱瞬时切片进行数据增强得到的两种模式视图统称为瞬时对比视图;对知识图谱演化切片进行数据增强得到的两种模式视图统称为演化对比视图。

    28、定义知识图谱中任意两个三元组t1=(s1,p1,o1)和t2=(s2,p2,o2),则对比视图三元组节点之间的连接建立规则如下:

    29、(1)主体模式视图:

    30、if s1=s2

    31、t1→t2if o1=s2

    32、t1←t2if s1=o2

    33、(2)客体模式视图:

    34、if o1=o2

    35、t1←t2if o1=s2

    36、t1→t2if s1=o2

    37、其中,主体模式和客体模式视图统称为对比视图;→表示建立左侧三元组指向右侧三元组节点的单向边,←表示建立右侧三元组指向左侧三元组节点的单向边,则表示在两个三元组节点之间构建双向边。主体模式反映三元组主体实体之间的同构关系以及主体和客体实体间的承接关系,客体模式则反映三元组客体实体之间的同构关系以及客体和主体实体间的承接关系。

    38、基于数据增强框架,将三元组抽象为节点,通过所述对比视图三元组节点之间的连接建立规则建立节点间的有向边,得到瞬时知识图谱切片和演化知识图谱切片的对比视图。

    39、进一步地,所述步骤s4具体如下:

    40、s41、按照划分的时间段将四元组转化为不同时刻的三元组,对三元组嵌入进行初始化,然后通过随机的方式得到知识图谱中所有实体和关系的初始嵌入,采用长短期记忆网络学习每个三元组内部的结构特征,用于指导更新实体和关系的嵌入表示;

    41、任意三元组t=(s,p,o)内部结构的建模表达式如下:

    42、

    43、其中,es,ep,eo表示输入实体和关系的初始嵌入,通过lstm学习三元组内部特征关系后,得到更新后的实体和关系嵌入∥表示连接操作,通过特征向量连接的方法构造三元组嵌入et作为对比视图中三元组节点的初始嵌入表示。

    44、然后采用三元组注意力机制学习对比视图中的三元组节点全局特征表示,选定目标三元组ti,设定其邻居三元组列表为t1,t2…tn,采用加权的方式聚合其邻居三元组对于ti的嵌入的影响,则具体权重计算表达式如下:

    45、

    46、其中,f表示嵌入特征维度,表示实数嵌入空间,表示三元组tj对于三元组ti的重要程度,表示可学习的线性增广矩阵,用于将三元组嵌入投影到相同的向量空间,f′表示输出嵌入维度。表示注意力函数,用于计算注意力相关系数

    47、其中,注意力函数a本质上是一个单层前馈神经网络,由权重向量为参数,并应用非线性激活函数leakyrelu,具体展开表达式如下:

    48、

    49、其中,()t表示矩阵的转置。

    50、引入softmax函数对不同三元组嵌入之间的注意力系数进行归一化处理,表达式如下:

    51、

    52、其中,表示归一化后的注意力系数。

    53、引入额外的超参数μ作为阈值,得到阈值控制的最终注意力系数具体作用机制表达式如下:

    54、

    55、最后将加权聚合后的嵌入通过sigmoid函数σ进行计算,输出基于对比视图的三元组节点嵌入表示,分别为主体模式下的输出与客体模式下的输出表达式如下:

    56、

    57、其中,和分别表示主体模式下的注意力系数和客体模式下的注意力系数。

    58、最后,瞬时视图处理模块中的两类对比视图通过注意力机制学习当前时间下的知识图谱结构依赖特征,演化视图处理模块中的两类对比视图则学习相邻时间下变化三元组之间的共现特征,时间门和门控单元则用于模拟历史对比视图序列,获得三元组沿时间传播的演化嵌入。

    59、其中,所述瞬时视图处理模块即瞬时视图主体处理模块、瞬时视图客体处理模块。

    60、s42、在起始阶段通过lstm得到初始三元组节点嵌入作为时间演化嵌入的输入,然后采用滑动窗口的方式,选取长度为m的时间窗口,在当前窗口下传播学习三元组的演化嵌入,每次得到最后时刻的三元组嵌入输出,并不断向后滑动窗口范围,直到遍历完整条时间线上的知识图谱切片,完成所有三元组的嵌入训练;

    61、主体模式和客体模式视图统称为对比视图,二者在时间窗口内以同样的操作方式并行处理,在瞬时视图处理模块中,t时刻瞬时对比视图的输入分为两部分:

    62、(1)经过门控单元处理后的t-1时刻瞬时对比视图的输出;

    63、(2)(t-1)→t时间过程下经过时间门的演化对比视图的输出。

    64、主体模式视图中的三元组节点a中每个视图的工作方式如下:

    65、

    66、其中,表示三元组经过演化对比视图单元和时间门所得到的从t-1时刻到t时刻的演化嵌入,表示经过瞬时对比视图单元得到的t时刻下的三元组瞬时嵌入,表示基于注意力机制的对比视图嵌入计算函数,接收保持不变的三元组与发生改变的共现三元组作为初始嵌入,加权聚合建模邻居三元组节点对于目标三元组的影响,得到当前时刻对比视图的三元组结构嵌入。

    67、然后引入演化视图处理模块以及相应的门控单元gru和时间门组件解决嵌入沿时间传播演化的问题。则演化视图处理模块中的每个视图工作方式如下:

    68、

    69、基于步骤s3得到的演化图谱对比视图,以上一时刻经过门控单元的三元组节点嵌入为输入,通过尝试捕捉相邻时刻发生变化的共现三元组间的潜在联系。其中,门控单元的作用方式为:

    70、

    71、其中,表示t时刻下的三元组在主体模式下的最终嵌入表示;表示t时刻下的三元组在客体模式下的最终嵌入表示。

    72、瞬时视图处理模块通过gru对时间序列的嵌入进行更新,在演化视图处理模块中采用时间门机制对演化嵌入进行更新处理,表达式如下:

    73、

    74、其中,表示点积运算,时间门的具体运算表达式如下:

    75、

    76、其中,σ表示sigmoid函数,表示时间门权重矩阵。

    77、然后将上一时刻瞬时视图的输出和当前时间过程下的演化视图输出作为时间门的输入,通过ut控制时间上前后变化的三元组与保持不变的三元组对于下一时刻嵌入的影响。

    78、基于所述嵌入学习框架,以滑动窗口的方式遍历时间上所有的图谱切片,最终得到不同时刻的图谱切片下所有三元组的时间相关嵌入表示,且得到的不同时间下每个三元组的嵌入都具有主体模式视图和客体模式视图两种表示。

    79、进一步地,所述步骤s5具体如下:

    80、集成三元组内部嵌入损失和对比学习损失对损失函数进行联合优化。

    81、采用关系平移假设衡量三元组内部嵌入效果,将关系看作是实体嵌入向量间进行的平移,即

    82、采用欧氏距离衡量每个三元组内部嵌入在平移假设方面的自我一致性,将内部嵌入损失定义如下:

    83、

    84、其中,e(s,p,o)=||es+ep-eo||2,表示遵循平移假设的能量函数,表示用于控制边界大小的超参数,g和分别表示原始时变知识图谱中的三元组集合以及随机负采样得到的噪声三元组集合。

    85、然后将基于主体模式和客体模式的视图嵌入进行对比学习,引入对比学习损失和内部嵌入损失一同进行优化学习。采用滑动时间窗口算法作为采样方式,得到两种视图下的三元组嵌入xi和yi,采用交叉熵损失作为对比学习目标训练模型,表达式如下:

    86、

    87、其中,v表示温度超参数,用来控制神经网络输出概率的分布形状,sim(xi,yi)表示三元组在两种视图下的嵌入相似度计算函数,采用向量范数或余弦相似度进行评估。

    88、在训练完成并得到所有时刻三元组的嵌入表示后,结合三元组内部和对比视图两种嵌入特征,最终在不同时刻衡量三元组的置信度分数cs(ti)如下:

    89、cs(ti)=σ(θ·sim(xi,yi)-e(si,pi,oi))

    90、其中,e(si,pi,oi)用来评估三元组内部嵌入的自我一致性,sim(xi,yi)用于评估三元组在不同视图下的全局嵌入相似性。这两种指标通过超参数θ进行权衡与调整,并通过sigmoid函数将得分映射到[0,1]的范围内,得到不同时刻下每个三元组,等价于时变知识图谱中所有四元组的最终置信度分数,从而完成时变知识图谱去噪任务。

    91、本发明的有益效果:本发明的方法通过构建基于时间演化的嵌入学习框架,将原始时变知识图谱输入进行预处理,并根据时序划分知识图谱序列,生成瞬时对比视图和演化对比视图,并分时段初始化三元组嵌入,得到不同时刻的图谱切片下所有三元组的时间相关嵌入表示输入置信度计算单元模块进行三元组置信度计算,作为评价三元组是否为噪声的标准,完成时变知识图谱去噪。本发明的方法能够在无需人为标注的情况下,通过两种反映不同语义特征对比视图,在时间演化框架上以自监督的方式对比学习正常数据和噪声数据的特征,完成对于噪声数据的检测识别,能有效识别时变知识图谱中存在的噪声,提高推荐系统、智能问答等后续任务有效性。

    92、本发明的方法通过自监督学习方式进行去噪模型的训练,相较于现有的有监督学习去噪方法,能够有效减少人力标注成本,提高了去噪方法的适用性,能够以较低的成本应用于规模较大的无标注数据集;本发明的方法首次针对时变知识图谱设计并实现了噪声检测方案,相较于现有的知识图谱去噪方法,能够充分应用时变知识图谱中的时间信息,更加精确地对时间尺度上的噪声数据进行评估检测,有利于减少噪声信息对下游应用的影响,提高基于时变知识图谱的推荐系统、智能搜索、决策分析等应用的效果。


    技术特征:

    1.一种基于对比视图的时变知识图谱去噪方法,具体步骤如下:

    2.根据权利要求1所述的一种基于对比视图的时变知识图谱去噪方法,其特征在于,所述步骤s1具体如下:

    3.根据权利要求1所述的一种基于对比视图的时变知识图谱去噪方法,其特征在于,所述步骤s2具体如下:

    4.根据权利要求1所述的一种基于对比视图的时变知识图谱去噪方法,其特征在于,所述步骤s3具体如下:

    5.根据权利要求1所述的一种基于对比视图的时变知识图谱去噪方法,其特征在于,所述步骤s4具体如下:

    6.根据权利要求1所述的一种基于对比视图的时变知识图谱去噪方法,其特征在于,所述步骤s5具体如下:


    技术总结
    本发明公开了一种基于对比视图的时变知识图谱去噪方法,通过构建基于时间演化的嵌入学习框架,将原始时变知识图谱输入进行预处理,并根据时序划分知识图谱序列,生成瞬时对比视图和演化对比视图,并分时段初始化三元组嵌入,得到不同时刻的图谱切片下所有三元组的时间相关嵌入表示输入置信度计算单元模块进行三元组置信度计算,作为评价三元组是否为噪声的标准,完成时变知识图谱去噪。本发明的方法能够在无需人为标注的情况下,通过两种反映不同语义特征对比视图,在时间演化框架上以自监督的方式对比学习正常数据和噪声数据的特征,完成对于噪声数据的检测识别,能有效识别时变知识图谱中存在的噪声,提高推荐系统、智能问答等后续任务有效性。

    技术研发人员:费高雷,赵乾,胡光岷,汤智伟
    受保护的技术使用者:电子科技大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-22537.html

    最新回复(0)