基于嵌入同步和对齐的多模态知识图谱补全方法及系统

技术2026-01-02 10

本发明属于数据处理，具体涉及一种基于嵌入同步和对齐的多模态知识图谱补全方法及系统。

背景技术：

1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

2、知识图谱作为信息管理和表示的重要工具，已在搜索引擎优化、推荐系统和自然语言处理等多个领域发挥重要作用。传统的单模态知识图谱主要由三元组构成，它包括两个实体和它们之间的关系，这种结构在能够表示实体间多种关系。多模态知识图谱补全技术是构建智能化知识库、实现自动问答等人工智能应用的关键环节，在工业界和学术界都具有广泛应用前景，是一项极具实际意义的前瞻性技术。然而，传统知识图谱补全的链接预测方法如基于翻译的模型与基于神经网络的模型已在结构体数据处理方面取得一定成就，但在处理复杂的、非文本的信息时面临着一些限制，受到数据结构单一的困扰。

3、近年来，面对单模态知识图谱在链接预测中的局限性，研究者们转向了多模态方法的探索。多模态知识图谱能够融合结构体数据和非结构体数据(如文本、图像等)，更全面地刻画实体间语义关联，实现准确的关系推理和预测。图1展示了利用多模态知识图谱预测“阿尔伯特·爱因斯坦”出生地的示例。仅依赖结构体和文本数据不能充分揭示头尾实体间的联系。但结合文本描述后，关系得以更准确表达。多模态知识图谱的最大优势在于能够综合利用各个模态之间的互补信息，从而实现更全面和准确的关系预测。mmkgr模型探讨了在统一门注意网络下，如何有效利用多模态特征进行多跳推理，kblrn模型则提出了一种端到端推理框架，结合了神经网络技术和数据内部的潜在特征、关系特征和数值特征。

4、多模态知识图谱补全技术是构建智能化知识库、实现自动问答等人工智能应用的关键环节，在工业界和学术界都具有广泛应用前景，是一项极具实际意义的前瞻性技术。上述提出的多模态知识图谱补全模型大多采用特征拼接或平均池化策略进行多模态融合，忽视了模态间表示的异构性和分布差异，使模型难以学习一致的综合语义表示。其次这些模型在实体链接预测、关系分类等任务中的命中率、mrr等指标也较低，模型的泛化能力受到限。因此，探索能够自适应处理异构数据分布、充分挖掘模态互补信息的融合机制，成为提升多模态知识图谱补全性能的关键。然而，现有的多模态知识图谱补全(mkgc)方法存在以下重大难题：

5、(1)异构模态数据表示分布差异明显，直接拼接或平均融合策略难以消除分布偏差，导致语义理解的准确率低下；

6、(2)缺乏针对各模态间信息丰富程度的自适应权重分配机制，无法充分利用模态间互补信息，影响泛化能力；

7、(3)无法高效建模实体和关系之间的复杂高阶语义，对复杂关系和问答任务缺乏判别能力。

技术实现思路

1、为了解决上述问题，本发明提出了一种基于嵌入同步和对齐的多模态知识图谱补全方法及系统，本发明旨在解决以上难题，同时基于此方法设计了基于嵌入同步与对齐的多模态知识图谱补全模型(mceas)。该模型设计提出自适应融合机制，根据各模态嵌入间的曼哈顿距离构建语义距离矩阵，并通过迭代更新校准向量，自适应调整各模态映射权重，将异构模态映射到统一语义空间。有效融合不同模态的互补信息，缓解单一模态的噪声冗余影响，实现跨模态语义对齐。同时，该方法中设计了对偶驱动的张量约束机制，能无偏捕捉实体关系间复杂的高阶语义交互，细化嵌入语义距离，确保平衡一致的多模态综合表示，显著提升模型的泛化和迁移能力。mceas模型可为知识库构建、多模态问答、解释型推理等人工智能任务提供更可靠、高效的多模态表示学习和关系挖掘技术支持。

2、根据一些实施例，本发明的第一方案提供了一种基于嵌入同步和对齐的多模态知识图谱补全方法，采用如下技术方案：

3、基于嵌入同步和对齐的多模态知识图谱补全方法，包括：

4、分别利用对应的编码器对视觉模态数据、结构体数据以及文本模态数据进行嵌入矩阵计算，得到视觉嵌入、结构体嵌入以及文本嵌入；

5、利用自融合机制分别实现视觉嵌入和文本嵌入与结构体嵌入的语义距离的模态权重动态分配，得到视觉模态加权偏置传输矩阵和文本模态加权偏置传输矩阵；

6、将视觉嵌入和视觉模态加权偏置传输矩阵进行融合，得到视觉模态嵌入对齐矩阵；将文本嵌入和文本模态加权偏置传输矩阵进行融合，得到文本模态嵌入对齐矩阵；

7、基于视觉模态嵌入对齐矩阵、文本模态嵌入对齐矩阵以及结构体嵌入进行融合，得到统一嵌入矩阵，利用统一嵌入矩阵对多模态知识图谱进行补全。

8、进一步地，利用预先训练好的vgg模型作为视觉模态的编码器，对视觉模态数据进行特征提取，计算视觉嵌入矩阵，得到视觉嵌入；

9、利用word2vec模型作为文本模态的编码器，学习文本模态数据的语言特征，计算文本嵌入矩阵，得到文本嵌入；

10、采用直接编码的方法，使用嵌入矩阵对结构体数据中的关系三元组进行处理，生成结构化嵌入矩阵，即结构体嵌入。

11、进一步地，所述利用自融合机制实现视觉嵌入与结构体嵌入的语义距离的模态权重动态分配，得到视觉模态加权偏置传输矩阵，具体为：

12、选用均匀分布对视觉嵌入的边缘分布以及结构体嵌入的边缘分布进行初始化；

13、利用视觉嵌入与结构体嵌入的曼哈顿距离构建视觉语义距离矩阵；

14、迭代更新校准向量，逐步收敛到最优解；

15、基于校准向量的最优解以及核矩阵构建视觉模态传输矩阵；

16、对多个视觉模态传输矩阵融合计算，得到视觉模态加权偏置传输矩阵。

17、进一步地，所述利用自融合机制实现文本嵌入与结构体嵌入的语义距离的模态权重动态分配，得到文本模态加权偏置传输矩阵，具体为：

18、选用均匀分布对文本嵌入的边缘分布以及结构体嵌入的边缘分布进行初始化；

19、利用文本嵌入与结构体嵌入的曼哈顿距离构建视觉语义距离矩阵；

20、迭代更新校准向量，逐步收敛到最优解；

21、基于校准向量的最优解以及核矩阵构建文本模态传输矩阵；

22、对多个文本模态传输矩阵融合计算，得到文本模态加权偏置传输矩阵。

23、进一步地，所述方法在训练阶段时，将统一嵌入矩阵和结构体嵌入矩阵使用评分函数计算最终的嵌入分数，通过交叉熵损失函数将嵌入分数对应的预测概率与实际值的差异性进行量化，实现模型性能的持续优化；

24、采用对偶驱动的张量约束机制，应用交叉熵损失函数确定所述方法训练的最终损失。

25、进一步地，所述采用对偶驱动的张量约束机制，应用交叉熵损失函数确定所述方法训练的最终损失，具体为：

26、采用对偶驱动的张量约束算法来惩罚嵌入向量的归一化平方得到增强了嵌入向量对不同关系的区分能力；

27、

28、

29、

30、

31、其中，elhs表示左实体的嵌入子矩阵，erel表示关系的嵌入子矩阵，erhs表示右实体的嵌入子矩阵，w代表正则化权重，n代表矩阵维度；

32、将与进行加权组合，得到最终损失值，具体为：

33、

34、其中η+λ＝1。

35、进一步地，所述基于视觉模态嵌入对齐矩阵、文本模态嵌入对齐矩阵以及结构体嵌入进行融合，得到统一嵌入矩阵，具体为：

36、将视觉模态嵌入矩阵文本模态嵌入矩阵与结构体嵌入es使用超参数α，β，γ，其中α+β+γ＝1动态调整各模态嵌入的比重，使其达到最好的效果，得到最终嵌入矩阵ef，具体为：

37、

38、根据一些实施例，本发明的第二方案提供了一种基于嵌入同步和对齐的多模态知识图谱补全系统，采用如下技术方案：

39、基于嵌入同步和对齐的多模态知识图谱补全系统，包括：

40、数据获取模块，被配置为获取多模态知识图谱中实体的视觉模态数据、结构体数据以及文本模态数据；

41、模态嵌入确定模块，被配置为分别利用对应的编码器对视觉模态数据、结构体数据以及文本模态数据进行嵌入矩阵计算，得到视觉嵌入、结构体嵌入以及文本嵌入；

42、多模态嵌入式融合模块，被配置为利用自融合机制分别实现视觉嵌入和文本嵌入与结构体嵌入的语义距离的模态权重动态分配，得到视觉模态加权偏置传输矩阵和文本模态加权偏置传输矩阵；

43、嵌入对齐模块，被配置为将视觉嵌入和视觉模态加权偏置传输矩阵进行融合，得到视觉模态嵌入对齐矩阵；将文本模态和文本模态加权偏置传输矩阵进行融合，得到文本模态嵌入对齐矩阵；

44、统一嵌入模块，被配置为基于视觉模态嵌入对齐矩阵、文本模态嵌入对齐矩阵以及结构体嵌入进行融合，得到统一嵌入矩阵，利用统一嵌入矩阵对多模态知识图谱进行补全。

45、根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

46、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于嵌入同步和对齐的多模态知识图谱补全方法中的步骤。

47、根据一些实施例，本发明的第四方案提供了一种计算机设备。

48、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于嵌入同步和对齐的多模态知识图谱补全方法中的步骤。

49、与现有技术相比，本发明的有益效果为：

50、本发明提出了一种基于差异感知多源融合对齐的多模态知识图谱补全方法，并且基于此方法构建了知识图谱补全模型(mceas)。该模型旨在实现高效的跨模态语义对齐和信息融合，统一异构数据的综合表示，从根本上解决现有方法在处理异质模态数据时所面临的表示分布偏差和信息冗余噪声等难题。mceas模型基于两阶段框架，用于有效集成多模态信息。首先为多模态融合设计差异感知多源融合对齐方法，采用基于greenkhorn算法的自适应融合策略，根据异构模态间的语义距离动态调整映射权重，将各模态数据迁移至统一的向量空间。随后，设计加入对偶驱动的张量约束机制，增强了处理嵌入向量复杂性的能力，保证了模型在处理多样化数据时的效率和精度。

技术特征：

1.基于嵌入同步和对齐的多模态知识图谱补全方法，其特征在于，包括：

2.如权利要求1所述的基于嵌入同步和对齐的多模态知识图谱补全方法，其特征在于，利用预先训练好的vgg模型作为视觉模态的编码器，对视觉模态数据进行特征提取，计算视觉嵌入矩阵，得到视觉嵌入；

3.如权利要求1所述的基于嵌入同步和对齐的多模态知识图谱补全方法，其特征在于，所述利用自融合机制实现视觉嵌入与结构体嵌入的语义距离的模态权重动态分配，得到视觉模态加权偏置传输矩阵，具体为：

4.如权利要求1所述的基于嵌入同步和对齐的多模态知识图谱补全方法，其特征在于，所述利用自融合机制实现文本嵌入与结构体嵌入的语义距离的模态权重动态分配，得到文本模态加权偏置传输矩阵，具体为：

5.如权利要求1所述的基于嵌入同步和对齐的多模态知识图谱补全方法，其特征在于，所述方法在训练阶段时，将统一嵌入矩阵和结构体嵌入矩阵使用评分函数计算最终的嵌入分数，通过交叉熵损失函数将嵌入分数对应的预测概率与实际值的差异性进行量化，实现模型性能的持续优化；

6.如权利要求5所述的基于嵌入同步和对齐的多模态知识图谱补全方法，其特征在于，所述采用对偶驱动的张量约束机制，应用交叉熵损失函数确定所述方法训练的最终损失，具体为：

7.如权利要求1所述的基于嵌入同步和对齐的多模态知识图谱补全方法，其特征在于，所述基于视觉模态嵌入对齐矩阵、文本模态嵌入对齐矩阵以及结构体嵌入进行融合，得到统一嵌入矩阵，具体为：

8.基于嵌入同步和对齐的多模态知识图谱补全系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于嵌入同步和对齐的多模态知识图谱补全方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于嵌入同步和对齐的多模态知识图谱补全方法中的步骤。

技术总结
本发明属于数据处理领域，提供了一种基于嵌入同步和对齐的多模态知识图谱补全方法及系统，针对多模态融合问题设计了差异感知多源融合对齐方法，通过构建自适应融合机制，实现各模态间的语义距离的模态权重动态分配，并且将异构数据映射到了统一语义空间；同时设计对偶驱动的张量约束，能够无偏捕捉实体关系交互，提升对复杂关联的建模能力。基于此方法构建的模型MCEAS极大缓解了现有方法在异构数据融合、自适应权重分配、复杂关联建模等方面的瓶颈，在多个公开数据集的实验结果表明，该模型在命中率、排名等评价指标上均展现出优异的性能，是多模态知识图谱补全领域的创新型解决方案。

技术研发人员：姜雪松,刘晓菁,尉秀梅,衣凤阁,张天鹏,丁浩润
受保护的技术使用者：齐鲁工业大学（山东省科学院）
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-39051.html

专利

最新回复(0)