本发明涉及图文跨模态检索,尤其涉及一种融入图像描述驱动的图文双向检索方法及系统。
背景技术:
1、在多媒体社交网络的背景下,海量的图像和文本数据构成了一个复杂的多模态数据环境。用户对于跨模态信息检索的需求日益增长,希望能实现在大量数据中快速准确地检索与查询条件相匹配的另一模态数据。
2、跨模态图文检索领域主要包含统计分析、深度学习和预训练模型三种方法,且正从由统计分析方法主导转向由深度学习和预训练模型主导。
3、图文检索领域传统的统计分析方法,如依赖人感觉进行手工设置核函数的核典型相关性分析法(kernel canonical correlation analysis,kcca),已经逐步降温。相较于传统的基于人的感知的特征提取,深度学习方法中基于大规模数据与优化算法的特征提取往往具有更高的普适性。
4、早期图文检索领域的深度学习方法,主要是将图片信息与文本信息映射在同一空间中,再利用相似度计算等方法进行特征对应,来满足全局语义的粗粒度匹配,这些方法很难满足局部语义的细粒度匹配。而vsrn模型的提出提供了一种可以捕捉视觉关键对象和语义概念的推理方法,完成了图文双模态的细粒度匹配。随着深度学习领域发展,交叉注意力机制在跨模态任务中表现显著,例如引进堆叠交叉注意力在局部图文匹配的同时进一步挖掘全局特征信息优化全局图像与全局文本特征。为了进一步深挖更多的潜在语义信息促进相关特征的对齐,后续提出的imram模型采取了具有循环记忆的迭代匹配网络进行跨模态检索。
5、现在,“预训练-微调”的方式被广泛地应用于图文检索领域来实现在一个大框架下解决多种多模态任务的通用多模态学习。其中,主流的预训练模型架构包括基于融合编码器的模型架构,例如多模态预训练模型universal image-text representationlearning(uniter),和基于双编码器的模型架构,例如clip模型。以clip模型为例,当前预训练模型架构存在以下三个问题:一是长文本处理能力有限。clip模型使用绝对位置编码,其文本输入长度被限制在77个token以内,且实际有效长度可能更短,这限制了它处理长文本的能力。二是受到数据集分布限制。由于clip的性能在很大程度上依赖于训练数据的质量和多样性,所以尽管clip在zero-shot分类任务上表现出色,但在一些专业的复杂的特定任务上,例如手写数字识别,它的表现可能并不理想,这表明其泛化能力有待提高。三是数据变化导致分布迁移。当clip的训练数据随时间推移而变化时,模型可能会出现分布迁移导致预测的准确率可能会随时间下降。
技术实现思路
1、为了至少能够部分地解决现有的图文双向检索方法存在的特征提取方式普适性差、无法满足局部语义的匹配、文本输入长度受限和模型泛化能力差等问题,本发明提供了一种融入图像描述驱动的图文双向检索方法及系统。
2、一方面,本发明提供一种融入图像描述驱动的图文双向检索方法,包括:
3、步骤1:获取待检索图文数据集;所述待检索图文数据集包括若干个待检索图像和待检索文本;
4、步骤2:分析所述待检索图文数据集的平台来源,根据平台来源选择提示词策略;
5、步骤3:利用所述提示词策略和预设大语言模型生成每个待检索图像的文本描述,并建立待检索图像与其对应的文本描述的索引;
6、步骤4:利用所述提示词策略和预设大语言模型生成每个待检索文本的语义增强文本;
7、步骤5:针对以文搜图任务,将给定的查询文本与每个待检索图像的文本描述进行相似度比较,返回相似度最高的前n个待检索图像;
8、针对以图搜文任务,生成给定的查询图像的文本描述并将其与每个待检索文本的语义增强文本进行相似度比较,返回相似度最高的前n个待检索文本。
9、进一步地,步骤2中具体包括:采用k-means聚类方法对待检索图文数据集进行聚类分析以得到每个待检索图像或待检索文本的来源平台。
10、进一步地,在步骤2之前还包括:预先根据不同平台来源的风格构建不同的提示词策略。
11、进一步地,步骤5中,相似度比较的过程包括:
12、采用transformer文本编码器提取两个待比较文本的特征表示;
13、计算两个待比较文本的特征表示的余弦相似度作为文本相似度得分。
14、另一方面,本发明提供一种融入图像描述驱动的图文双向检索系统,包括:
15、信息获取模块,用于获取待检索图文数据集;所述待检索图文数据集包括若干个待检索图像和待检索文本;
16、分析模块,用于分析所述待检索图文数据集的平台来源,根据平台来源选择提示词策略;
17、文本生成模块,用于利用所述提示词策略和预设大语言模型生成每个待检索图像的文本描述,并建立待检索图像与其对应的文本描述的索引;以及利用所述提示词策略和预设大语言模型生成每个待检索文本的语义增强文本;
18、图文检索模块,用于针对以文搜图任务,将给定的查询文本与每个待检索图像的文本描述进行相似度比较,返回相似度最高的前n个待检索图像;以及针对以图搜文任务,生成给定的查询图像的文本描述并将其与每个待检索文本的语义增强文本进行相似度比较,返回相似度最高的前n个待检索文本。
19、本发明的有益效果:
20、(1)增强了模型长文本处理能力。本发明选用了transformer文本编码器,transformer模型通常使用相对位置编码,消除了对固定序列长度的限制,使得模型可以处理任意长度的文本,有效提升了对长文本的检索和理解能力。
21、(2)提升了数据集泛化能力。本发明的图文双向检索框架模型,通过预处理策略、多模态大语言模型的应用和自适应提示词策略,根据数据的特征和任务的需求动态调整提示词,使得模型能够更准确地捕捉和理解不同来源和类型的数据。
22、(3)增强了模型的可解释性。本发明引入自适应提示词工程,整个检索过程中各部分处理结果都具备更好的可解释性,使得模型输出更容易被理解,输出结果更可靠。
1.一种融入图像描述驱动的图文双向检索方法,其特征在于,包括:
2.根据权利要求1所述的一种融入图像描述驱动的图文双向检索方法,其特征在于,步骤2中具体包括:采用k-means聚类方法对待检索图文数据集进行聚类分析以得到每个待检索图像或待检索文本的来源平台。
3.根据权利要求1所述的一种融入图像描述驱动的图文双向检索方法,其特征在于,在步骤2之前还包括:预先根据不同平台来源的风格构建不同的提示词策略。
4.根据权利要求1所述的一种融入图像描述驱动的图文双向检索方法,其特征在于,步骤5中,相似度比较的过程包括:
5.一种融入图像描述驱动的图文双向检索系统,其特征在于,包括:
