本发明涉及计算机视觉和自然语言处理领域,具体涉及一种基于局部生成双驱动的图像文本跨模态检索模型、方法以及计算机设备。
背景技术:
1、图像和文本是帮助人类和智能应用更好地理解现实世界的两个关键信息载体。在计算机视觉和自然语言处理领域,已经进行了大量研究来学习和理解这两种模态。图像文本跨模态检索作为一个基础而复杂的研究方向,旨在挖掘不同模态样本之间的关系,即通过一种模态的样本来检索具有相似语义的另一种模态样本。这项技术的发展对于各种实际应用具有重要意义,例如人物搜索、基于草图的图像检索以及食物食谱检索等。
2、现有图像文本跨模态检索方法可以分为两类,即基于分数的匹配方法和基于嵌入的匹配方法。基于分数的匹配方法专注于局部视觉特征和文本特征之间的跨模态交互,然后计算累积相似度分数。基于嵌入的匹配方法采用双编码器架构,使用两个编码器分别为图像和文本提取全局特征,然后通过约束图像全局特征和文本全局特征之间的对齐来学习图像文本联合嵌入空间。然而基于分数的匹配方法由于模态之间的交互深度很大,这种方法在精确度上具有一定的优势,但在面对海量数据时,其计算效率和响应速度往往难以令人满意。相比之下,基于嵌入的匹配方法使用双编码器处理图像和文本,模态间不存在直接的交互,大大提高了检索效率。然而,这种粗粒度的对齐,限制了检索的性能。
3、现有方法过于关注跨模态交互和模态间的粗粒度对齐,忽略了在不降低检索效率的同时去捕获细粒度语义信息的能力和缓解由于图像和文本两种模态在底层结构上的异构性,带来的对同一概念的表达和理解存在显著差异的问题。因此,针对这两个挑战,本发明设计了一个基于局部生成双驱动的图像文本跨模态检索模型来提高模型捕获细粒度语义信息和缓解模态差异的能力。
技术实现思路
1、针对现有方法无法捕获细粒度语义信息和缓解模态差异的问题。本发明提出了一个基于局部生成双驱动的图像文本跨模态检索模型,主要包含两个模块,即局部驱动语义补全模块和生成驱动语义转换模块。通过局部驱动语义补全模块来为全局特征筛选并补充忽略的局部细粒度信息,得到融合了细粒度信息的特征表示。同时,通过生成驱动语义转换模块,生成具有文本语义信息的图像特征,利用这个特征去拉近图像文本在图像文本联合嵌入空间中的相对位置,从而减小模态差异。
2、一种基于局部生成双驱动的图像文本跨模态检索模型,该模型通过以下步骤得到:
3、s1,对训练数据中成对的原始图像和文本使用编码器分别进行特征提取,得到原始图像和文本的图像全局特征、图像局部特征、文本全局特征以及文本局部特征;
4、s2,输入图像和文本的全局特征、局部特征,通过局部驱动语义补全模块来筛选得到全局特征忽略的局部细节特征,然后将局部细节特征与全局特征进行融合,得到语义补全后的融合特征;
5、s3,输入文本,通过生成驱动语义转换模块,得到具有文本语义信息的生成图像特征;
6、s4,计算s1得到的图像全局特征和文本全局特征、s2得到的图像融合特征和文本融合特征、s3得到的生成图像特征和图像全局特征以及文本全局特征之间的相似性并利用对比损失函数进行训练。
7、作为优选技术方案,所述步骤s1中特征提取的过程包括:
8、s1.1:给定图像为v,首先将其切成多个块,形成块序列并经过可训练的线性投影函数,表示为v={v1,v2,,,,,vn},n表示块的个数。然后,将类标记[cls]插入到序列中,用来学习全局表示。再将位置嵌入添加到每一个块中用来编码空间信息。接着,将序列输入到图像编码中,得到图像特征。其中,图像编码器是由lv个视觉transformer层组成,令为l层视觉transformer层的输出序列,并作为l+1层的输入序列。那么l+1层的输出序列,其计算公式为:
9、
10、其中,表示第l层输出的图像特征,mhsa(·)表示多头自注意层,mlp(·)表示多层感知网络,ln(·)表示层规范化,表示经过第l层的多头自注意层和层规范化处理后并进行残差连接的图像特征。最后,图像编码器最终输出图像特征其中表示图像全局特征,fiv表示第i个图像局部特征。将图像全局特征投影到图像文本联合嵌入空间中得到最终的图像全局特征为gv。
11、s1.2:给定文本为t,将文本转为标记序列,表示为t={t1,t2,…,tm},其中m表示标记序列的个数。然后,将文本通过[sos]和[eos]标记括起来,表示文本的开始和结束。再将标记序列t={tsos,t1,t2,…,tm,teos}输入到文本编码器transformer中,通过掩码自注意力学习单词间的相关性,得到提取的文本特征最终,将[eos]标记的特征投影到图像文本联合嵌入空间中,得到最终的文本全局特征gt。
12、作为优选技术方案,所述步骤s2中通过局部驱动语义补全模块,筛选得到全局特征忽略的局部细节特征,然后将局部细节特征与全局特征进行融合,得到语义补全后的融合特征的过程包括:
13、s2.1:本发明提出的局部驱动语义补全模块,由两部分组成,即显示筛选方式和隐式筛选方式。将s1提取的图像和文本的全局特征和局部特征输入显示筛选方式和隐式筛选方式,得到两组图像和文本全局特征忽略的局部细节特征,然后将局部细节特征与全局特征进行融合,得到融合后的特征表示。
14、s2.2:使用显示筛选方式,首先为s1得到的图像全局特征和图像局部特征进行相似性计算,得到然后,按照升序对sv∈r1×n进行排序,选择前k个相似性最低的局部特征,这前k个特征是通过显示筛选方式得到的图像全局特征忽略的局部细节特征;然后将局部细节特征与图像全局特征进行融合,得到通过显示筛选方式进行语义补全的显示图像融合特征其中d表示图像全局特征和图像局部特征的维度,2d表示融合特征的维度计算公式为:
15、
16、其中,特征sortn(·)表示排序操作,表示在排序后的相似性矩阵中第k个相似性分数,concatd(·)表示特征拼接操作,meank(·)表示平均池化操作。
17、s2.3:使用隐式筛选方式,为s1得到的图像局部特征沿着维度d的方向按降序进行排序,取前m个响应最大的局部细节特征,这m个特征是通过隐式筛选方式得到的图像全局特征忽略的局部细节特征;然后将局部细节特征和图像全局特征进行融合,得到通过隐式筛选方式进行语义补全的隐式图像融合特征计算公式为:
18、
19、其中,表示通过隐式筛选方式得到的局部细节特征,是沿着维度d的方向按降序进行排序后的图像局部特征。
20、s2.4:文本应用相同的过程,经过显示筛选方式和隐式筛选方式,得到显示文本融合特征和隐式文本融合特征
21、作为优选技术方案,所述步骤s3中通过生成驱动语义转换模块,得到具有文本语义信息的生成图像特征的过程包括:
22、s3.1:给定文本t,输入到一个已经预训练过的文本-图像生成模型fθ中,得到一个具有文本语义信息的生成图像特征tgen,计算公式为:
23、withe~[1,e]
24、其中,e表示迭代时间,一共需要迭代e次,表示第e时刻生成的图像嵌入,表示随机采样的高斯噪声。
25、s3.2:将生成图像特征tgen输入一个投影层mlps(·),将tgen投影到图像文本联合嵌入空间中,mlps(·)的结构和参数是与图像编码器中最后使用的投影层共享的。计算公式为:
26、
27、其中表示投影到图像文本联合嵌入空间的具有文本语义信息的生成图像特征。为了保障检索效率,生成驱动语义转换模块只在训练时使用,在应用时不使用该模块。
28、作为优选技术方案,所述步骤s4具体包括:
29、s4.1:对s1得到的图像全局特征gv和文本全局特征gt计算相似性,然后对比损失函数进行约束,损失函数为:
30、
31、其中
32、
33、其中,表示第i个图像全局特征,表示第i个文本全局特征,表示转置运算,n表示匹配的图像文本对数量,τ1表示温度参数,是一个可训练的变量,表示原始对比损失,主要由和两个子项组成。和表示图像到文本和文本到图像的对比损失。
34、s4.2:于此同时,对s2通过显示筛选方式和隐式筛选方式得到的显示图像融合特征和显示文本融合特征隐式图像融合特征和隐式文本融合特征之间使用同样的损失函数。具体来说,将中的图像全局特征gv和文本全局特征gt替换为显示图像融合特征和显示文本融合特征得到显示局部驱动对比损失再将中的图像全局特征gv和文本全局特征gt替换为隐式图像融合特征和隐式文本融合特征得到隐式局部驱动对比损失
35、s4.3:同样,对s3得到的生成图像特征和图像全局特征gv以及文本全局特征gt之间使用对比损失函数进行约束,损失函数为:
36、
37、其中
38、
39、其中,表示第i个生成图像特征,τ2表示可训练的温度超参数,表示生成驱动对比损失,主要由和两个子项组成。和表示生成图像到文本和生成图像到图像的对比损失。
40、最后,在训练过程中,使用原始对比损失、显示局部驱动对比损失、隐式局部驱动对比损失和生成驱动对比损失设计出总损失函数,进行统一联合训练,计算公式为:
41、
42、其中,α、β和γ是平衡四个损失项的超参数。
43、基于上述图文跨模态检索模型,本发明还提出了一种基于局部生成双驱动的图像文本跨模态检索方法,所述图文跨模态检索方法使用上述的图文跨模态检索模型实现,具体过程如下:
44、给定数据集中的图像和文本,输入图像编码器和文本编码器提取图像和文本的全局特征、局部特征;然后,通过局部驱动语义补全模块的显示筛选方式和隐式筛选方式,筛选并融合全局特征忽略的局部细节特征,分别得到图像和文本的显示融合特征和隐式融合特征;最后,使用图像全局特征和文本全局特征、显示图像融合特征和显示文本融合特征、隐式图像融合特征和隐式文本融合特征计算余弦相似性,返回检索结果。其中,以图像全局特征和文本全局特征的余弦相似性计算为例,公式如下:
45、
46、其中,n1和n2表示图像和文本的数量。显示图像融合特征和显示文本融合特征、隐式图像融合特征和隐式文本融合特征的余弦相似性得分,可以通过将公式中的图像全局特征和文本全局特征替换成对应的特征计算得到。
47、此外,上述图文跨模态检索模型和图文跨模态检索方法均可保存在计算机设备中,或以指令的方式执行、或以程序代码的方式存储。
48、本发明的有益效果:
49、(1)提出局部驱动语义补全模块,通过其中的显示筛选方式和隐式筛选方式更加全面的捕获全局特征忽略的局部细节特征,进而将忽略的局部细节特征与全局特征进行融合,从而达到语义信息的补充。
50、(2)同时提出了生成驱动语义转换模块,利用生成模型,得到带有文本语义信息的生成图像特征,将其作为模态间的桥梁,拉近图像文本在图像文本联合嵌入空间中的相对位置,从而减小模态差异。并只在训练时使用,不会带来额外的时间浪费,保障了检索效率。
51、(3)对比现有的方法,本方法能够有效提升模型捕获局部细节信息的能力和减小模态差异,提高图文跨模态检索的准确率。将本发明应用到clip_vit-b/16和clip_vit-l/14检索模型上,在flickr30k数据集的rsum指标上分别提高了10.7%和7.5%。在ms-coco数据集的rsum指标上分别提高了10.8%和5.7%。
1.一种基于局部生成双驱动的图像文本跨模态检索模型,其特征在于,由如下方法获得:
2.根据权利要求1所述的一种基于局部生成双驱动的图像文本跨模态检索模型,其特征在于,所述s1特征提取的过程包括:
3.根据权利要求1所述的一种基于局部生成双驱动的图像文本跨模态检索模型,其特征在于,所述s2中,获取图像融合特征的方法包括如下:
4.根据权利要求3所述的一种基于局部生成双驱动的图像文本跨模态检索模型,其特征在于,所述s2中,获取文本融合特征的方法与获取图像融合特征的方法相同,得到显示文本融合特征和隐式文本融合特征
5.根据权利要求1所述的一种基于局部生成双驱动的图像文本跨模态检索模型,其特征在于,所述s3包括如下:
6.根据权利要求3所述的一种基于局部生成双驱动的图像文本跨模态检索模型,其特征在于,所述s4的实现包括:
7.根据权利要求6所述的一种基于局部生成双驱动的图像文本跨模态检索模型,其特征在于,所述s4的总损失函数计算公式为:
8.一种基于局部生成双驱动的图像文本跨模态检索方法,其特征在于,所述图像文本跨模态检索方法使用权利要求1-7任一项的图像文本跨模态检索模型实现,具体过程如下:
9.一种计算机设备,其特征在于,其存储权利要求1-7任一项模型的程序,并能够执行权利要求8所述的图像文本跨模态检索方法的程序。