本发明涉及深度哈希图像检索领域,具体是一种基于频域解耦和视觉mamba的深度哈希图像检索方法。
背景技术:
1、目前,现有的深度哈希图像检索框架通常都是将骨干网络提取到的图像深层特征直接作为哈希层的输入,或是利用额外的适配器优化深层特征,它们忽略了浅层特征与最终输出之间的联系,不利于网络全面把握图像的全局语义信息,导致最终得到的哈希码无法有效保持图像原有高维空间的相似结构;其次这些适配器大多使用类自注意力模块构建,因此增加了不可忽略的计算和存储开销,且这些注意力模块高度依赖cnn或是transformer网络,因此其迁移学习的效果在性能上表现并不理想;最后,以往的工作通常使用成对损失或是三元组损失来进行相似度度量学习,由于它们一次只能拉近或推远一组正负样本,因此只能局部地捕捉数据的相似性,需要通过反复多轮的学习才能得到合适的哈希函数,学习效率低下。此外,由于它们对图像类别的固有标签的忽视,面对多类别的复杂应用场景,往往无法准确区分哪些是需要关注的目标而导致最后生成的图像哈希码错误地倾向于某个类。
技术实现思路
1、本发明的目的在于解决现有技术中存在的问题,提供一种基于频域解耦和视觉mamba的深度哈希图像检索方法,利用离散余弦变换将图像特征从空间域转换到频率域,实现了对特征的频域解耦,并自适应的增强不同层级特征信息所匮乏的频域分量,能够充分挖掘图像的底层语义信息,生成更加紧凑和强区分度的哈希码。
2、本发明为实现上述目的,通过以下技术方案实现:
3、一种基于频域解耦和视觉mamba的深度哈希图像检索方法,包括步骤:
4、s1、将图像数据集及其所对应的类别标签信息分别对应分成三部分:训练集、测试集和检索集,其中每个样本均包括一张图像及对应的类别标签,训练集和测试集中每个类别取相同的样本数,其他图片作为检索集;
5、s2、构建基于频域解耦和视觉mamba的深度哈希图像检索架构,它包括swintransformer特征提取骨干、层进式特征融合网络、哈希层、类代理哈希层和损失函数;其中swin transformer特征提取骨干和层进式特征融合网络用于学习图像特征,哈希层用于学习哈希函数的构建并得到输入图像的哈希码,类代理哈希层用于获取图像各个类别的类代理哈希码,损失函数用来引导哈希函数的优化方向;
6、其中,层进式特征融合网络由自适应频域解耦增强模块、混合状态空间模块和特征融合操作组成;哈希层包括全连接层、层归一化层和激活函数tanh(·);类代理哈希层包括全连接层和激活函数tanh(·);损失函数包括全局相似性代理损失函数和量化损失函数;
7、s3、利用训练集,依据基于频域解耦和视觉mamba的深度哈希图像检索架构,通过训练得到基于频域解耦和视觉mamba的深度哈希图像检索模型;
8、s4、将测试集和检索集图片输入经过训练的基于频域解耦和视觉mamba的深度哈希图像检索模型,分别得到测试集和检索集的哈希码;
9、s5、取一个测试图像的哈希码,计算该哈希码与检索集哈希码之间的汉明距离,得到汉明距离向量;
10、s6、将汉明距离向量中的数值按从小到大的顺序进行排序,按顺序输出对应的原始图像,得到该测试图像的检索结果;
11、s7、重复s5与s6操作,得到测试集中每张图像的检索结果,计算平均检索精度评估模型性能。
12、优选的,步骤s2中,基于频域解耦和视觉mamba的深度哈希图像检索架构包括四个特征提取阶段,每个阶段提取到图像不同层次的特征,在每个阶段之外设置一个自适应频域解耦增强模块,每个自适应频域解耦增强模块选用不同的离散余弦变换滤波器解耦特征的频域分量增强弱频信息。
13、优选的,步骤s2中,自适应频域解耦增强模块的二维离散余弦变换公式为:
14、
15、其中,fi,j表示图像上点(i,j)的像素值,dh,w∈rh×w表示经变换后得到的dct滤波器,c(·)表示归一化系数,代表dct的基函数;
16、
17、优选的,步骤s2中,沿主对角线将滤波器等距离划分为m个区域,m的值与特征提取骨干网络的阶段数相等,首先设置m个二值掩码矩阵ms∈rh×w,其中s=1,2,…,m,对于每个阶段需增强的区域以左上角顶点为上界,随着阶段数增加,下界逐渐向右下角移动,每次移动主对角线的距离,将此区域内的元素值设置为1,其他区域数值设置为0,二值掩码矩阵表示为:
18、
19、其中,n表示阶段序号,表示掩码矩阵ms在(i,j)位置的二值编码;
20、在第s个特征融合模块,利用掩码矩阵ms与第s-1阶段的频域特征进行点乘操作得到区域区分的离散余弦变换滤波器;同时,在得到的原有固定值的滤波器的基础上添加可学习的滤波器得到增强的不同层次特征可以表述为:
21、
22、其中,表示第s-1阶段的频域特征。
23、优选的,在对前一阶段特征进行频域增强处理之后,需要对其进行进一步的下采样与特征提取,具体的:
24、首先使用二维卷积conv2d进行下采样操作,紧接着使用不同大小卷积核的卷积序列提取多尺度的特征信息,对于浅层的特征本发明使用较小卷积核的卷积序列,而对于深层特征使用较大卷积核的卷积序列,其设置遵循以下规律:
25、us=[conv2d1(k=2s-1),conv2d2(k=2s+1)];
26、其中,us代表第s个融合块中的卷积序列,使用urs表示第s个融合模块中卷积序列的前r个卷积层构成的子列,并且r=1,2,k代表卷积核大小。
27、优选的,步骤s2中,使用不同的空间选择机制来获取不同的空间注意力图,具体的:
28、首先对于经过了卷积序列操作的频域特征同时应用全局平均和全局最大池化并对它们进行拼接来连接不同的空间关系,之后运用卷积层a(·)将它们进行聚合得到r个通道的池化特征:
29、
30、在此基础上使用sigmoid激活函数σ(·)将池化特征转化为注意力图:
31、
32、然后每个卷积子序列得到的特征通过其对应的注意力图进行加权,并经过一个卷积层a(·)进行融合:
33、
34、和当前阶段特征通过深度可分离卷积和一系列残差操作参与到特征融合当中:
35、
36、其中,mixssm只作用于最后一个融合模块的特征融合部分。
37、优选的,在二维状态空间外增加一条并行的卷积分支组成混合选择状态空间模块,二维状态空间由交叉扫描操作、s6块以及序列合并操作组成,首先对图像沿四个方向进行并行扫描,四个方向分别为:左上至右下、右上至左下、右下至左上以及左下至右上;将每个不同方向顺序的序列同时通过s6块进行状态空间运算,运算过程通过线性常微分方程形式化描述如下:
38、
39、其中,u(t)∈ru代表一系列连续的输入信息,v(t)∈rv表示输出信息,g(t)∈rw为中间隐藏状态,a∈rw×w表示状态转移矩阵,b∈rw×u表示控制输入矩阵,c∈rm×w表示输出矩阵,d∈rm×u表示前馈矩阵;
40、通过利用时间尺度参数δ来构建离散时间参数:
41、
42、其中,和使用经典的离散化方法得到,例如欧拉、双线性或零阶保持;
43、通过维护和更新这些时间参数对图像特征进行动态选择,模拟和预测图像数据的动态变化,在经过状态空间模型处理之后,各个序列被重塑为特征图形状,然后将它们在通道维度上进行堆叠与加和得到最终的输出特征。
44、优选的,在状态模型分支外增加一个卷积分支,具体的:
45、首先将输入特征切分为相同大小的两个部分fconv和fssm,其中一部分经过卷积分支,另一部分经过状态模型分支;
46、在卷积分支中,再次将输入fconv分成四个部分f1、f2、f3和f4,分别经过方形卷积以及垂直和水平的条形卷积和跳跃连接操作,并将它们进行拼接:
47、
48、其中,k代表卷积核的尺寸,ξ是划分分支时的比例因子,表示卷积操作,表示拼接操作;
49、将得到的特征图与状态空间模型分支输出fssm进行特征融合之前加入一个silu(·)门控函数;
50、最后,将两个分支的特征进行拼接,并利用1×1卷积进行融合:
51、
52、优选的,损失函数采用全局相似性代理损失,全局相似性代理损失表述为:
53、lgp=lg+λlp;
54、
55、其中,λ为超参数,表示类代理实值哈希码,μ是超参数,b表示小批量,表示真实标签yi归一化后的结果,ε为平衡参数,nc表示类别数,t代表转置操作。
56、优选的,为了使得网络能够进行正常的反向传播,保证哈希代理层的参数得到更新,在全局相似性代理损失中使用连续实值哈希码,但是在图像检索过程中需要使用二值哈希码。二值哈希码的优化过程视为对连续实值哈希码每个比特位符号的二分类问题,首先定义一个高斯概率模型:
57、
58、并对目标均值分别赋值+1和-1得到两个估计器和为每个哈希码元素计算属于+1和-1的概率,其中k=1,2,…,nbits,它们使用相同的标准差δ;然后生成对应的二进制标签b+和b-,这些标签反映了哈希码元素的预期二进制状态:
59、
60、使用二元交叉熵损失函数来评估模型输出与这些二进制标签之间的一致性:
61、
62、s.t.bb(u,v)=-ulogv+(1-u)log(1-v)。
63、对比现有技术,本发明的有益效果在于:
64、1、本发明提出了一种基于频域解耦和视觉mamba的深度哈希图像检索方法。其中自适应频域解耦增强模块(afde)将各层级不同频段的特征进行解耦,通过自适应离散余弦变换(dct)滤波器增强弱频分量,并通过空间选择机制进行多尺度特征融合以增强各层级特征与哈希码之间的联系,使得最终生成的哈希码尽可能地保持了原始高维空间的相似结构。为了充分挖掘图像底层语义信息,引入mamba的思想构建了混合状态空间(mix_ssm)模块作为深度特征提取器同时进行全局和局部的建模。此外,还提出了新的全局相似性代理损失,通过充分利用类别标签信息,增强模型对样本间全局相似性的捕捉能力,提高哈希函数的学习效率和准确性。
65、2、本发明提出了一个自适应频域解耦增强模块(afde),为不同层级特征之间建立联系,促使网络全面把握图像的全局语义信息。它利用离散余弦变换将图像特征从空间域转换到频率域,实现了对特征的频域解耦,并自适应的增强不同层级特征信息所匮乏的频域分量。空间选择机制捕捉浅层特征的空间关系并提高其抽象层次,以更好地与深层特征进行融合。
66、3、本发明将mamba引入哈希图像检索领域构建了混合选择状态空间模块(mix_ssm),旨在在线性时间复杂度代价下融合二维状态空间(ss2d)的全局感知能力和卷积的局部特征提取能力,充分挖掘图像的底层语义信息。通过s6中的选择机制选取其中的重要信息,生成更加紧凑和强区分度的哈希码。
67、4、本发明采用了一个新的全局相似性代理损失,显示关注每个类别所携带的标签信息。为每个类别生成对应的类代理哈希码以高效拉近和推远相同与不相同样本间的距离,利用真实标签监督类代理之间的类间相似性,它们共同作用使得网络可以学习到数据间的全局相似性。
1.一种基于频域解耦和视觉mamba的深度哈希图像检索方法,其特征在于,包括步骤:
2.根据权利要求1所述的一种基于频域解耦和视觉mamba的深度哈希图像检索方法,其特征在于,步骤s2中,基于频域解耦和视觉mamba的深度哈希图像检索架构包括四个特征提取阶段,每个阶段提取到图像不同层次的特征,在每个阶段之外设置一个自适应频域解耦增强模块,每个自适应频域解耦增强模块选用不同的离散余弦变换滤波器解耦特征的频域分量增强弱频信息。
3.根据权利要求2所述的一种基于频域解耦和视觉mamba的深度哈希图像检索方法,其特征在于,步骤s2中,自适应频域解耦增强模块的二维离散余弦变换公式为:
4.根据权利要求3所述的一种基于频域解耦和视觉mamba的深度哈希图像检索方法,其特征在于,步骤s2中,沿主对角线将滤波器等距离划分为m个区域,m的值与特征提取骨干网络的阶段数相等,首先设置m个二值掩码矩阵ms∈rh×w,其中s=1,2,…,m,对于每个阶段需增强的区域以左上角顶点为上界,随着阶段数增加,下界逐渐向右下角移动,每次移动主对角线的距离,将此区域内的元素值设置为1,其他区域数值设置为0,二值掩码矩阵表示为:
5.根据权利要求4所述的一种基于频域解耦和视觉mamba的深度哈希图像检索方法,其特征在于,在对前一阶段特征进行频域增强处理之后,需要对其进行进一步的下采样与特征提取,具体的:
6.根据权利要求5所述的一种基于频域解耦和视觉mamba的深度哈希图像检索方法,其特征在于,步骤s2中,使用不同的空间选择机制来获取不同的空间注意力图,具体的:
7.根据权利要求6所述的一种基于频域解耦和视觉mamba的深度哈希图像检索方法,其特征在于,在二维状态空间外增加一条并行的卷积分支组成混合选择状态空间模块,二维状态空间由交叉扫描操作、s6块以及序列合并操作组成,首先对图像沿四个方向进行并行扫描,四个方向分别为:左上至右下、右上至左下、右下至左上以及左下至右上;将每个不同方向顺序的序列同时通过s6块进行状态空间运算,运算过程通过线性常微分方程形式化描述如下:
8.根据权利要求7所述的一种基于频域解耦和视觉mamba的深度哈希图像检索方法,其特征在于,在二维状态空间的基础上增加一个卷积分支,具体的:
9.根据权利要求8所述的一种基于频域解耦和视觉mamba的深度哈希图像检索方法,其特征在于,损失函数采用全局相似性代理损失,全局相似性代理损失表述为:
10.根据权利要求9所述的一种基于频域解耦和视觉mamba的深度哈希图像检索方法,其特征在于,二值哈希码的优化过程视为对连续实值哈希码每个比特位符号的二分类问题,首先定义一个高斯概率模型: