本发明一般涉及图像分类领域,并且更具体地,涉及基于多尺度注意力机制的图像分类方法、装置和设备。
背景技术:
1、图像分类是计算机视觉的核心问题之一,也是目标检测、人体姿态估计、视频分类、目标跟踪等各种视觉识别领域的基础。图像特征提取一直是图像分类研究的重点,也是图像分类的基础。传统的图像特征提取算法侧重于手动特征的提取,往往不够准确,使得该方法泛化能力差,可移植性差。卷积神经网络cnn的出现推动了该领域的发展,逐渐成为图像分类的主流算法。与传统的图像分类方法不同,基于cnn的分类方法提供了良好特征学习方式,提高了整体性能。但cnn主要是为局部特征提取而设计的,难以捕获全局上下文依赖关系,这会使性能评估变得困难且不那么标准化,进而限制分类任务的评估性能。而transformer相对于cnn,能够有效捕获全局上下文信息,同时,其包含自注意力机制,能够自适应特征增强,获取可靠的全局上下文信息,在图像分类领域显示出了一定优势。但是传统transformer架构在特征学习过程中在利用不同尺度的视觉特征方面仍然面临挑战,且缺少局部信息,计算复杂度也相对较大,在图像分类任务上仍然面临诸多挑战。
技术实现思路
1、根据本发明的实施例,提供了一种基于多尺度注意力机制的图像分类方案。本方案可以有效保持良好的层次关系,整合多尺度局部信息和全局信息,解决了传统方法无法在合理计算复杂度条件下保持良好层次关系和上下文关系的矛盾,同时提高了模型的学习能力。
2、在本发明的第一方面,提供了一种基于多尺度注意力机制的图像分类方法。该方法包括:
3、获取目标图像,所述目标图像包括语义信息;
4、将所述目标图像输入语义特征提取模块,得到图像语义特征;以及,将所述目标图像输入显著性特征提取模块,得到图像显著性特征;
5、将所述图像语义特征与图像显著性特征进行加权融合,得到显著性加权语义特征;
6、将所述显著性加权语义特征输入全连接层,输出目标图像的分类结果。
7、进一步地,所述语义特征提取模块,包括连续的四个阶段;其中,第一阶段依次包括patch embedding层和第一dm-former模块,其中,第一阶段用于接收目标图像;第二阶段依次包括第一patch merging层和第二dm-former模块;第三阶段依次包括第二patchmerging层和第三dm-former模块;第四阶段依次包括第三patch merging层和第四dm-former模块;第四阶段的输出作为图像语义特征。
8、进一步地,所述第一dm-former模块、第二dm-former模块、第三dm-former模块和第四dm-former模块的结构相同,依次包括多级残差结构和残差块;
9、所述多级残差结构包括若干个改进的残差结构,将每个改进的残差结构的输出结果进行相加融合,输出的结果作为多级残差结构的输出结果;每个改进的残差结构依次包括深度卷积层、第一ln层和多头自注意模块mha;
10、其中,所述深度卷积层获取输入特征,对所述输入特征的相对位置信息进行编码,得到的编码结果与所述输入特征进行相加融合,输出相对位置信息编码;将所述相对位置信息编码输入第一ln层,第一ln层的输出结果输入多头自注意模块mha,多头自注意模块mha的输出结果与所述相对位置信息编码进行相加融合,得到改进的残差结构的输出结果;
11、所述残差块依次包括第二ln层和多层感知机mlp;所述第二ln层获取所述多级残差结构的输出结果,并通过多层感知机mlp输出残差结果,将所述残差结果与所述多级残差结构的输出结果进行相加融合,作为语义特征进行输出。
12、进一步地,在所述多级残差结构中,不同的改进的残差结构的深度卷积层的尺度不同。
13、进一步地,所述将所述目标图像输入语义特征提取模块,得到图像语义特征,包括:
14、在第一阶段中,对目标图像进行分块处理,利用patch embedding层进行块嵌入,得到图像块特征矩阵;并将图像块特征矩阵输入第一dm-former模块,输出一级语义特征;
15、在第二阶段中,将一级语义特征输入第一patch merging层,将第一patchmerging层的输出结果输入到第二dm-former模块,输出二级语义特征;
16、在第三阶段中,将二级语义特征输入第二patch merging层,将第二patchmerging层的输出结果输入到第三dm-former模块,输出三级语义特征;
17、在第四阶段中,将三级语义特征输入第三patch merging层,将第三patchmerging层的输出结果输入到第四dm-former模块,输出图像语义特征。
18、进一步地,所述显著性特征提取模块,依次包括显著性图提取模块和resnet50模型;
19、目标图像输入所述显著性图提取模块,输出显著性图;将显著性图输入resnet50模型,输出图像显著性特征。
20、进一步地,所述将所述图像语义特征与图像显著性特征进行加权融合,得到显著性加权语义特征,包括:
21、将所述图像语义特征与图像显著性特征进行相乘,得到相乘融合特征;
22、将所述相乘融合特征与所述图像语义特征进行相加,得到显著性加权语义特征。
23、在本发明的第二方面,提供了一种基于多尺度注意力机制的图像分类装置。该装置包括:
24、获取模块,用于获取目标图像,所述目标图像包括语义信息;
25、特征提取模块,所述特征提取模块包括图像语义特征提取模块和图像显著性特征提取模块;所述图像语义特征提取模块用于将所述目标图像输入语义特征提取模块,得到图像语义特征;所述图像显著性特征提取模块用于将所述目标图像输入显著性特征提取模块,得到图像显著性特征;
26、特征融合模块,用于将所述图像语义特征与图像显著性特征进行加权融合,得到显著性加权语义特征;
27、输出模块,用于将所述显著性加权语义特征输入全连接层,输出目标图像的分类结果。
28、在本发明的第三方面,提供了一种电子设备。该电子设备至少一个处理器;以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明第一方面的方法。
29、在本发明的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本发明第一方面的方法。
30、应当理解,
技术实现要素:
部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征,亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。
1.一种基于多尺度注意力机制的图像分类方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述语义特征提取模块,包括连续的四个阶段;其中,第一阶段依次包括patch embedding层和第一dm-former模块,其中,第一阶段用于接收目标图像;第二阶段依次包括第一patch merging层和第二dm-former模块;第三阶段依次包括第二patch merging层和第三dm-former模块;第四阶段依次包括第三patchmerging层和第四dm-former模块;第四阶段的输出作为图像语义特征。
3.根据权利要求2所述的方法,其特征在于,所述第一dm-former模块、第二dm-former模块、第三dm-former模块和第四dm-former模块的结构相同,依次包括多级残差结构和残差块;
4.根据权利要求3所述的方法,其特征在于,在所述多级残差结构中,不同的改进的残差结构的深度卷积层的尺度不同。
5.根据权利要求3所述的方法,其特征在于,所述将所述目标图像输入语义特征提取模块,得到图像语义特征,包括:
6.根据权利要求1所述的方法,其特征在于,所述显著性特征提取模块,依次包括显著性图提取模块和resnet50模型;
7.根据权利要求1所述的方法,其特征在于,所述将所述图像语义特征与图像显著性特征进行加权融合,得到显著性加权语义特征,包括:
8.一种基于多尺度注意力机制的图像分类装置,其特征在于,包括:
9.一种电子设备,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其特征在于,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。