本公开的实施例涉及计算机,具体涉及多模态图像分割方法、装置、电子设备和计算机可读介质。
背景技术:
1、目前,随着深度学习技术在人工智能领域的飞速发展,文本指导图像分割技术通过融合自然语言描述和图像信息,实现在图像上对目标对象的精准分割,更符合人类对信息的处理方式,成为人们关注的重点问题。对于多模态图像的分割,通常采用的方式为:将目标产品图像和产品图像描述文本信息输入至现有文本指导图像分割模型(通过注意力机制对图像和语言两个模态进行融合),得到分割掩码产品图像集。
2、然而,实践中发现,当采用上述方式对多模态图像进行分割时,经常会存在如下技术问题一:由于现有文本指导图像分割模型大多基于简单图像(如风景、人物、动植物、医学图像),对产品图像缺乏针对性,以及现有文本指导图像分割模型通过注意力机制进行模态融合,仅对高层特征进行模态融合,且以视觉特征为主导融合,缺乏对文本和图像之间关联关系的捕捉,导致图像分割准确率较低和分割掩码产品图像的完整性较低,增加图像分割次数。
3、在采用技术方案来解决上述技术问题一的过程中,往往又会伴随着如下技术问题二:在文本和图像视觉的多尺度特征对齐融合过程中仅通过单一特征生成注意力系数,使得文本和图像视觉的再次进行多尺度特征对齐融合生成的特征向量的准确度和质量较低,导致文本指导图像分割的精准性较低。针对上述技术问题二,常规的解决方案一般是:仅对产品文本特征向量进行卷积处理,生成仅通过文本特征生成的注意力系数的文本图像融合特征向量。然而,上述常规解决方案依然存在如下问题:由于仅通过单一文本特征生成的注意力系数的融合特征向量,导致进行多尺度特征对齐融合得到的特征向量的质量较低,进一步造成图像分割的准确率较低,分割的掩码产品图像的完整性较低。
4、在采用技术方案来解决上述技术问题一的过程中,往往又会伴随着如下技术问题三:对于复杂场景下的目标产品图像,可能存在图像边缘信息丢失和噪声干扰等问题,导致文本和图像视觉融合的准确率较低,进一步造成图像分割的准确率较低。针对上述技术问题三,常规的解决方案一般是:通过基于注意力机制的解码器,对多尺度对齐融合特征向量和产品文本特征向量进行特征增强。然而,上述常规解决方案依然存在如下问题:由于基于注意力机制的解码器仅能对提取的文本特征和图像特征进行高层信息的融合和关联关系的提取,不能解决边界信息提取不足和噪声数据的去除,导致增强后的特征向量的质量较低,图像分割的准确率较低。
5、该背景技术部分中所公开的以上信息仅用于增强对本公开构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
2、本公开的一些实施例提出了多模态图像分割方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
3、第一方面,本公开的一些实施例提供了一种多模态图像分割方法,包括:获取目标产品图像和产品图像描述文本信息,其中,上述目标产品图像和上述产品图像描述文本信息存在语义上的关联关系;将上述目标产品图像输入至产品图像特征提取网络,得到产品图像特征向量集;将上述产品图像描述文本信息输入至文本描述特征提取网络,得到产品文本特征向量;对上述产品图像特征向量集和上述产品文本特征向量进行多模态特征融合处理,得到多模态融合特征向量;对上述多模态融合特征向量进行多尺度特征对齐融合处理,得到多尺度对齐融合特征向量;对上述多尺度对齐融合特征向量和上述产品文本特征向量进行特征增强处理,得到跨模态增强特征向量;对上述产品文本特征向量进行线性化处理,得到线性化产品文本特征向量;对上述跨模态增强特征向量和上述线性化产品文本特征向量进行向量相乘,得到多模态掩码分割特征向量;根据上述多模态掩码分割特征向量,对上述目标产品图像进行针对上述产品图像描述文本信息的图像分割处理,得到分割掩码产品图像集。
4、第二方面,本公开的一些实施例提供了一种多模态图像分割装置,包括:获取单元,被配置成获取目标产品图像和产品图像描述文本信息,其中,上述目标产品图像和上述产品图像描述文本信息存在语义上的关联关系;第一输入单元,被配置成将上述目标产品图像输入至产品图像特征提取网络,得到产品图像特征向量集;第二输入单元,被配置成将上述产品图像描述文本信息输入至文本描述特征提取网络,得到产品文本特征向量;多模态特征融合单元,被配置成对上述产品图像特征向量集和上述产品文本特征向量进行多模态特征融合处理,得到多模态融合特征向量;多尺度特征对齐融合单元,被配置成对上述多模态融合特征向量进行多尺度特征对齐融合处理,得到多尺度对齐融合特征向量;特征增强单元,被配置成对上述多尺度对齐融合特征向量和上述产品文本特征向量进行特征增强处理,得到跨模态增强特征向量;线性化处理单元,被配置成对上述产品文本特征向量进行线性化处理,得到线性化产品文本特征向量;向量相乘单元,被配置成对上述跨模态增强特征向量和上述线性化产品文本特征向量进行向量相乘,得到多模态掩码分割特征向量;图像分割单元,被配置成根据上述多模态掩码分割特征向量,对上述目标产品图像进行针对上述产品图像描述文本信息的图像分割处理,得到分割掩码产品图像集。
5、第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
6、第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
7、本公开的上述各个实施例中具有如下有益效果:本公开的一些实施例的多模态图像分割方法通过对图像和文本的多次融合,充分发挥文本对图像分割的指导作用,提高图像分割准确性和分割掩码产品图像的完整性。具体来说,造成图像分割准确率较低的原因在于:由于现有文本指导图像分割模型大多基于简单图像(如风景、人物、动植物、医学图像),对产品图像缺乏针对性,以及现有文本指导图像分割模型通过注意力机制进行模态融合,仅对高层特征进行模态融合,且以视觉特征为主导融合,缺乏对文本和图像之间关联关系的捕捉,导致图像分割准确率较低和分割掩码产品图像的完整性较低,增加图像分割次数。基于此,本公开的一些实施例的多模态图像分割方法可以首先,获取目标产品图像和产品图像描述文本信息,其中,上述目标产品图像和上述产品图像描述文本信息存在语义上的关联关系。在这里,目标产品图像和图像描述文本信息用于后续文本和图像特征的提取。其次,将上述目标产品图像输入至产品图像特征提取网络,得到产品图像特征向量集。在这里,可以提取目标产品图像中的关键信息,提高产品图像特征向量的细节信息和高分辨率。再次,将上述产品图像描述文本信息输入至文本描述特征提取网络,得到产品文本特征向量。在这里,可以提取产品图像描述文本信息中的关键语义信息,提高产品文本特征向量的质量和丰富语义信息。接着,对上述产品图像特征向量集和上述产品文本特征向量进行多模态特征融合处理,得到多模态融合特征向量。在这里,进行初步跨模态互动融合,可以在保持图像高分辨率细节特征的同时,提取更丰富的语义信息。随后,对上述多模态融合特征向量进行多尺度特征对齐融合处理,得到多尺度对齐融合特征向量。在这里,可以有效整合不同层次尺度的文本图像特征,充分融合高分辨率下的细节信息与低分辨率下的语义信息,捕捉文本和图像的关联关系。之后,对上述多尺度对齐融合特征向量和上述产品文本特征向量进行特征增强处理,得到跨模态增强特征向量。在这里,可以去除噪声和解决信息丢失问题,进一步从融合后的特征中提取关键视觉线索。然后,对上述产品文本特征向量进行线性化处理,得到线性化产品文本特征向量。在这里,对产品文本特征向量进行特征维度变换,以便符合跨模态增强特征向量的维度进行向量相乘以及提高文本对图像分割的指导作用。再然后,对上述跨模态增强特征向量和上述线性化产品文本特征向量进行向量相乘,得到多模态掩码分割特征向量。在这里,可以充分体现文本对图像分割的指导作用。最后,根据上述多模态掩码分割特征向量,对上述目标产品图像进行针对上述产品图像描述文本信息的图像分割处理,得到分割掩码产品图像集。在这里,可以提高图像分割的准确性和分割掩码产品图像集的图像完整度。由此可得,该多模态图像分割方法通过对图像和文本的多次融合,充分发挥文本对图像分割的指导作用,提高图像分割准确性和分割掩码产品图像的完整性。
1.一种多模态图像分割方法,包括:
2.根据权利要求1所述的方法,其中,所述产品图像特征向量集包括:第一产品图像特征向量、第二产品图像特征向量和第三产品图像特征向量;以及
3.根据权利要求1所述的方法,其中,所述产品文本特征向量包括:第一产品文本特征向量、第二产品文本特征向量和第三产品文本特征向量;以及
4.根据权利要求3所述的方法,其中,所述对所述第七文本图像融合特征向量进行多尺度反卷积上采样拼接处理,得到多尺度对齐融合特征向量,包括:
5.根据权利要求1所述的方法,其中,所述产品图像特征提取网络包括:卷积网络、全局最大池化层、第一阶段卷积残差网络、第二阶段卷积残差网络、第三阶段卷积残差网络和第四阶段卷积残差网络;以及
6.根据权利要求1所述的方法,其中,所述文本描述特征提取网络包括:多个双向注意力编码网络;以及
7.一种多模态图像分割装置,包括:
8.一种电子设备,包括:
9.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。