一种自然图像抠图方法

    技术2025-12-22  12


    本发明涉及图像处理,特别涉及一种自然图像抠图方法。


    背景技术:

    1、自然图像的概念主要涉及图像的获取过程,强调的是图像的原始状态,即直接由相机捕获并记录的、未经过任何后期处理的图像。自然图像抠图是计算机视觉领域的一个基础且富有挑战性的任务。其目标是将图像中的特定对象或区域(前景)与背景分离,准确预测给定图像中对象的透明度图。

    2、现有技术中,通常采用卷积神经网络完成自然图像抠图任务。其具体过程包括:收集包含前景和背景标注的图像数据集,选择或设计适合图像抠图任务的cnn网络结构;将图像数据集中待抠图的图像输入到训练好的cnn模型,得到图像的透明度图。

    3、上述现有技术所存在的缺陷是:卷积神经网络倾向于从自然图像中提取全局特征,在处理前景和背景颜色以及纹理相似的边缘时,无法保留边缘细节特征,导致抠图任务的完成度不足。


    技术实现思路

    1、基于此,有必要针对上述技术问题,提供一种自然图像抠图方法。

    2、本发明实施例提供一种自然图像抠图方法,包括:

    3、获取包含指定对象的自然图像;

    4、构建抠图模型erkd,抠图模型erkd包括:边缘保留模块、解码器和优化模块,在边缘保留模块中的每个邻域注意力转换器组后增添一个卷积颈resbottleneck,邻域注意力转换器组中包括平行排列的两个大尺寸邻域注意力机制natten和单个小尺寸邻域注意力机制natten;并通过优化模块对边缘保留模块进行优化,以得到优化后的边缘保留模块;

    5、将自然图像输入优化后的边缘保留模块中,两个大尺寸邻域注意力机制natten捕获指定对象的低频信息;单个小尺寸邻域注意力机制natten捕获指定对象的高频信息;及卷积颈resbottleneck汇总指定对象的低频信息和高频信息,得到多尺度特征;

    6、将多尺度特征输入解码器以对多尺度特征进行尺寸还原,得到自然图像除去指定对象后的透明度图。

    7、另外,自然图像包括:rgb图像和rbgt图像。

    8、另外,优化模块包括:文本编码器、图像编码器、转换器融合模块和对比学习模块clip-nat;

    9、通过优化模块对边缘保留模块进行优化,具体包括:将自然图像中输入图像编码器,得到图像特征;并将与自然图像对应的文本描述输入文本编码器,得到文本特征;

    10、通过转换器融合模块将图像特征和文本特征进行拼接融合,得到包含图像特征和文本特征的融合特征;

    11、通过对比学习模块clip-nat计算融合特征和多尺度特征之间的损失函数,根据损失函数调整边缘保留模块的参数,以得到优化后的边缘保留模块。

    12、另外,将自然图像中输入图像编码器,其具体包括:

    13、将一个自然图像集定义为g={g1,g2,g3,……,gn},其中n代表一次训练所需要的批量大小;

    14、使用图像编码器mi提取图像特征f'p∈rc,其中c表示通道数,r表示实数集合。

    15、另外,将与自然图像对应的文本描述输入文本编码器,其具体包括:

    16、将一个文本描述集定义为s={s1,s2,s3,……,sn},n代表一次训练所需要的批量大小;

    17、使用文本编码器mt提取文本特征f'q∈rc,其中c表示通道数,r表示实数集合。

    18、另外,通过转换器融合模块将图像特征和文本特征进行拼接融合,其具体包括:

    19、将文本编码器的输出结果作为文本特征f'q,将图像编码器的输出结果作为图像特征f'p;

    20、分别对文本特征f'q和图像特征f'p进行编码,公式为:

    21、f'q=mt(s)

    22、f'p=mi(g)

    23、其中,mt为文本编码器,mi为图像编码器,s为文本描述集,g为自然图像集;

    24、转换器融合模块将f'q和f'p融合,得到最终的融合特征f,其公式为:

    25、f=fusion(f'q,f'p)

    26、其中,f={f1,f2,f3,…,fn}。

    27、另外,通过对比学习模块clip-nat计算融合特征和多尺度特征之间的损失函数,损失函数的公式为:

    28、

    29、其中,为loss函数的总称,为分别计算已知区域与未知区域的绝对误差损失函数l1,为拉普拉斯损失函数,为梯度惩罚损失,为对比损失函数,为转换器融合模块获得的融合特征,f't为融合特征的正样本,f'j为融合特征的负样本,u为属于rbgt图像中未知区域的像素,k为属于rbgt图像中已知区域相关的像素,为真实值与预测值之间差的绝对值。

    30、本发明实施例提供的上述一种自然图像抠图方法,与现有技术相比,其有益效果如下:

    31、现有的用于自然图像抠图任务的卷积神经网络倾向于从自然图像中提取全局特征,在处理前景和背景颜色以及纹理相似的边缘时,无法保留边缘细节特征。

    32、而本发明通过将自然图像输入优化后的边缘保留模块中,两个大尺寸邻域注意力机制natten捕获指定对象的低频信息;单个小尺寸邻域注意力机制natten捕获指定对象的高频信息,通过指定对象的低频信息反映全局特征,通过指定对象的高频信息反映边缘细节特征;使用了不同大小的多个邻域自注意力机制在保留边缘细节特征的同时,也能够结合更广泛的全局特征,使得边缘信息更加完整和清晰,进而提高抠图任务的完成度和精准度。

    33、还有,卷积颈resbottleneck汇总指定对象的低频信息和高频信息,得到多尺度特征,将多尺度特征输入解码器以对多尺度特征进行尺寸还原,得到自然图像除去指定对象后的透明度图,多模态特征的加入使抠图模型erkd的边缘保留模块提取的特征更符合抠图任务的预期,优化图像边缘特征的提取。



    技术特征:

    1.一种自然图像抠图方法,其特征在于,包括:

    2.如权利要求1所述的一种自然图像抠图方法,其特征在于,所述自然图像包括:rgb图像和rbgt图像。

    3.如权利要求1所述的一种自然图像抠图方法,其特征在于,所述优化模块包括:文本编码器、图像编码器、转换器融合模块和对比学习模块clip-nat;

    4.如权利要求3所述的一种自然图像抠图方法,其特征在于,所述将自然图像中输入图像编码器,其具体包括:

    5.如权利要求3所述的一种自然图像抠图方法,其特征在于,所述将与所述将与自然图像对应的文本描述输入文本编码器,其具体包括:

    6.如权利要求3所述的一种自然图像抠图方法,其特征在于,所述通过转换器融合模块将图像特征和文本特征进行拼接融合,其具体包括:

    7.如权利要求3所述的一种自然图像抠图方法,其特征在于,所述通过对比学习模块clip-nat计算融合特征和多尺度特征之间的损失函数,损失函数的公式为:


    技术总结
    本发明公开了一种自然图像抠图方法,其涉及图像处理技术领域。包括:获取包含指定对象的自然图像,构建抠图模型ERKD;将自然图像输入抠图模型ERKD的边缘保留模块,大尺寸邻域注意力机制Natten捕获指定低频信息,小尺寸邻域注意力机制Natten捕获高频信息,卷积颈ResBottleNeck汇总低频信息和高频信息得到自然图像的多尺度特征将多尺度特征输入解码器以对多尺度特征进行尺寸还原,得到自然图像除去指定对象后的透明度图。本发明使得边缘信息更加完整和清晰,进而提高抠图任务的完成度和精准度。

    技术研发人员:王振华,王佳晟,宁纪锋,周涛,乔杰
    受保护的技术使用者:西北农林科技大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-38446.html

    最新回复(0)