本发明属于图像处理,涉及一种图像翻译方法,具体涉及一种结合扩散模型与条件生成对抗网络的两阶段图像翻译方法。
背景技术:
1、在光学遥感图像应用中,红外遥感图像具有对温度变化敏感、可远距离成像、弱光条件下特征清晰的特点,被广泛应用于遥感目标检测、农作物病虫害监测、森林火灾响应等军民领域。然而,由于红外探测器成本高和探测条件约束,在研究应用中难以大量获取某些特定目标的红外遥感图像。
2、为解决这一问题,通常可建立目标场景光学特性模型和探测链路传输退化模型,基于全链路仿真思想生成特定目标的红外遥感图像。基于这一思路,研究学者已经开发研制了多款专业建模仿真的软件系统,但物理建模的仿真计算涉及大量中间参数,且仿真生成的图像质量和精度难以满足实际应用需求。
3、近年来,随着卷积神经网络的发展,基于深度学习网络的图像生成模型为红外图像生成提供了一种新的解决方案。生成对抗网络(gan)作为一种重要的图像生成模型,通过生成器(generator)和判别器(discriminator)的博弈训练,可实现高质量图像的生成。然而典型gan生成的样本是无条件的,即无法保证输出样本具有某种特定的特征或属于某一类别。在实际应用中,研究者希望生成器能够根据某些特定的条件来生成样本。因此,条件生成对抗网络(cgan)在典型gan网络训练过程中引入条件信息(可以是类别标签、特征图、文本、属性向量、位置坐标等),解决了生成特定类别图像的问题,提高了网络训练过程的稳定性,扩展了生成对抗网络在图像修复、图像翻译、图像超分等领域的应用。但是cgan的性能高度依赖于条件信息的质量和准确性,如果条件信息本身有噪声或偏差,将直接影响到生成图像的质量。扩散模型(diffusion model)是近年来新兴的一类生成模型,扩散模型的生成过程从随机噪声开始,通过一系列的迭代去噪,逐步重建出高质量的数据结构。因此,有必要研究如何将扩散模型引入,使得cgan模型可以更加精细地控制生成过程,增强图像生成质量。
技术实现思路
1、本发明针对特定目标的红外遥感图像获取困难的问题,提供了一种基于扩散模型的条件引导图像翻译方法。该方法考虑到扩散模型稳定性好、可控性强的重构和去噪能力这一优势,将扩散模型与cgan结合,利用扩散模型处理cgan的条件信息,提高条件信息的质量和准确性,有效提升cgan的图像翻译性能。
2、本发明的目的是通过以下技术方案实现的:
3、一种基于扩散模型的条件引导图像翻译方法,包括如下步骤:
4、步骤一:将红外和可见光图像输入到第一残差注意力网络,提取输入图像的深度全局特征图,将提取到的深度全局特征图作为条件生成对抗网络的限制条件,利用条件生成对抗网络的目标函数优化第一残差注意力网络参数,完成第一残差注意力网络的预训练,具体步骤如下:
5、步骤一一:加载一张h×w×3可见光图像和一张h×w×1红外图像,其中h表示图像高度,w表示图像宽度,3和1表示通道数,将可见光和红外图像进行通道维拼接,得到一张h×w×4图像,利用pixelunshuffle算法对拼接的图像进行降采样处理,得到降采样图像;
6、步骤一二:将降采样图像输入到第一残差注意力网络,通过3×3卷积核的卷积层、relu激活函数和五个堆叠的残差注意力模块,提取深度全局特征,最后通过3×3卷积,输出形状为h×w×c的深度全局特征图z,其中c为新的通道数;
7、步骤一三:将第一残差注意力网络提取的深度全局特征图z作为条件生成对抗网络的条件信息,通过一个平均池化层和linear层将特征图映射为为u-net中对应层的通道数,将与u-net中各层输入点乘;
8、步骤一四:计算损失函数对第一残差注意力网络参数的梯度,利用反向传播算法,更新第一残差注意力网络参数,判断第一残差注意力网络是否满足训练终止的条件,训练终止的条件为:达到预设的训练轮次;
9、步骤二:将红外和可见光图像输入到预训练完成的第一残差注意力网络,提取输入图像的深度全局特征图,将可见光图像输入到随机初始化的第二残差注意力网络,第二残差注意力网络仅关注输入的可见光样本,提取可见光样本的深度特征图,具体步骤如下:
10、步骤二一:加载一张h×w×3可见光图像,一张h×w×1红外图像,将可见光、红外图像进行通道维拼接,得到一张h×w×4图像,使用pixelunshuffle算法对拼接的图像进行降采样处理,得到降采样图像,将降采样图像输入到第一残差注意力网络,提取大小为h×w×c的深度全局特征图z;
11、步骤二二:对h×w×3可见光图像进行pixelunshuffle算法处理,得到降采样图像,将降采样图像输入第二残差注意力网络,提取可见光样本的深度特征图d;
12、步骤三:对深度全局特征图进行扩散加噪,将扩散的深度全局特征图与可见光样本的深度特征图按通道维度拼接,输入到轻量的扩散模型,经过多次去噪细化生成细化特征图,将细化特征图作为条件生成对抗网络的约束条件,与可见光图像一起输入到条件生成对抗网络,输出可见光到红外的翻译图像,具体步骤如下:
13、步骤三一:对提取的深度全局特征图z执行扩散操作,向z中叠加高斯噪声,扩散过程服从下列公式:
14、
15、式中参数αt=1-βt,参数βt为噪声方差因子,z表示深度全局特征图,zt表示扩散后的深度全局特征图,表示高斯分布,i表示单位矩阵;
16、步骤三二:将扩散的深度全局特征图输入扩散模型的去噪网络中,迭代去噪得到细化特征图
17、步骤三三:将细化特征图和可见光图像输入条件生成对抗网络,联合优化第二残差注意力网络、扩散模型和条件生成对抗网络;
18、步骤三四:计算损失函数对第二残差注意力网络、扩散模型和条件生成对抗网络参数的梯度,利用反向传播算法,更新第二残差注意力网络、扩散模型和条件生成对抗网络参数,判断第二残差注意力网络、扩散模型和条件生成对抗网络是否满足训练终止的条件,训练终止的条件为:达到预设的训练轮次;
19、步骤三五、在推理阶段,首先将可见光图像输入resattnet2,输出可见光样本的深度特征图d,利用扩散模型处理深度特征图d和深度全局特征图z,输出细化特征图最后将可见光图像和细化特征图输入条件生成对抗网络,输出可见光到红外的翻译图像。
20、相比于现有技术,本发明具有如下优点:
21、1、本发明提出了一种结合轻量化扩散模型和条件生成对抗网络的图像翻译框架。该框架充分结合cgan明确的对抗训练机制、生成速度快的优势和扩散模型稳定性好且可控性强的去噪能力,可快速生成细节丰富、保真度高的高质量图像。
22、2、本发明针对可见光到红外图像翻译领域,提出了基于残差网络和注意力机制的特征提取网络。与常见图像翻译模型不同,本发明关注图像翻译过程中的空间结构一致性,设计残差注意力网络提取和表征可见光图像的高级语义特征,并利用该特征指导后续图像翻译,保证生成的红外图像与输入可见光图像内容的高度关联。
23、3、本发明提出了一种基于扩散模型的条件轻量化去噪网络。与传统的扩散模型直接生成图像不同,本发明利用扩散模型细化特征信息,并采用轻量去噪网络训练,可降低扩散模型消耗的计算资源,实现扩散模型和条件生成对抗网络的联合训练。
1.一种基于扩散模型的条件引导图像翻译方法,其特征在于所述方法包括如下步骤:
2.根据权利要求1所述的基于扩散模型的条件引导图像翻译方法,其特征在于所述步骤一的具体步骤如下:
3.根据权利要求2所述的基于扩散模型的条件引导图像翻译方法,其特征在于所述损失函数为:
4.根据权利要求3所述的基于扩散模型的条件引导图像翻译方法,其特征在于所述对抗损失为:
5.根据权利要求3所述的基于扩散模型的条件引导图像翻译方法,其特征在于所述l1损失为:
6.根据权利要求1所述的基于扩散模型的条件引导图像翻译方法,其特征在于所述步骤二的具体步骤如下:
7.根据权利要求1所述的基于扩散模型的条件引导图像翻译方法,其特征在于所述步骤三的具体步骤如下:
8.根据权利要求7所述的基于扩散模型的条件引导图像翻译方法,其特征在于所述损失函数为:
9.根据权利要求8所述的基于扩散模型的条件引导图像翻译方法,其特征在于所述扩散模型损失函数为: