一种基于边缘约束的单目红外红外热图像自监督深度估计方法

    技术2025-07-29  9


    本发明属于机器视觉导航与定位领域,具体涉及一种基于边缘约束的单目红外红外热图像自监督深度估计方法。


    背景技术:

    1、近年来,应用于机器人或自动驾驶汽车领域的基于深度学习的视觉定位导航技术逐渐引起人们关注。无监督方法通过构建深度学习模型,利用视差、图像重建等自监督信号,自动学习图像中的几何信息,从而推测深度。这种方法不仅降低了数据获取成本,还提升了模型在多样化场景中的适应性,是当前深度估计研究的热点方向。相对于多目深度估计来说,单目图像缺乏视差信息,难以精确估计深度,尤其是在缺乏明显线索的情况下。为了弥补这一缺点,需要增加卷积计算量、添加注意力机制来有选择性地关注重要信息。

    2、使用热成像相机作为视觉定位系统的数据输入仪器,可以在太阳光微弱的时间段或恶劣的天气条件下捕捉视觉信息,它使得机器人或其他自动驾驶载具在光线微弱的环境下的视觉定位能力的可靠度大幅提升。然而,红外热图像存在着其固有的缺陷,相比于rgb图像,红外热图像有着更低的信噪比、对比度。因此,在单目红外热图像的深度估计中,其预测深度图的边缘往往比rgb图的预测图边缘更加模糊。


    技术实现思路

    1、为解决上述问题,本发明公开了一种基于边缘约束的单目红外红外热图像自监督深度估计方法,利用门控注意力-感受野卷积神经网络与边缘提取网络、边缘损失,提高单目红外热图像深度估计在图形边缘处的精确性。

    2、为达到上述目的,本发明的技术方案如下:

    3、一种基于边缘约束的单目红外红外热图像自监督深度估计方法,包括以下步骤:

    4、(1)采用感受野门控注意力卷积神经网络提取红外热图像语义特征;

    5、(2)高斯滤波器与sobel滤波器串联的过滤器与edgenet分别过滤目标图像与重建图像,它们之间的差异产生边缘损失,监督提高训练网络在物体边缘处的关注度;

    6、(3)提取边缘信息、分割重建图像特征的网络的edgenet的结构。

    7、进一步地,步骤(1)所述基于感受野门控注意力卷积神经网络的特征提取方法表示为:

    8、oconv=w*x+b

    9、ogate=σ(wgate*x+bgate)

    10、o=oconv⊙ogate

    11、ofinal=rfaconv(o)

    12、其中w是卷积核,x是输入特征,b是偏置项,wgate是门控卷积核,bgate是门控偏置项,*表示卷积操作,σ是激活函数,⊙表示逐元素乘积,oconv为普通卷积输出,ogate为门控机制输出,o为门控注意力输出,rfaconv为感受野卷积神经网络,ofinal为编码过程的特征的最终输出。

    13、具体来说,门控注意力输出经过门控卷积核和激活函数得到的门控特征图。门控注意力的输出是普通卷积输出与门控机制输出的逐元素乘积。

    14、在本发明中,特征图会通过两个连续的门控注意力,以提高注意力机制的特征选择性提取的效果,并且特征图在第一次经过门控注意力的时候使其通道数增加到32。然后,特征图先后通过大卷积层和4层感受野卷积神经网络层,输出通道数分别为64,64,128,256,512,并且特征图尺寸会逐层减小。在大卷积和每个四层感受野卷积神经网络层的后面建立残差链接,残差特征对应的张量会在解码时与上采样张量沿第二个维度叠加在一起后一起被卷积。在解码过程的最后一层,视差图也会用双层门控注意力有选择地提特征并加以表达。

    15、进一步地,步骤(2)具体如下:

    16、为了对红外热图像的深度预测图中物体边缘处的形状进行监督,本发明在图像一致性损失和结构一致性损失之后,再添加一种边缘损失edgeloss。

    17、具体形式为:预测深度图是目标图像经过深度网络生成的深度图;目标图像为经过处理后的当前帧的单目红外热图像,真实边缘图由目标图像先后通过高斯滤波器和sobel滤波器计算出的梯度生成;重建图像为经过深度网络预测的深度图根据相对位姿扭曲到经过处理后的源图像框架内的合成图像,重建边缘图由重建图像通过edgenet提取特征、分割后生成。然后通过掩码去除掉无用特征,最后计算两个特征图对应张量之间的平方差,所得结果就是边缘损失edgeloss。edgeloss通过强制模型在边缘区域生成更精确的深度预测,从而增强模型的准确度。

    18、进一步地,步骤(3)所述edgenet网络搭建方法为:

    19、edgenet的总体结构类似于u型网络,分为编码和解码的过程。在编码过程中,会有若干个相似的下采样过程。特征图通过这些下采样层时先经过一个最大池化层,使特征图的长度和宽度减半,即特征图大变为原来的1/4,从而增加更大范围的输入信息。然后特征图与两个小核卷积,期间完成通道数的倍增,从而捕捉到更加抽象和高级的特征。在解码过程中,会有若干个相似的上采样过程。解码器中的每一层都要经过上采样的双线性插值层,让特征图的空间分辨率逐步恢复到输入图像的分辨率。从编码部分传递到解码部分的链接为跳跃连接。跳跃连接将编码器中对应层的特征图直接传递到解码器中相应层,并与解码器当前层的特征图进行拼接,再通过小卷积核的卷积。最后的输出卷积层将通道数恢复到1。

    20、edgenet的层数取决于使用者的需要,若不需要高级的、复杂的语义特征,则可以减少edgenet的下采样层和与之对应的上采样层,以节约计算成本。

    21、本发明的有益效果是:

    22、本发明所述的一种基于边缘约束的单目红外红外热图像自监督深度估计方法,采用一种基于门控注意力与感受野卷积神经网络结构结合的模型提取单目红外热图像特征及细节;同时在总损失中加入了一种边缘损失edgeloss,用于约束预测深度图中的物体边缘,抑制边缘模糊;这种边缘损失产生的过程中用到的edgenet,可以有效地提取重建图像的边缘特征。且该edgenet没有参与推理过程,不会因此增加推负载。在昏暗环境下,使用本发明提出的方法可以大幅度地减少环境光不足的条件下对单目红外热图像深度估计精度带来的影响,并且在预测深度的边缘结构处有更准确的表达。



    技术特征:

    1.一种基于边缘约束的单目红外红外热图像自监督深度估计方法,其特征在于:包括以下步骤:

    2.根据权利要求1所述的一种基于边缘约束的单目红外红外热图像自监督深度估计方法,其特征在于:步骤(1)所述基于感受野门控注意力卷积神经网络的特征提取方法表示为:

    3.根据权利要求1所述的一种基于边缘约束的单目红外红外热图像自监督深度估计方法,其特征在于:步骤(2)具体如下:

    4.根据权利要求1所述的一种基于边缘约束的单目红外红外热图像自监督深度估计方法,其特征在于:步骤(3)所述edgenet网络搭建方法为:


    技术总结
    本发明公开了一种基于边缘约束的单目红外红外热图像自监督深度估计方法,采用一种基于门控注意力与感受野卷积神经网络结合的网络提取单目红外红外热图像特征及细节,利用图像重建技术,通过比较重建红外热图像和真实红外热图像之间的差异来计算损失;同时使用边缘特征提取网络EdgeNet,在总损失中再添加一种边缘损失EdgeLoss,用于约束预测深度图中的物体的边缘形状;实验结果表明,在昏暗环境下的深度估计方法当中,使用本发明提出的方法可以大幅减少环境光不足的条件下单目红外红外热图像深度估计任务中物体边缘形状模糊的情况的出现,并且使得模型在预测时的深度图中的物体边缘处有更精确的结果。

    技术研发人员:赵涛,费添翼,张登峰,李嗣娜
    受保护的技术使用者:南京工业大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-34650.html

    最新回复(0)