一种融合全局特征和局部特征的低分辨率视线估计方法

    技术2025-05-05  46


    本发明涉及模式识别领域,尤其涉及一种融合全局特征和局部特征的低分辨率视线估计方法。


    背景技术:

    1、视线估计的主要任务是预测人类注视的方向或注视点的位置,其在虚拟现实、辅助驾驶、人机交互等领域都有广泛的应用前景,被越来越多研究者所关注。然而,现有研究往往假定输入图像为理想状态下的高分辨率图像,忽视了实际应用中低分辨率图像的普遍存在的现象。低分辨率下的视线估计面临如特征提取困难和视线相关特征丢失等挑战,这些因素共同导致了性能的显著下降。因此,针对低分辨率场景下的视线估计进行研究具有重要的意义,不仅能够扩展视线估计技术的适用范围,也能提高其在实际场景中的应用价值;传统视线估计方法提取低分辨率图像特征效果较差,并且传统卷积网络在特征提取过程中存在信息丢失的问题,进而导致效果不佳。


    技术实现思路

    1、发明目的:为了克服现有技术中存在的不足,本发明提供一种融合全局特征和局部特征的低分辨率视线估计方法,提取人脸全局特征、左眼和右眼的局部特征,并将人脸全局特征、左眼和右眼的局部特征通过全局和局部特征融合的视线估计模块进行融合,得到视线角度方向;改善低分辨率视线估计的效果,获得更具鲁棒性的特征,进行可靠的视线估计,提高低分辨率场景的视线估计性能。

    2、技术方案:为实现上述目的,本发明的一种融合全局特征和局部特征的低分辨率视线估计方法,包括以下步骤:

    3、步骤一、通过摄像装置获取帧图像;

    4、步骤二、对帧图像中的人脸区域、左眼区域和右眼区域进行检测和定位,并将人脸的帧图像进行裁剪,得到人脸图像、左眼部图像和右眼部图像;

    5、步骤三、采用基于超分辨率和卷积transformer的人脸特征提取模块提取人脸图像中的人脸全局特征;

    6、步骤四、采用人眼注意力强化特征提取模块提取左眼部图像和右眼部图像中的左眼局部特征和右眼局部特征;

    7、步骤五、通过全局和局部特征融合的视线估计模块将人脸图像全局特征、左眼局部特征和右眼局部特征进行融合,得到双眼视线方向。

    8、进一步的,所述步骤三中,采用图像超分辨率模型swinir的浅层特征提取模块提取人脸图像ilq∈rh×w×c的浅层特征,将ilq∈rh×w×c的低分辨率图像转换为一个由c通道特征化的增强维度特征空间,计算过程如下:

    9、

    10、式中,f0为浅层特征,hsf表示为卷积层的转换操作;

    11、所述图像超分辨率模型swinir的深层特征提取模块包含和cnn耦合的k个残差swin transformer块和一个卷积层,swin transformer块依次计算过度特征f1,f2,…fk,计算过程如下:

    12、

    13、式中,rstbi表示为第i个rstb块;

    14、采用卷积层提取深层特征fdf计算过程如下:

    15、fdf=hconv(fk)

    16、式中,hconv表示为卷积层提取特征的卷积操作。

    17、进一步的,通过图像超分辨率模型swinir的高质量图像重建模块结合浅层特征和深层特征重建高质量图像,并输出高分辨率图像;计算过程如下:

    18、fhr=hrec(f0+fdf)

    19、式中,hrec表示为高质量图像重建模块的重建操作。

    20、进一步的,采用resnet18网络提取高分辨率图像的高分辨率图像特征,并将高分辨率图像特征展平为二维张量的向量特征fp;计算过程如下:

    21、fp=flat(γ(fhr))

    22、式中,γ为resnet18网络提取特征操作,flat为向量展平操作;

    23、将每个输入的人脸图像样本生成的类别标记ftoken与向量特征fp与进行拼接,生成位置编码,位置编码通过transformer编码器与上位置编码fpos进行拼接,获得特征f:

    24、f=concat(ftoken,fp)+fpos

    25、式中,concat表示为特征拼接操作;

    26、将特征f输入至transformer中提取人脸全局特征,选择第一个向量作为人脸全局特征ffa,计算过程如下:

    27、ffa=transformer(f)[0,:]

    28、式中,transformer表示为transformer特征提取操作。

    29、进一步的,所述步骤四中,人眼注意力强化特征提取模块中采用残差网络resnet18提取左眼部图像和右眼部图像的局部特征,所述resnet18网络包括初始层、卷积层、批归一化层、relu激活函数、最大池化层;网络将双眼部分图像的输入特征f∈rc×h×w的高度和宽度分别进行自适应平均池化,再对输入特征的高度和宽度分别进行平均池化和最大池化,得到池化特征,计算过程如下:

    30、

    31、式中,adaptiveavgpool表示为自适应平均池化,下标h,w表示为对高度和宽度操作,avgpool表示为平均池化操作,maxpool表示为最大池化操作;

    32、将池化特征在高度维度和宽度维度上分别进行拼接合并操作,得到高度特征和宽度特征:

    33、

    34、式中,concat表示为向量拼接操作;

    35、并将得到的高度特征和宽度特征再进行拼接合并操作,获得综合空间特征ft:

    36、ft=concat(fh,fw)

    37、式中,concat表示为向量拼接操作。

    38、进一步的,对综合空间特征ft进行一维卷积和批归一化的操作,通过sigmoid激活函数将卷积后的特征归一化,生成空间注意力图mgr;计算过程如下:

    39、

    40、式中,σ表示为激活函数,conv表示为卷积操作,bn表示为批归一化操作;

    41、将空间注意力图mgr与原始向量进行加权相乘,获得空间位置的特征图,进而得到左眼局部特征fle和右眼局部特征fre:

    42、

    43、式中,表示为对应元素相乘。

    44、进一步的,所述步骤五中,通过全局和局部特征融合的视线估计模块将获得的人脸全局特征ffa、左眼局部特征fle和右眼局部特征fre进行拼接;并将人脸全局特征和双眼的局部特征拼接后,再通过多层感知器得到视线的二维特征ypred,以表示视线估计的角度;

    45、ypred=mlp(concat(ffa,fle,fre))式中,mlp表示为多层感知器,concat表示为特征拼接操作。

    46、进一步的,采用l1loss作为视线估计的损失函数,损失函数lgaze计算如下:

    47、

    48、式中,ygt表示为视线估计真实值,ypred表示为视线估计模型的预测值。

    49、有益效果:本发明的一种融合全局特征和局部特征的低分辨率视线估计方法,提出了基于超分辨率和卷积transformer的人脸特征提取模块,该模块使用swinir恢复人脸低分辨率特征,之后通过卷积混合的transformer从特征图中捕获人脸全局特征,恢复人脸低分辨率特征,之后从特征图中捕获人脸全局特征,以提高低分辨率场景的视线估计性能;提出了人眼注意力强化特征提取模块,该模块主要用于强化视线相关区域,从而改善低分辨率视线估计的效果;提出了全局和局部特征融合的视线估计模块,能融合人脸中的全局特征和眼睛中的局部特征,获得更具鲁棒性的特征,进行可靠的视线估计;有效减少从低分辨率图像中提取眼部特征时的信息丢失,增强模型低分辨率视线估计性能。


    技术特征:

    1.一种融合全局特征和局部特征的低分辨率视线估计方法,其特征在于:包括以下步骤:

    2.根据权利要求1所述的一种融合全局特征和局部特征的低分辨率视线估计方法,其特征在于:所述步骤三中,采用图像超分辨率模型swinir的浅层特征提取模块提取人脸图像ilq∈rh×w×c的浅层特征,将ilq∈rh×w×c的低分辨率图像转换为一个由c通道特征化的增强维度特征空间,计算过程如下:

    3.根据权利要求2所述的一种融合全局特征和局部特征的低分辨率视线估计方法,其特征在于:通过图像超分辨率模型swinir的高质量图像重建模块结合浅层特征和深层特征重建高质量图像,并输出高分辨率图像;计算过程如下:

    4.根据权利要求3所述的一种融合全局特征和局部特征的低分辨率视线估计方法,其特征在于:采用resnet18网络提取高分辨率图像的高分辨率图像特征,并将高分辨率图像特征展平为二维张量的向量特征fp;计算过程如下:

    5.根据权利要求1所述的一种融合全局特征和局部特征的低分辨率视线估计方法,其特征在于:所述步骤四中,人眼注意力强化特征提取模块中采用残差网络resnet18提取左眼部图像和右眼部图像的局部特征,所述resnet18网络包括初始层、卷积层、批归一化层、relu激活函数、最大池化层;网络将双眼部分图像的输入特征f∈rc×h×w的高度和宽度分别进行自适应平均池化,再对输入特征的高度和宽度分别进行平均池化和最大池化,得到池化特征,计算过程如下:

    6.根据权利要求5所述的一种融合全局特征和局部特征的低分辨率视线估计方法,其特征在于:对综合空间特征ft进行一维卷积和批归一化的操作,通过sigmoid激活函数将卷积后的特征归一化,生成空间注意力图mgr;计算过程如下:

    7.根据权利要求1所述的一种融合全局特征和局部特征的低分辨率视线估计方法,其特征在于:所述步骤五中,通过全局和局部特征融合的视线估计模块将获得的人脸全局特征ffa、左眼局部特征fle和右眼局部特征fre进行拼接;并将人脸全局特征和双眼的局部特征拼接后,再通过多层感知器得到视线的二维特征ypred,以表示视线估计的角度;

    8.根据权利要求1所述的一种融合全局特征和局部特征的低分辨率视线估计方法,其特征在于:采用l1loss作为视线估计的损失函数,损失函数lgaze计算如下:


    技术总结
    本发明公开了一种融合全局特征和局部特征的低分辨率视线估计方法,包括通过摄像装置获取帧图像;对帧图像中的人脸区域、左眼区域和右眼区域进行检测和定位,并将人脸的帧图像进行裁剪,得到人脸图像、左眼部图像和右眼部图像;采用基于超分辨率和卷积transformer的人脸特征提取模块提取人脸图像中的人脸全局特征;采用人眼注意力强化特征提取模块提取左眼部图像和右眼部图像中的左眼局部特征和右眼局部特征;通过全局和局部特征融合的视线估计模块将人脸图像全局特征、左眼局部特征和右眼局部特征进行融合,得到双眼视线方向;改善低分辨率视线估计的效果,获得更具鲁棒性的特征,进行可靠的视线估计,提高低分辨率场景的视线估计性能。

    技术研发人员:窦立云,王进,曹硕裕,芦欣
    受保护的技术使用者:南通理工学院
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-30460.html

    最新回复(0)