一种基于GPA_VLPD全局自适应的跨模态单阶段行人检测方法

    技术2024-12-27  44


    本发明属于机器视觉、自动驾驶以及行人视频监控,尤其涉及一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法。


    背景技术:

    1、行人检测是计算机视觉中的一个热门任务,它旨在复杂多变的环境中快速地分类并定位图像或视频中的行人。在现在逐渐智能化的生活中,很多应用都依赖于行人检测,例如行人搜索、动作识别和视频监控等。尤其是自动驾驶,智能车辆需要快速检测出行人并做出反应,否则可能会威胁到行人的生命安全。因此,行人检测算法的推理速度和检测精度是非常重要的。

    2、行人检测的难点主要有两个:行人会受到复杂街道环境下的非人类物体或附近行人的影响,导致类内或类间的遮挡。不同方向,距离较远的行人在监控器中会产生与正常目标尺度差异很大的小目标。这两个难点极大地破坏了行人具有的一般规则形状,降低了区别特征。最具挑战的就是两个难点相加的heavy检测集,行人被严重遮挡且目标尺度又很小,它的特征紧凑且模糊,缺乏足够的细节,在此情况下,人形外观遮挡物由于形态上与行人非常相似,很容易使得检测器误检,进一步增加了行人检测的难度。因此处理这些问题需要检测器具备强大的特征提取能力和辨别检测复杂条件下行人的能力。

    3、为了解决上述问题,基于faster r-cnn和cascade mask r-cnn的两阶段方法由于出色的特征提取和处理能力,已经广泛地运用到各种行人检测的任务上。两阶段方法通常使用hrnet或者resnext作为主干提取网络,然后将主干提取的特征信息通过区域建议网络(rpn)对可能的目标进行粗略预测,接着严格地细化建议区域内的特征边界框并生成最终地预测分数。还有f2dnet使用快速抑制头帮助解决在检测头产生的false positivesproduced。除了常见两阶段目标检测方法,还有利用人体目标独特特征(例如人体关键点和可见部分的掩膜)进行行人检测。然而,由于这些方法的推理速度受到其网络架构的限制,使得它们不容易运用在现实生活。

    4、为了简化网络结构,加快推理速度,研究人员开发了只进行一轮预测的单阶段方法,并成功将其运用到行人检测上。然而,单阶段方法在各个测试子集的精度上远低于两阶段方法f2dnet。单阶段方法在推理速度上有优势,但无法兼顾检测精度。为了缓解这个问题,vlpd对csp整体架构进行了改进,引入预训练视觉语义模型clip通过跨模态映射的伪标签得到额外的视觉语义标签来识别显示上下文的语义类。在训练阶段采用原型语义对比学习方法辅助网络更好地区分行人和语境。vlpd在citypersons的各个测试子集上的精度都有不错的提升。但是与两阶段方法f2dnet相比,vlpd在检测精度仍有上升空间。


    技术实现思路

    1、考虑检测环境和检测目标的复杂多样性,行人检测是一个较难解决的问题,并且它还要兼顾检测精度和检测速度。当前的行人检测主要分为两阶段方法和单阶段方法。两阶段方法通过额外利用生成挑选候选边界框的方法,实现了在检测精度上的领先,但其检测速度也因此受到抑制。单阶段方法直接在提取的特征图上进行预测,极大地提高了检测速度,但其检测精度远不如两阶段方法。本发明旨在保持单阶段检测速度的基础上,将单阶段方法的行人检测精度提高到与两阶段方法相当的水平,对vlpd的特征提取模块进行重新设计,加入新设计的轻量化模块gpa,提出gpa-vlpd算法,实现在复杂环境下对行人快速准确的识别定位。通过本发明,使得单阶段行人检测方法能够更好地应用到实际生活中,推进自动驾驶和视频监控等领域的进步。

    2、其具体采用以下技术方案:

    3、一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法:利用预训练好的视觉语言模型clip的text encoder将类别文本映射为文本特征;通过clip的image encoder获得伪标签;然后将训练集和文本特征输入到gpa-vlpd特征提取模块,得到适用于检测行人的gpa-vlpd模型;最后将训练完成的模型对图像进行推理检测;如果检测到行人,则框选并输出。

    4、进一步地,在训练开始之前,根据模板和类别,利用clip模型的text encoder,将行人检测中的类别映射为大小指定的文本特征向量;生成的文本特征向量通过点积的方式与图像特征进行余弦相似度的计算,从而实现图像和文本的跨模态融合。

    5、进一步地,所述gpa-vlpd特征提取模块中,包括极简化通道和空间注意力模块gpa,用于将特征图进行自适应特征细化,使用通道注意力和空间注意力并行计算的结构获得通道权重和空间权重,所述通道权重用于调整每个通道的特征响应,所述空间权重用于调整不同空间位置的特征响应;然后以相加再激活的方式将通道权重和空间权重相融合,得到统一的3dattention map;最后将attention map和input feature进行逐像素相乘以实现对通道和空间两个方面的自适应特征调整。

    6、进一步地,所述极简化通道和空间注意力模块gpa当中:

    7、对于通道注意力:

    8、ach(x)=fex(fsq,w)=σ[w2δ(w1(fgp(x)))]

    9、使用全局平局池化fgp将全局特征图的空间信息压缩到一个大小为c×1×1的一维矢量:这个矢量代表了该通道特征的全局重要性;直接将这个矢量转发到由拥有两个全连接层和一个隐藏层的共享网络上,并将降维层的缩减率r设置为16;所述共享网络用于学习如何加权每个通道的特征响应;经过共享网络的处理后,为了与空间特征进行逐像素相加,利用σ(·)张量扩张函数将特征向量扩展为输入特征大小,得到通道特征向量ach(x);

    10、对于空间注意力:

    11、asp(x)=σ(w([favg(x);fmax(x)]))

    12、首先以特征的通道为轴,将输入特征进行全局平均池化和最大池化获得2个2d的空间注意力特征,然后将生成的两个空间注意力特征进行concat生成空间注意力图;其中通过一个卷积核为7×7的卷积操作,以减少参数和计算量;最后将生成的2d空间注意力图利用扩张函数扩展为输入特征大小,得到空间特征向量asp(x);

    13、空间通道融合:将所述通道分支和空间分支的输出在并行布局下合成

    14、gma(x)=z⊙x=(fsg(ach+asp))⊙x

    15、″+″是将通道特征权重和空间特征权重进行逐像素相加,实现通道信息和空间信息的均权融合;fsg是激活函数sigmoid,通过激活函数将输出限制在0到1之间,表示每个位置的权重;″⊙″是将特征图与3d attention map进行逐像素相乘。

    16、进一步地,所述gpa-vlpd特征提取模块中,vlpd采用resnet-50作为backbone,并将预训练好的视觉语言模型clip权重进行初始化;vlpd在stage5没有进行下采样操作,而采用空洞卷积以增加感受野,在resnet-50的最后一个stage的每一层都加入se-postblock;

    17、vlpd的p3、p4输出层后中加入所述极简化通道和空间注意力模块gpa,以构成gpa-vlpd特征提取模块。

    18、进一步地,在训练阶段,gpa-vlpd特征提取模块的网络整体架构中:

    19、第一部份是特征提取模块加csp检测头,首先利用clip-resnet50预训练权重对主干进行初始化,然后对输入图片进行特征提取,将主干最后一层输出的特征向量与clip生成的文本向量进行融合;对主干的p3、p4、p5统一通过反卷积至一样大小并拼接,将融合了图像和文本信息的特征向量上采样后也拼接在一起;最后csp检测头直接在包含视觉语义信息的特征图上进行推理预测;

    20、第二部分是将融合了语义信息的p5特征图与clip image-encoder生成的同样融合了语义信息的特征图进行无监督的对比学习;

    21、第三部分是将p3反卷积后的特征图与标注框和融合了语义信息的p5特征图进行原型语义对比学习,将相同的类别的目标拉近距离,将不同类别的目标进行远离,从而提高模型对行人和环境的辨别能力。

    22、进一步地,在推理阶段,所述gpa-vlpd特征提取模块只保留第一部分及训练获得的对应权重。

    23、进一步地,训练采用的数据集的构建方法如下:首先将citypersons高分辨率数据集划分为训练集和测试集;将训练集随机裁剪到相同尺寸并相应生成位置的标签文件;再将训练集进行随机亮度改变和随机翻转的数据增强操作。

    24、以及,.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法的步骤。

    25、一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述的一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法的步骤。

    26、相比于现有技术,本发明及其优选方案提出的具有两阶段行人检测方法的检测精度和单阶段行人检测方法的推理速度的gpa-vlpd更适合于运用到现实生活中,以推动自动驾驶、行人视频监控等领域的进步。


    技术特征:

    1.一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法,其特征在于:利用预训练好的视觉语言模型clip的text encoder将类别文本映射为文本特征;通过clip的image encoder获得伪标签;然后将训练集和文本特征输入到gpa-vlpd特征提取模块,得到适用于检测行人的gpa-vlpd模型;最后将训练完成的模型对图像进行推理检测;如果检测到行人,则框选并输出。

    2.根据权利要求1所述的一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法,其特征在于:在训练开始之前,根据模板和类别,利用clip模型的text encoder,将行人检测中的类别映射为大小指定的文本特征向量;生成的文本特征向量通过点积的方式与图像特征进行余弦相似度的计算,从而实现图像和文本的跨模态融合。

    3.根据权利要求1所述的一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法,其特征在于:所述gpa-vlpd特征提取模块中,包括极简化通道和空间注意力模块gpa,用于将特征图进行自适应特征细化,使用通道注意力和空间注意力并行计算的结构获得通道权重和空间权重,所述通道权重用于调整每个通道的特征响应,所述空间权重用于调整不同空间位置的特征响应;然后以相加再激活的方式将通道权重和空间权重相融合,得到统一的3d attention map;最后将attention map和input feature进行逐像素相乘以实现对通道和空间两个方面的自适应特征调整。

    4.根据权利要求3所述的一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法,其特征在于:

    5.根据权利要求3所述的一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法,其特征在于:

    6.根据权利要求5所述的一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法,其特征在于:

    7.根据权利要求6所述的一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法,其特征在于:在推理阶段,所述gpa-vlpd特征提取模块只保留第一部分及训练获得的对应权重。

    8.根据权利要求1所述的一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法,其特征在于:训练采用的数据集的构建方法如下:首先将citypersons高分辨率数据集划分为训练集和测试集;将训练集随机裁剪到相同尺寸并相应生成位置的标签文件;再将训练集进行随机亮度改变和随机翻转的数据增强操作。

    9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8任一项所述的一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法的步骤。

    10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-8任一项所述的一种基于gpa_vlpd全局自适应的跨模态单阶段行人检测方法的步骤。


    技术总结
    本发明提出一种基于GPA_VLPD全局自适应的跨模态单阶段行人检测方法,利用预训练好的视觉语言模型CLIP的Text Encoder将类别文本映射为文本特征;通过CLIP的Image Encoder获得伪标签;然后将训练集和文本特征输入到GPA‑VLPD特征提取模块,得到适用于检测行人的GPA‑VLPD模型;最后将训练完成的模型对图像进行推理检测;如果检测到行人,则框选并输出。

    技术研发人员:郭一晶,李富航,邱义,李坤华,陈宗佑
    受保护的技术使用者:厦门大学嘉庚学院
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-24329.html

    最新回复(0)