本发明涉及计算机视觉,具体为基于解耦交叉注意力与iou引导因子的遮挡目标检测方法。
背景技术:
1、深度学习在目标检测领域取得了长足进展,但遮挡问题一直是一个具有挑战性的问题。遮挡问题指在图像或视频中,待检测目标被其他目标或背景遮挡,导致目标难以被识别和定位。遮挡问题对目标检测带来的主要挑战如下:
2、1)遮挡导致目标特征丢失;
3、2)特征提取困难;
4、3)目标尺度变化。
5、为了解决上述遮挡所引起的问题,研究人员提出了一些方法,例如,tian等人[1]开发的deep-parts方法和zhang等人[2]的or-cnn,这些方法主要侧重于目标部位信息的利用,却可能忽视了整体信息,导致背景信息被错误地识别为检测目标。zhang等人[3]提出的da-rcnn通过整合头部与身体信息来优化检测框的生成,然而该检测器要求数据集中对头部进行额外的标注,增加了数据预处理的工作量。针对现有目标检测算法在处理遮挡问题时存在的缺陷,本发明通过基于自监督预训练的方法,并采用局部掩码策略来增强骨干网络对于被遮挡目标局部特征的提取能力,从而提高目标在遮挡场景中的检测准确率。
6、由于微调阶段采用的mask r-cnn[4]检测算法是一种两阶段目标检测算法,它通过设置密集锚点生成大量候选框,并通过将多个候选框分配给一个gt以实现更高的召回率。但是,检测网络本身无法消除重复预测,故高召回率会导致许多重复的预测框。
7、针对这一问题,常规做法是在后处理阶段引入非极大值抑制(nms)算法以剔除重复框体。在nms算法中,需要权衡不同的iou阈值设置。较高的阈值可以提高准确率并减少重复预测,但可能降低召回率;较低的阈值可以提高召回率,但可能降低准确率并产生大量重复预测。此外,当gt之间的iou高于nms指定的iou阈值时,不可避免地会出现漏检情况。尽管adaptivenms[5]和soft-nms[6]对原始nms进行了改进,在一定程度上改善了遮挡场景下目标检测的性能,但在复杂高重叠的遮挡场景中,基于nms后处理的检测器仍然存在严重的冗余预测和漏检问题。
8、因此需要对以上问题提出一种新的解决方案。
技术实现思路
1、本发明的目的在于提供基于解耦交叉注意力与iou引导因子的遮挡目标检测方法,以解决背景技术中提出的技术问题。
2、为实现上述目的,本发明提供如下技术方案:基于解耦交叉注意力与iou引导因子的遮挡目标检测方法,至少包括以下步骤:
3、s1:搭建一个解耦交叉注意力头,用于分离置信度预测和位置预测的采样点,而无需添加任何额外参数,所述解耦交叉注意力头采用解耦多头交叉注意力机制;
4、s2:搭建一个基于iou引导因子策略的回归损失函数,所述iou引导因子策略用于在训练过程中动态调整不同样本对回归损失函数的贡献,以优化模型对遮挡物体的检测性能;
5、s3:基于解耦交叉注意力头和回归损失函数搭建一个目标检测网络,所述目标检测网络的架构采用deformable detr框架,所述deformable detr框架中至少包括特征提取模块和解码器,所述特征提取模块包括骨干网络和编码器,所述编码器为经过自监督预训练阶段的视觉transformer编码器,所述解码器级采用解耦多头交叉注意力机制;
6、s4:在目标检测网络框架中,图像首先被送入特征提取模块进行图像的特征提取;
7、s5:特征提取模块融合了骨干网络和预训练的视觉transformer编码器,目的是从输入图像中提取多尺度特征图;
8、s6:特征图与经过初始化的query向量结合,共同输入至解码器,解码器由多个解码器块堆叠组成;
9、s7:在解码器中,分别对目标的类别置信度和边界框位置进行预测,最终实现了对遮挡场景中目标物体的有效识别与精确定位。
10、进一步地,所述解耦多头交叉注意力机制将置信度预测任务与边界框回归任务予以分离处理,并且为了减少遮挡区域噪声的影响,只选择少量的采样点用于置信度预测;
11、所述解码器采用解耦多头交叉注意力机制解码的过程为:通过将编码器中的注意力头进行解耦以迫使注意力网络只选择单个注意头和所对应的采样点来学习预测目标置信度,而对于边界框的预测仍然采用所有的采样点来进行回归预测。
12、进一步地,所述解耦多头交叉注意力机制的计算公式可以表示为:
13、
14、其中表示可以学习的query,n和d分别表示queries的数目和维度,x表示特征图;
15、h和h分别表示注意力头的索引编号和总数目,k和k分别表示采样点的keys值索引和总数目;
16、ahqk和δphqk表示第h个注意力头中第k个采样点的注意力权重和采样点偏移量;
17、pq是与采样点的坐标,wh和w'h是可以学习的权重矩阵用于线性变换。
18、进一步地,所述回归损失函数表达式如下:
19、lbox=λiouliou+θ×l1#(2)
20、其中回归损失函数由l1损失和iou损失两部分组成;
21、l1损失用于衡量预测边界框与gt之间的绝对误差;
22、iou损失即为liou用于反映预测边界框与gt之间交并比的差距;
23、liou是超参数,控制liou在回归损失函数中的权重;
24、liou的计算公式如下:
25、
26、liou(bpred,bgt)=1-iou(bpred,bgt)#(4)
27、其中,bpred和bgt分别代表预测边界框和gt的坐标;
28、进一步设计基于iou的引导因子,该因子通过下式进行计算,其计算过程如下:
29、θ=-(1-iou)ρlog(iou)#(5)
30、其中iou是预测边界框与gt之间的iou,ρ是用于调整样本在回归损失中的权重。
31、与现有技术相比,本发明的有益效果是:
32、1、本发明依托自监督学习理论,提出了一种基于自监督预训练的遮挡目标检测新框架,该框架的独特之处在于采用视觉transformer架构作为核心的特征编码器和解码器,且考虑到复杂遮挡环境下基于查询的检测器可能因遮挡物引入的噪声而降低性能,提出了解耦多头交叉注意力机制,该机制通过对采样点范围的调整,并将置信度预测与边界框预测两者解耦,有效抑制了遮挡物对置信度预测的不利影响,从而显著降低了遮挡目标检测中漏检与误检的发生概率;
33、2、本发明针对公开遮挡目标数据集中普遍存在的遮挡程度分布不均衡问题,引入了一种基于intersection overunion(iou)的引导因子策略,该策略可根据预测边界框与实际边界框之间的iou值,适时调整容易和困难回归样本在损失函数中的权重分配,促使模型在训练迭代过程中更多关注对低质量预测边界框的优化,从而全面提升遮挡目标检测的整体性能。
1.基于解耦交叉注意力与iou引导因子的遮挡目标检测方法,其特征在于:至少包括以下步骤:
2.根据权利要求1所述的基于解耦交叉注意力与iou引导因子的遮挡目标检测方法,其特征在于:所述解耦多头交叉注意力机制将置信度预测任务与边界框回归任务予以分离处理,并且为了减少遮挡区域噪声的影响,只选择少量的采样点用于置信度预测;
3.根据权利要求2所述的基于解耦交叉注意力与iou引导因子的遮挡目标检测方法,其特征在于:所述解耦多头交叉注意力机制的计算公式可以表示为:
4.根据权利要求1所述的基于解耦交叉注意力与iou引导因子的遮挡目标检测方法,其特征在于:所述回归损失函数表达式如下: