本发明涉及计算机视觉,特别是针对图像处理和深度学习中的网络架构创新,具体是一种基于多尺度上下文聚合的多重关系复用网络。该网络旨在通过高效地整合多尺度上下文信息,并复用网络内部不同层级之间的关系,以提升图像识别、分割、增强等任务的性能。
背景技术:
1、在计算机视觉领域,人物交互(human-object interaction,hoi)检测作为一项核心的视觉关系检测任务,旨在图像中精准识别并定位参与交互的人物与物体,同时辨识出他们之间的具体动作或关系。这一任务的核心在于构建一个集成了位置信息、类别识别及交互动作分类的综合性信息框架,以实现对复杂场景的更全面理解。hoi检测不仅对于提升图像字幕生成、优化图像检索效率及强化视觉问题回答系统等下游任务具有显著价值,还通过<人,动词,物体>的三元组形式,为场景解析提供了结构化的语义框架。
2、传统上,图像理解任务如目标检测、动作识别和图像分割等,为hoi检测的研究奠定了坚实基础。随着深度学习技术的广泛应用,这些任务在图像语义分析层面取得了显著进展,如个体动作识别和姿态估计等。然而,面对图像中复杂多变的场景与动态交互,传统方法显得力不从心,尤其是它们在捕捉对象间相互作用方面的局限性日益凸显。鉴于hoi在人类活动理解中的核心地位,发展高效准确的hoi检测技术对于深化图像内容理解至关重要。
3、尽管物体检测与识别技术已取得长足进步,但人物与物体间精细交互的检测仍面临诸多挑战。传统方法受限于先验知识和手工设计特征的局限性,难以全面捕捉和解释自然场景中的动态交互多样性。此外,交互检测还需在复杂背景、遮挡、姿态变化及物体尺度变化等复杂条件下保持高效与精准,这对算法设计提出了更高要求。当前,hoi检测方法主要分为顺序hoi检测(两阶段方法)和并行hoi检测(一阶段方法)两大类。两阶段方法虽逻辑清晰,但计算成本高、处理速度慢;而一阶段方法通过预定义交互检测规则,结合交互点或交互框,实现了目标检测与交互分类的并行处理,有效提升了处理效率。然而,一阶段方法在处理复杂交互场景时,往往存在聚焦点局限,未能充分考虑物体尺度与空间布局的多样性。
4、近年来,基于transformer的方法在hoi检测领域展现出卓越性能,通过结合cnn主干与transformer架构,将hoi检测任务转化为基于集合的预测问题。然而,这类方法仍存在结构设计上的局限性,如网络结构灵活性不足、易产生学习偏差等问题。此外,分支间上下文交换不充分也限制了模型对复杂交互关系的理解能力,特别是在处理多源上下文信息时,如空间上下文、环境上下文等,这种不足尤为明显。
5、综上所述,尽管基于transformer的hoi检测方法已显现卓越性能,但仍面临结构局限性导致的学习偏差、物体尺度与空间布局理解不足,以及上下文信息利用不充分三大挑战。仍然需要优化网络架构以减少预训练限制,提升模型对复杂场景中物体尺度变化的适应性,并增强跨分支的上下文交互,以实现更高效、精确的交互检测。
技术实现思路
1、为了克服上述现有方法的不足,本发明将基于oahoi算法,算法总体网络框架如图1所示。红色虚线框内是改进部分。本发明将改进后的网络架构简单分为多尺度特征提取上下文聚合模块和多重关系复用模块两部分。
2、本发明旨在设计一个基于多尺度上下文聚合的多重关系复用网络,所采用的技术方案是:
3、步骤1:输入图像通过上下文聚合块馈送,由四个阶段组成以产生多尺度特征图。在上下文聚合网络的基础上,结合具有强大的语义信息提取能力的transformer提取上下文全局特征,利用可变形transformer对多尺度语义特征进行编码;
4、步骤2:编码后的多尺度特征馈送至三分支解码器,分别负责人、对象检测和交互分类,通过人解码器、对象解码器、交互解码器进行独特聚合,并通过多重关系复用模块构造由三种关系上下文组成的上下文信息并通过注意力融合模块从多重关系上下文中为每个解码器子任务选择必要的上下文信息;
5、步骤3:,最后进行关系推理,生成的实例嵌入和交互嵌入用于预测hoi边界框、交互向量、交互类型和语义嵌入。
1.一种基于多尺度上下文聚合的多重关系复用网络,其特征在于包含以下步骤:
2.如权利要求1所述方法,其特征在于,步骤1中的特征提取模块采用基于transformer的架构作为解决方案。
3.如权利要求1所述方法,其特征在于,步骤2中对多尺度特征的聚合模块。
4.如权利要求1所述方法,其特征在于,步骤3中基于实例嵌入和交互嵌入的预测模块。
