本发明涉及计算机视觉第一人称视角注视点预测,特别是涉及一种基于多模态深度学习的第一人称视角注视点预测方法。
背景技术:
1、近年来,随着头戴式运动相机和智能眼镜等设备的迅猛发展,第一人称视角的视频数据规模显著增加。这些设备可以无缝地记录用户在各种场景中的视觉体验,生成大量的第一人称视角视频数据。这种数据为研究者们提供了独特的视角,使得研究人们在日常活动中的注视位置成为可能。这项研究不仅有助于深入理解人类的注意力机制,还在增强现实(ar)、虚拟现实(vr)以及机器人系统的人机交互等多个领域具有重要的应用价值和意义。具体来说,第一人称视角注视点预测可以揭示用户在自然环境中关注的对象和区域,这对于优化ar/vr系统的用户体验至关重要。在ar/vr环境中,系统需要实时了解用户的关注点,以便提供相关信息或增强用户体验。例如,ar系统可以在用户注视的物体上叠加信息,而vr系统则可以根据用户的关注点调整虚拟环境的显示和交互方式。此外,在机器人系统的人机交互中,了解人类的注视点同样具有关键作用。通过预测用户的注视点,机器人可以更好地理解人类的意图,从而做出更为自然和有效的回应。这对于开发更加智能和人性化的机器人系统具有重要意义。
2、第一人称视角的注视点预测旨在预测佩戴摄像设备的人(即观察者)的注视点或关注区域。例如,使用视频图像中手部、头部等隐含线索对注视点进行预测。通过探索注意力转移模式并结合显著性预测对注视点进行预测。通过对动作识别和注视点预测进行联合学习探究第一人称视角动作和注视的联系可以进行更精确的注视点预测。基于transformer结构的注视点预测模型的出现较大程度上提升了预测的准确性。然而,尽管现有的研究已经取得了一些进展,但仅依靠视频图像数据进行注视点预测仍然面临诸多挑战。视频图像数据虽然能够提供丰富的视觉信息,但在许多情况下,单一的视觉信息可能不足以准确捕捉用户的注意力。例如,用户可能会对声音产生反应,而这些声音信息是无法通过视频图像数据直接获取的。为了解决这一问题,引入额外的音频模态进行注视点预测成为一个有效的解决方案。
技术实现思路
1、为解决上述技术问题,本发明提出了一种基于多模态深度学习的第一人称视角注视点预测方法,利用音频和视频两种模态数据,构建多模态深度学习模型,将视频和音频编码器提取的特征经过全局和局部两种尺度的融合,在经过解码器上采样生成最终的注视点预测图像;通过多模态的信息互补特性以及全局上下文和局部重要尺度上的多模态融合,结合多尺度编解码设计有效提升了第一人称注视点预测的准确性。
2、本发明提出了一种基于多模态深度学习的第一人称视角注视点预测方法,包括:
3、获取待预测的第一人称视角视频数据,对视频进行预处理以及提取音频操作,获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本;
4、构建基于多模态深度学习的第一人称视角注视点预测模型,将所述训练样本输入所述注视点预测模型,输出第一人称视角注视点预测结果;其中,首先通过模型中的编码器提取所述训练样本的音频特征和视频特征,将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合,将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。
5、可选地,所述编码器包含用于提取视频特征的视频编码器以及用于提取音频特征的音频编码器,所述视频编码器采用video swin transformer为核心网络;所述音频编码器采用作为高效预训练音频模型的动态卷积神经网络dymn为核心网络;视频编码器所提取的多尺度特征将会保存用于后续特征融合。
6、可选地,所述全局融合模块采用改进的两个串联的video swin transformerblock为核心模块,即在第一个block中首先使用视频模态特征对音频模态特征做窗口交叉注意力计算,在下一个block中,采用相反的特征顺序进行滑动窗口交叉注意力计算,通过交换顺序的交叉注意力计算对音频和视频特征进行充分跨模态信息融合,通过滑动窗口的操作从全局整体的层面去学习音频和视频模态之间的相关性。最终计算结果输出为全局融合特征。
7、可选地,所述局部融合模块以扩展至处理视频数据维度的scconv为核心模块,所述编码器提取的音频特征和视频特征在通道维度拼接后输入局部融合模块以学习提取跨模态的局部融合特征;
8、所述scconv包含时空重构模块和通道重构模块,分别在时空维度和通道维度层面对输入的特征进行进行冗余的削减并重构以增强模型对于视听相关性的学习。
9、可选地,所述全局融合模块和局部融合模块输出的全局融合特征和局部融合特征经过元素级相加的方式进行融合成为待解码特征;所述解码器采用mvit block为核心模块,每个block通过将模块中跳层连接和query处理的两处池化操作修改为三线性插值,待解码特征将在计算注意力之后在通道维度下采样2倍同时在空间维度上采样2倍;另外,所述视频编码器产生的多尺度特征将通过跳层连接与多个解码器block输出的特征融合;最终融合的特征将通过一个3d卷积层将通道融合产生注视点预测图像,表示为各个像素位置上注视发生的概率分布。
10、可选地,所述预测方法还包括对所述注视点预测图像利用f1分数进行验证。
11、与现有技术相比,本发明具有如下优点和技术效果:
12、本发明通过引入音频模态数据,利用不同模态数据间信息互补的特性,充分提升了第一人称视角注视点预测的准确性。
13、本发明提出了音视频模态的全局融合模块和局融合模块,全局融合模块能够捕捉注视中的长距离依赖关系和全局信息,从而更好理解不同模态间的互补性和相关性,有助于识别用户在整体环境语义下的注视点;局部融合模块能够削减音频和视频数据中不必要的冗余信息,提高融合效率,从而保留重要特征。
1.一种基于多模态深度学习的第一人称视角注视点预测方法,其特征在于,包括:
2.根据权利要求1所述的基于多模态深度学习的第一人称视角注视点预测方法,其特征在于,所述编码器包含用于提取视频特征的视频编码器以及用于提取音频特征的音频编码器,所述视频编码器采用video swin transformer为核心网络;所述音频编码器采用作为高效预训练音频模型的动态卷积神经网络dymn为核心网络;视频编码器所提取的多尺度特征将会保存用于后续特征融合。
3.根据权利要求1所述的基于多模态深度学习的第一人称视角注视点预测方法,其特征在于,所述全局融合模块采用改进的两个串联的video swin transformerblock为核心模块,即在第一个block中首先使用视频模态特征对音频模态特征做窗口交叉注意力计算,在下一个block中,采用相反的特征顺序进行滑动窗口交叉注意力计算,通过交换顺序的交叉注意力计算对音频和视频特征进行充分跨模态信息融合,通过滑动窗口的操作从全局整体的层面去学习音频和视频模态之间的相关性。最终计算结果输出为全局融合特征。
4.根据权利要求1所述的基于多模态深度学习的第一人称视角注视点预测方法,其特征在于,所述局部融合模块以扩展至处理视频数据维度的scconv为核心模块,所述编码器提取的音频特征和视频特征在通道维度拼接后输入局部融合模块以学习提取跨模态的局部融合特征;
5.根据权利要求1所述的基于多模态深度学习的第一人称视角注视点预测方法,其特征在于,所述全局融合模块和局部融合模块输出的全局融合特征和局部融合特征经过元素级相加的方式进行融合成为待解码特征;所述解码器采用mvit block为核心模块,每个block通过将模块中跳层连接和query处理的两处池化操作修改为三线性插值,待解码特征将在计算注意力之后在通道维度下采样2倍同时在空间维度上采样2倍;另外,所述视频编码器产生的多尺度特征将通过跳层连接与多个解码器block输出的特征融合;最终融合的特征将通过一个3d卷积层将通道融合产生注视点预测图像,表示为各个像素位置上注视发生的概率分布。
6.根据权利要求1所述的基于多模态深度学习的第一人称视角注视点预测方法,其特征在于,所述预测方法还包括对所述注视点预测图像利用f1分数进行验证。
