本发明属于计算视觉领域,特别涉及一种基于视频序列时空上下文的三维人体姿态估计方法及系统。
背景技术:
1、三维人体姿态估计是计算机视觉领域的一个研究分支,其目标是从二维图像或视频估计目标对象的关键点在三维空间中的坐标位置。固有的深度模糊性是三维人体姿态估计的挑战之一,主要原因是单目视角下缺乏深度信息,导致单一二维姿态可能对应多个不同的三维姿态。为了解决该问题,研究人员采取了多种策略,包括使用多视角数据、利用时间序列数据等来辅助估计三维姿态。其中,多视角三维人体姿态估计技术主要是通过应用对极几何关系、多视角一致性约束等相关技术,并结合相机几何参数以及相机透视理论来对人体三维姿态进行估计,然而在实际应用中有较高的门槛。而时间维度信息引入后,模型通过对人体姿态序列时序维度上下文的分析,可以显著提升对动态人体姿态变化的捕捉能力,从而缓解深度学习模型在处理模糊性问题时的局限性。
2、因此,充分利用输入序列的时间信息,构建有效的关节点在时间空间上的复杂依赖关系,对于处理深度模糊性问题至关重要。对于如何捕捉关节点时空复杂关系,众多研究人员进行了深入的探索。一些方法利用卷积神经网络(convolutional neural networks,cnn)或图卷积网络(graph convolution neural networks,gcn)提取相邻视频帧之间的时间信息。近年来,随着 transformer 在自然语言处理(natural language processing,nlp)和计算机视觉(computer vision,cv)领域取得的显著成功,基于 transformer 的方法被引入到三维人体姿态估计中。这些方法利用注意力机制建立动作序列内的时空关系,学习丰富的动作序列表达,以提高三维姿态估计的精度。此外,对于一个二维姿态可能对应着多个三维姿态的情形,可以将其视为一个概率问题,因此使用基于概率的方法来提升三维姿态估计的受到众多研究人员的青睐。目前最为流行的概率方法是去噪扩散概率模型(denoising diffusion probabilistic model,ddpm),这是一种生成模型。基于去噪扩散概率模型的方法已经被引入到三维人体姿态估计中,并展现出色的性能。尽管这些方法利用时空关系构建和多假设结果生成,在处理不确定性方面具有优势,但同时也面临着一些挑战。首先,生成的多个假设结果缺乏多样性,导致候选姿态范围受限,影响最终的估计精度。其次,由于缺乏时间约束,生成的三维姿态序列可能在时间维度上表现出抖动,这同样会降低估计的准确性。除此之外,输出序列在时序上的抖动问题会影响下游任务的高质量进行。现有方法虽然在关节点位置精度上取得了进展,但往往忽略了时序上的稳定性。这种稳定性对于许多下游应用,如行为识别、运动分析等,是至关重要的。
技术实现思路
1、为解决上述技术问题,本发明提供一种基于视频序列时空上下文的三维人体姿态估计方法,包括如下步骤:
2、步骤s1:根据视频序列帧中人体骨架的二维关键点坐标构建二维姿态序列,输入由全连接网络构成的条件编码器,对所述二维姿态序列的关节点上下文信息进行编码,获得二维序列编码;
3、步骤s2:在训练阶段,在真实的三维姿态序列上根据时间步加入噪声,生成噪声化的三维姿态序列,将所述二维序列编码、对时间步编码后的时间编码和一起输入去噪网络,生成预测的三维姿态序列;构建损失函数,在其中引入时间约束用于训练所述去噪网络,增强的时间稳定性;
4、步骤s3:在推理阶段,将待估计的二维关键点序列、时间步和输入训练好的去噪网络,得到多种可能的三维姿态序列,通过聚合机制将其合并成一个连贯且精确的最终的三维姿态序列。
5、有益效果:
6、1、本发明公开了一种基于视频序列时空上下文的三维人体姿态估计方法,在多个三维人体姿态数据集上各种评价标准上获得了更好的效果,输出的三维姿态序列具有更高的稳定性。
7、2、本发明提供的方法,采用扩散模型为框架,以条件信息注入方式为策略,增强了生成多个假设的多样性,扩大了的潜在三维姿态候选范围。
8、3、本发明提供的方法为了进一步改善估计结果的稳定性,引入了时间损失约束。这种约束能够明显减轻输出三维姿态序列在时间维度上的抖动现象,从而提高了动作序列的平滑性和连贯性。
1.一种基于视频序列时空上下文的三维人体姿态估计方法,其特征在于,包括:
2.根据权利要求1所述的基于视频序列时空上下文的三维人体姿态估计方法,其特征在于,所述步骤s2:在训练阶段,在真实的三维姿态序列上根据时间步加入噪声,生成噪声化的三维姿态序列,将所述二维序列编码、对时间步编码后的时间编码和一起输入去噪网络,生成预测的三维姿态序列;构建损失函数,在其中引入时间约束用于训练所述去噪网络,增强的时间稳定性,具体包括:
3.根据权利要求2所述的基于视频序列时空上下文的三维人体姿态估计方法,其特征在于,所述步骤s3:在推理阶段,将待估计的二维关键点序列、时间步和输入训练好的去噪网络,得到多种可能的三维姿态序列,通过聚合机制将其合并成一个连贯且精确的最终的三维姿态序列,具体包括:
4.一种基于视频序列时空上下文的三维人体姿态估计系统,其特征在于,包括下述模块:
