一种基于跨阶段信息的轻量级人体姿态估计方法

技术2026-01-02 12

本发明涉及人体姿态估计领域，特别是涉及一种基于跨阶段信息的轻量级人体姿态估计方法。

背景技术：

1、人体姿态估计任务旨在从图像或者视频中提取检测和识别出人体的姿势和动作，主要的研究内容为对人体关节位置的检测，进而从中判断出人体的姿势。目前人体姿态估计任务主要是基于深度学习算法构建的，具备良好的效果。

2、基于深度学习的人体姿态估计算法结构如图6所示：对于输入图像，使用深度神经网络提取图像特征，并得到人体的关键点位置坐标，将这些关键点按顺序连接，即得到人体的姿态信息。首先将深度神经网络应用于姿态估计任务，检测关键点热图(heatmap)，获得关键点的概率分布以及关键点的位置信息优化预测结果。之后的基于深度学习的人体姿态估计方法大多基于上述模式，只是基于其中部分环节做出改进。

3、由于人体姿态估计在实际应用场合中往往要求网络模型既有较高的估计精度又能快速高效地实现，因此在模型设计时需要兼顾其准确率和速度，并使模型能在资源有限的边缘设备上部署运行。但是目前主流人体姿态估计网络为了达到高的识别效果，所需计算资源很大，这导致它们无法在计算资源有限的嵌入式边缘设备上部署，而现有轻量级的人体姿态估计方法存在随着计算复杂度的降低而精度显著下降的问题。

4、针对上述问题，本发明采用轻量级主干网络emo，设计一种跨阶段注意力机制，通过借鉴跨阶段特征分布信息引导不同尺度特征对齐，并根据不同阶段特征的权重设计简单有效的多层特征融合方法。此外，引入特征融合监督损失函数，直接优化多尺度特征融合过程，使模型在速度与精度上达到平衡。

技术实现思路

1、针对现有技术不足，本发明的目的在于提供一种轻量级的人体姿态估计网络，使其能够在部署在算力受限的边缘计算平台上，以实现更高的动作识别精度。

2、本发明提供如下技术方案：

3、一种基于跨阶段信息的轻量级人体姿态估计方法，包括以下步骤：

4、s1，使用emo作为特征提取网络，将原始rgb图像输出主干网络获取不同阶段的不同尺度特征图；

5、s2，将最后一层特征分别与所有其它层特征一起输入跨阶段通道注意力模块，借助不同阶段之间的信息辅助改变特征图尺度，得到与最后一层特征尺度相同的增强特征；

6、s3，将得到的不同阶段增强特征图组输入动态特征融合模块，使用全局平均池化的方式对多阶段特征进行加权融合；

7、s4，输出人体姿态信息；

8、s5，在mscoco数据集上训练模型，在模型训练过程中，使用互信息损失函数辅助监督特征融合的过程。

9、进一步地，步骤s1中，所述原始rgb图像至少包含20万张图片和25万个标注的人体实例标签，且每个人体实例标签使用17个关键点进行标注，所述关键点包括头、颈、左右肩、肘、手腕、臀部、膝盖和脚踝。

10、进一步地，步骤s2中，所述跨阶段通道注意力模块包括两个输入分支，两个所述输入分支分别为高分辨率浅层特征分支和低分辨率输出层特征分支。

11、进一步地，所述高分辨率浅层特征分支的处理方法包括以下步骤：

12、a1，对于高分辨率特征图，通过下采样将特征图缩放到与输出层特征尺寸相同；

13、a2，对得到的特征图进行通道维度的全局平均池化，仅保留通道信息；

14、a3，使用全连接层和softmax函数生成[0,1]范围内的归一化注意力权重；

15、a4，对于得到的通道注意力图，令其与放缩后的特征图相乘后再沿通道维度相加，整合成仅有单通道的增强特征。

16、进一步地，所述低分辨率输出层特征分支的处理方法包括以下步骤：

17、b1，对得到的特征图进行通道维度的全局平均池化，仅保留通道信息；

18、b2，使用全连接层和sigmoid函数生成[0,1]范围内的归一化注意力权重。

19、进一步地，所述不同阶段增强特征图组的生成方法包括以下步骤：

20、c1，为使输出层特征信息与浅层特征结合，将上一阶段所得浅层单通道增强特征与注意力图广播至相同维度后相乘，得到含有输出层特征信息的混合特征；

21、c2，将除最后一层外的其余各阶段特征图全部通过联合跨阶段通道注意力模块后，即可得到尺度对齐后的不同阶段混合特征组。

22、进一步地，步骤a1中，所述下采样所用到的卷积层替换为深度卷积以减少该过程所带来的额外计算开销。

23、进一步地，步骤s3中，所述动态特征融合模块包括投影层和特征融合层。

24、进一步地，步骤s5中，所述互信息损失函数辅助监督包括以下步骤：

25、c1，emo主干网络最后层输出的特征为fn，联合跨阶段特征对齐模块输出为动态特征融合模块输出为z，通过最大化条件互信息进而优化从浅层特征中提取的互补信息，以提高姿态估计人的准确率，

26、将展开为下式：

27、

28、c2，经充分训练后所代表的中间级特征与fn中与最终输出z无关的信息可忽略不计，因此步骤c1中式子可简化为

29、

30、c3，将步骤c2中式子与均方误差损失函数相结合，得到所述的联合损失函数：

31、loss＝lmse-βlmi。

32、进一步地，步骤s3中，使用加权平均池化的方式对特征组进行融合其表达式如下：

33、

34、式中为第i个输入特征，wi代表对应的融合权重，n为参与融合的n阶段特征组，使用softmax函数对wi进行归一化表示，令各阶段特征与其对应的归一化权重相乘后，再进行逐元素相加，在训练过程中这些权重都会动态更新，总和为1。

35、进一步地，步骤s5中，所述mscoco数据集上输入图片的分辨率裁剪为256×192。

36、进一步地，步骤s5中，使用adamw优化器，初始学习率设置为1e-3，在第140和190轮时执行学习率衰减策略，依次衰减为原本的1/10，共训练210轮。

37、与现有技术相比，本发明具有以下有益效果：

38、(1)本发明一种基于跨阶段信息的轻量级人体姿态估计方法，本发明采用轻量级主干网络emo，设计一种跨阶段注意力机制，通过借鉴跨阶段特征分布信息引导不同尺度特征对齐，并根据不同阶段特征的权重设计简单有效的多层特征融合方法。

39、(2)本发明一种基于跨阶段信息的轻量级人体姿态估计方法，本发明引入特征融合监督损失函数，直接优化多尺度特征融合过程，使模型在速度与精度上达到平衡。

技术特征：

1.一种基于跨阶段信息的轻量级人体姿态估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于跨阶段信息的轻量级人体姿态估计方法，其特征在于，步骤s1中，所述原始rgb图像至少包含20万张图片和25万个标注的人体实例标签，且每个人体实例标签使用17个关键点进行标注，所述关键点包括头、颈、左右肩、肘、手腕、臀部、膝盖和脚踝。

3.根据权利要求1所述一种基于跨阶段信息的轻量级人体姿态估计方法，其特征在于，步骤s2中，所述跨阶段通道注意力模块包括两个输入分支，两个所述输入分支分别为高分辨率浅层特征分支和低分辨率输出层特征分支。

4.根据权利要求3所述一种基于跨阶段信息的轻量级人体姿态估计方法，其特征在于，所述高分辨率浅层特征分支的处理方法包括以下步骤：

5.根据权利要求4所述一种基于跨阶段信息的轻量级人体姿态估计方法，其特征在于，所述低分辨率输出层特征分支的处理方法包括以下步骤：

6.根据权利要求5所述一种基于跨阶段信息的轻量级人体姿态估计方法，其特征在于，所述不同阶段增强特征图组的生成方法包括以下步骤：

7.根据权利要求4所述一种基于跨阶段信息的轻量级人体姿态估计方法，其特征在于，步骤a1中，所述下采样所用到的卷积层替换为深度卷积以减少该过程所带来的额外计算开销。

8.根据权利要求5所述一种基于跨阶段信息的轻量级人体姿态估计方法，其特征在于，步骤s3中，所述动态特征融合模块包括投影层和特征融合层。

9.根据权利要求1所述一种基于跨阶段信息的轻量级人体姿态估计方法，其特征在于，步骤s5中，所述互信息损失函数辅助监督包括以下步骤：

技术总结
本发明公开了一种基于跨阶段信息的轻量级人体姿态估计方法，包括以下步骤：S1，使用EMO作为特征提取网络，将原始RGB图像输出主干网络获取不同阶段的不同尺度特征图；S2，将最后一层特征分别与所有其它层特征一起输入跨阶段通道注意力模块，借助不同阶段之间的信息辅助改变特征图尺度，得到与最后一层特征尺度相同的增强特征；S3，将得到的不同阶段增强特征图组输入动态特征融合模块，使用全局平均池化的方式对多阶段特征进行加权融合；S4，输出人体姿态信息；S5，在MSCOCO数据集上训练模型，在模型训练过程中，使用互信息损失函数辅助监督特征融合的过程。本发明使用轻量级主干网络，并结合跨阶段信息进行特征融合，建立轻量级的人体姿态估计网络，使其能够部署在边缘计算设备上，另外在模型训练过程中使用互信息损失函数，辅助监督特征融合过程，进而提高模型准确率，使模型可以在算力有限的边缘计算设备上取得更优的效果。

技术研发人员：陈恩庆,陈相龙,郭新,李鑫,王雪婷,张迪,贾少波
受保护的技术使用者：郑州大学
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-39062.html

专利

最新回复(0)