论文笔记--用于人体姿势估计的深度双连续网络(Deep Dual Consecutive Network for Human Pose Estimation)





图1. 我们的姿势时空合并(PTM)网络的图示。(a): 数据集中的原始视频序列,我们的目标是检测当前帧Fc中的姿势。(b): 原始视频序列中的每个人都被组合成一个裁剪过的片段,单人关节检测器给出了关键点热图的初步估计(右手腕的说明)。©-左。合并的右手腕关键点热图,由我们的PTM网络通过编码关键点的空间背景产生。颜色强度对空间聚集进行编码。©-右。合并的关键点热图的放大视图。




图2. 我们的DCPose框架的整体管道。我们的目标是定位当前帧Fc的关键点位置。首先,一个人i被组合成一个输入序列Clipi(p,c,n),一个HRNet骨干预测出初始关键点热图hi§,hi©,hi(n)。我们的姿势时间合并(PTM)和姿势残差融合(PRF)网络同时工作,分别获得有效的搜索范围Φi(p,c,n)和姿势残差Ψi(p,c,n)。然后,这些数据被送入我们的姿势校正网络(PCN),该网络完善了Fc中第i个人的关键点估计。

   我们提出的DCPose的流水线如图2所示。为了改善当前帧Fc的关键点检测,我们利用了前一帧Fp和未来一帧Fn的额外时间信息。Fp和Fn是在帧窗口[c - T,c + T]内选择的,其中p∈[c - T,c]和n∈(c,c + T)分别表示帧的索引。Fc中单个人的边界框首先由人类探测器获得。每个边界框被放大25%,并进一步用于裁剪Fp和Fn中的同一个人。因此,视频中的个人i将由一个裁剪过的视频片段组成,我们将其表示为Clipi(p,c,n)。Clipi(p,c,n)然后被送入一个骨干网络,用于输出初步的关键点热图估计hi(p,c,n)。姿势热图hi(p,c,n)然后通过两个模块化网络并行处理,即姿势时空合并(PTM)和姿势残差融合(PRF)。PTM输出Φi(p,c,n),编码空间聚合,PRF计算Ψi(p,c,n),捕捉两个方向上的姿势残差。两个特征张量Φi(p,c,n)和Ψi(p,c,n)然后同时输入我们的姿势校正网络(PCN),以完善和改进初始姿势估计。在下文中,我们将详细介绍这三个关键部分。

   姿势时空合并PTM被用来编码基于初始预测(来自骨干网络)的关键点空间环境,提供一个压缩的搜索范围,便于在一个有限的范围内完善和纠正姿势预测。对于第i个人,骨干网络返回初始关键点热图hi§,hi©,hi(n)。直观地说,我们可以通过直接求和来合并它们 Hi(p,c,n) = hi§ + hi© + hi(n) 。然而,我们期望从Fp和Fn中提取的额外信息与它们与当前帧Fc的时间距离成反比。(即将较高的权重分配给在时间上离当前帧较近的帧。)可用以下公式表示


我们通过可变形卷积V 2网络(DCN v2 [49])在不同的扩张率d下实现姿势校正模块。 1) 合并的关键点热图Φi(p,c,n)。



训练 我们的深度双连续网络是在PyTorch中实现的。在训练过程中,我们使用地面真实的人的边界框来生成人i的Clipi(p,c,n)作为我们模型的输入序列。对于边界情况,我们应用同样的填充。换句话说,如果没有帧可以从Fc向前和向后延伸,Fp或Fn将被Fc所取代。我们利用在PoseTrack数据集上预训练的HRNetW48作为骨干,并在整个训练过程中冻结骨干参数,只通过DCPose中的后续组件进行反向传播。
  损失函数 我们采用标准姿势估计损失函数作为我们的成本函数。训练的目的是最小化所有关节的预测和地面真实热图之间的总欧氏或L2距离。成本函数定义为:


  在训练过程中,我们加入了数据增强,包括随机旋转、缩放、截断和水平翻转以增加变化。输入图像大小固定为384×288。Fc和Fp或Fn之间的默认间隔被设置为1。骨干参数被固定为预训练的HRNet-W48模型权重。所有后续的权重参数都从高斯分布中初始化,µ=0,σ=0.001,而偏置参数初始化为0。我们采用Adam优化器,基础学习率为0.0001,每4个历时衰减10%。我们用2个Nvidia GeForce Titan X GPU训练我们的模型,批次大小为32,共20个历时
  PoseTrack2017数据集上的结果 我们使用广泛采用的平均精度(AP)指标[43, 44, 11, 47]在PoseTrack2017验证集和完整测试集上评估我们的方法。表1列出了不同方法在PoseTrack2017验证集上的平均精度方面的定量结果。我们将我们的DCPose模型与现有的八种方法[44]、[11]、[47]、[43]、[16]、[33]、[13]、[3]进行比较。在表1中,报告了关键关节的AP,如头部、肩部、膝部和肘部,以及所有关节的mAP(平均AP)。
  表2中提供了测试集的结果。这些结果是通过将我们的预测结果上传到PoseTrack评估服务器:https://posetrack. net/leaderboard.php获得的,因为测试集的注释并不公开。我们的DCPose网络在验证集和测试集的多帧人物姿势估计挑战中都取得了最先进的结果。DCPose的性能一直优于现有的方法,并达到了79.2的mAP。对相对困难的关节的性能提升也是令人鼓舞的:我们对手腕的mAP为76.1,对踝关节的mAP为71.2。一些样本结果显示在图3中,这表明了我们的方法在复杂场景中的有效性。更多可视化的结果可以在https://github.com/Pose-Group/DCPose.
  PoseTrack2018数据集上的结果 我们还在PoseTrack2018数据集上评估我们的模型。验证和测试集的AP结果分别列在表3和表4中。如表所示,我们的方法再一次提供了最先进的结果。我们在测试集上实现了79.0的mAP,在困难的腕关节上获得了77.2的mAP,在踝关节上获得了72.3。




  • 论文笔记--用于人体姿势估计的深度双连续网络(Deep Dual Consecutive Network for Human Pose Estimation)

    索引 复杂情况下的多帧人体姿态估计是一种挑战 尽管最先进的人体关节检测器在静态图像上表现出了显著的效果 但当我们将这些模型应用于视频序列时 它们的表现就显得不足了 普遍存在的缺点包括无法处理运动模糊 视频失焦或姿势遮挡 这是因为无法捕捉到视