关键词:
人体姿态估计
自注意力
图卷积网络
挺身式跳远
轻量化网络
摘要:
人体姿态估计在挺身式跳远场景下的运动分析中具有重要应用价值。然而,现有通用人体姿态估计模型由于计算复杂度较高,难以在低成本成像设备上进行部署。此外,挺身式跳远过程中快速位移、姿态变化剧烈,以及遮挡与运动模糊等问题,也进一步限制了现有方法在该类特定场景下的适用性。为此,本文在通用人体姿态估计的基础上,提出了一种融合Transformer和图卷积网络的轻量化姿态估计方法,旨在提高模型在复杂运动环境下的鲁棒性,同时兼顾精度与计算复杂度,以便在低成本计算终端设备上进行部署。具体而言,本文的主要工作包括:
(1)构建了一个专用于挺身式跳远姿态估计的数据集。使用不同帧率的摄像机进行视频采集,并通过控制光照条件和运动模糊程度,获得了多样化特征的运动数据。该数据集涵盖了助跑、起跳、空中和落地等四个挺身式跳远阶段,包含充足与不充足两种光照条件,以及清晰、轻度模糊、模糊和高度模糊四个模糊等级,为模型训练和评估提供了丰富的数据支持。
(2)基于METAFormer结构范式提出了一种边界感知模块(BAFormer),以解决现有人体姿态估计方法存在计算复杂度高、参数量大的问题。该模块通过构建统一的坐标系,结合窗口尺度和偏移的可学习变量,动态调整窗口形态,避免特征信息割裂,从而提高关键点预测精度。在此基础上,本文设计了基于Transformer的边界感知人体姿态估计模型BATPose及其变体BATPose-B和BATPose-L。此外,为进一步提高模型的泛化性能,本文基于Sim MIM设计了预训练策略,利用AIC Challenger和COCO Keypoint混合数据集进行预训练,提升了模型的性能上限。实验结果表明,在COCO Keypoint验证集上,BATPose-L相较于HRNet-W48模型参数量减少42%、FLOPS减少45%,最高精度达到77.2 AP;在2D遮挡数据集中,BATPose性能优于其他模型,表现出了强大的鲁棒性;在自建挺身式跳远数据集上,模型最高精度达到91.2 AP,表现出良好的适用性。
(3)提出了一种融合图卷积网络(GCN)和Transformer的交替式轻量化架构,进一步优化BATPose结构,提升其在低算力设备上的部署效率。具体而言,首先构建了基于人体骨骼关键点的图结构,通过引入长距离关节依赖关系和自适应边权重策略,增强模型在复杂环境下对关键点信息的传递能力。同时,结合显著性选点策略强化局部关节信息建模,将图卷积网络成功应用于二维人体姿态估计中,构建SaliencyGCN模块,并进一步集成BAFormer,形成交替式网络结构。该结构既能利用GCN捕捉局部骨骼依赖关系,又可借助Transformer提取全局特征。此外,模型还采用门控注意力单元增强的SimCC关键点向量表示方法,将关键点特征转换为门控低维向量,以降低计算复杂度。结合模型压缩和部署等工程技术,本文将训练模型转换为包括ONNX、TensorRT、NCNN在内的多种后端格式,确保其在不同设备上的兼容性与运行效率。实验结果表明,轻量化后的BATPose-S在大幅降低参数量的同时,依旧保持了高精度的预测能力;基于mmdeploy后端推理框架,BATPose-S在单CPU(IntelCorei7-8700)上的平均帧率达38FPS,在GPU端、英伟达计算设备和移动端的推理效率同样优异,体现出较强的实用价值。
综上所述,本文面向挺身式跳远这一特定运动场景,提出了一种融合Transformer与图卷积网络的轻量化人体姿态估计方法,旨在提升模型在复杂动态环境中的鲁棒性,并兼顾精度与计算效率。通过构建具有代表性的数据集、设计创新的网络结构以及开展针对部署的工程优化,本文方法有效应对了遮挡、运动模糊等典型问题,具备良好的适用性与推广潜力。