当前位置: 首页 > news >正文

接口网站开发做网站教学书

接口网站开发,做网站教学书,建网站公司成都,旅游电子商务网站策划书Revisiting Skeleton-based Action Recognition 摘要1、引言2、相关工作3、框架3.1. 姿势提取的良好实践3.2.从2D姿势到3D热图体积3.3.基于骨架的动作识别的3D-CNN 4、实验4.2.姿势提取4.3. 3D热图体积的预处理4.4.与GCN的比较4.5. RGBPose-SlowFast4.6.与最先进的比较 5、结论… Revisiting Skeleton-based Action Recognition 摘要1、引言2、相关工作3、框架3.1. 姿势提取的良好实践3.2.从2D姿势到3D热图体积3.3.基于骨架的动作识别的3D-CNN 4、实验4.2.姿势提取4.3. 3D热图体积的预处理4.4.与GCN的比较4.5. RGBPose-SlowFast4.6.与最先进的比较 5、结论 摘要 许多基于骨架的动作识别方法采用图卷积网络GCN在人体骨骼之上提取特征。尽管在以前的工作中显示了积极的结果但基于 GCN 的方法受到鲁棒性、互操作性和可扩展性的限制。 本文提出了一种新的基于骨架的动作识别方法PoseC3D它依赖于3D热图堆栈而不是图序列作为人体骨骼的基本表示。与基于 GCN 的方法相比PoseC3D 在学习时空特征方面更有效对姿态估计噪声具有更强的鲁棒性并且在跨数据集设置中更好地泛化。此外PoseC3D可以处理多人场景而不需要额外的计算成本其特征在早期融合阶段可以很容易地与其他模式集成这为进一步提高性能提供了很大的设计空间。 在四个具有挑战性的数据集上PoseC3D 在仅在骨架上单独使用并与 RGB 模态结合使用时始终获得卓越的性能。 1、引言 基于GCN的方法在以下方面受到限制 1鲁棒性虽然 GCN 直接处理人体关节的坐标但其识别能力受到坐标分布偏移的显著影响这在应用不同的姿态估计器来获取坐标时经常发生。因此坐标中的小扰动通常会导致完全不同的预测。 2互操作性以前的工作表明来自不同模态的表示例如 RGB、光流和骨架是互补的。因此这种模态的有效组合通常会导致动作识别的性能提升。然而骨架表示的图形形式使得很难与其他模式融合尤其是在早期或低级阶段从而限制了组合的有效性。 3)可扩展性 : 由于GCN将每个人体关节视为一个节点GCN的复杂度与人数成线性关系限制了其对涉及多个人的任务的适用性如群体活动识别。 本文提出了一个新的框架PoseC3DPoseC3D 专注于考虑姿态估计器性能的二维骨架如图 1 所示它将重新表述为骨架关节而不是图的 2D 热图。不同时间步长的 2D 热图将沿时间维度堆叠以形成 3D 热图体积。PoseC3D然后在3D热图体积的顶部采用3D卷积神经网络来识别动作。 所提出的PoseC3D很好地解决了基于gcn的方法的局限性。使用 3D 热图体积减轻了对姿态估计技术的敏感性我们发现 PoseC3D 在不同场景和以不同方式获得的人体骨骼之间具有很好的泛化能力。此外PoseC3D 依赖于基本表示的热图允许人们利用卷积网络架构的进步并使与多流卷积网络中的其他模态集成更容易。这开辟了一个巨大的设计空间以进一步提高识别性能。最后3D热图体积的复杂性对感兴趣的人数量是不变的。因此PoseC3D可以在不增加计算开销的情况下处理不同数量的人。 数据集: FineGYM , NTURGB-D , Kinetics-400 和 Volleyball 2、相关工作 本文通过沿时间维度堆叠热图以形成 3D 热图体积在此过程中不会丢失信息。此外由于其良好的时空特征学习能力本文使用 3D-CNN 而不是 2D-CNN。 3、框架 对于视频中的每一帧首先使用两阶段姿态估计器(检测姿态估计)进行二维人体姿态提取。然后沿时间维度堆叠关节或四肢的热图并将预处理应用于生成的 3D 热图体积。最后使用 3D-CNN 对 3D 热图体积进行分类。 3.1. 姿势提取的良好实践 作为基于骨架的动作识别、姿态或人体骨骼提取的关键预处理步骤在很大程度上决定了最终的识别精度。如图1所示。2D姿势估计器大致可以分为自顶向下和自底向上方法。前者首先使用人体检测器识别单个实例然后为每个个体提取姿势后者通过将一组已识别的关键语义分组到骨架中来获得姿势。本文选择自顶向下方法。 我们还通过实例化具有不同主干的位姿提取器来研究位姿估计器质量对动作识别的影响发现自顶向下框架下位姿估计器质量不那么重要。最后由于自顶向下姿态提取器不分青红皂白地估计图像中所有实例的多个边界框如果我们可以通过我们对感兴趣的人的先验过滤框例如知道我们感兴趣的真实边界框则可以显着提高姿态质量。 3.2.从2D姿势到3D热图体积 从视频的帧中提取2D姿势后将它们输入到PoseC3D中我们将它们重新表述为3D热图体积。形式上我们将2D姿势表示为大小为K x H xW的热图其中K是关节数H和W是帧的高度和宽度。我们可以直接使用自顶向下姿态估计器生成的热图作为目标热图在给定相应边界框的情况下对热图进行零填充以匹配原始帧。如果我们只有骨架关节的坐标三元组xkykckH 通过组合以每个关节为中心的 K 个高斯图 其中 σ 控制高斯图的方差(xk, yk) 和 ck 分别是第 k 个关节的位置和置信度分数。我们还可以通过堆叠计算为的高斯图来为肢体创建热图 第k个肢体位于两个关节ak和bk之间。函数D计算从点ij到段[xakyakxbkybk]的距离。 可以很容易地将其扩展到多人情况在这种情况下我们可以直接累积所有人的第k个高斯位图而无需放大热图。最后通过沿时间维度叠加所有热图J或L获得三维热图体积因此其大小为K x T x H x W。 **应用两种技术来减少 3D 热图体积的冗余 : ** 1)以受试者为中心的裁剪。由于数据集的大小和位置在数据集中可能会有很大差异因此关注动作主题是在相对较小的 H × W 预算下保留尽可能多的信息的关键。 2)均匀采样。由于PoseC3D建立在3D卷积层的基础上通过对帧的子集进行采样可以沿时间维度减小3D热图体积。然而研究人员倾向于在3D-CNN的短时间窗口内对帧进行采样例如64帧时间窗口中的采样帧如SlowFast。虽然这种采样策略可能会错过视频的一些全局动态但我们建议使用均匀采样策略来进行 3DCNN。特别是我们通过将视频分成 n 个长度相等的片段并从每个片段中随机选择一个帧来从视频中采样 n 帧。我们发现这种采样策略特别有利于基于骨架的动作识别。 3.3.基于骨架的动作识别的3D-CNN 对于基于骨架的动作识别GCN 长期以来一直是主流主干。相比之下在基于 RGB 的动作识别中常用的 3D-CNN 在这个方向上的探索较少。为了证明 3D-CNN 在捕获骨架序列时空动态方面的能力我们设计了两个基于 3D-CNN 的网络即 Pose-SlowOnly 和 RGBPose-SlowFast。 Pose-SlowOnly 专注于人体骨骼的模态其架构受到SlowFast慢路径的启发因为它在基于rgb的动作识别中具有良好的性能。 RGBPose-SlowFast 来早期融合人体骨骼和 RGB 帧这是通过在基于骨架的动作识别中使用 3D-CNN 来实现的。 4、实验 4.2.姿势提取 a)首先比较了使用 2D 和 3D 骨架进行动作识别的识别性能。 2D关键点(即使是低质量的关键点)在动作识别中始终优于3D关键点(传感器收集或估计)。 b)为了比较自底向上和自顶向下方法的位姿估计质量我们用相同的架构HRNet-w32 (HR-TD HR-BU)实例化了这两种方法。此外我们还使用MobileNet-v2主干实例化自顶向下的方法(Mobile-TD)进行比较 考虑到更好的性能和更快的推理速度当帧中没有很多人时Top-Down 运行得更快我们在这项工作中使用 Top-Down 进行姿势提取。 c)感兴趣的人 vs.所有人。并非所有人都与要识别的动作有关。 比较了使用 3 种人边界框进行姿势提取检测、跟踪和 GT随着运动员的先验增加。在表 3c 中我们看到感兴趣的人的先验非常重要即使是弱先验每个视频 1 个 GT 框也可以大幅提高性能。 **d)坐标 vs.热图。存储 3D 热图体积可能需要非常大量的磁盘空间。**为了提高效率我们可以将 2D 姿势存储为坐标 (x, y, 分数)并根据我们在第 3.2 节中介绍的方法将它们恢复为 3D 热图体积。 对于低质量的 (LQ) 姿态估计器Mean-Top1 下降了 2%。对于高质量的 (HQ) 姿态估计器退化更温和只有 0.4% MeanTop1 下降。因此我们选择存储坐标而不是3D热图体积。 4.3. 3D热图体积的预处理 主题为中心的裁剪是数据预处理中一个有用的步骤它将 Top1 准确率提高了 1.0%从 92.2% 提高到 93.2%。 对于均匀采样从整个剪辑中统一采样 32 帧。通过均匀采样1-clip 测试甚至可以比使用 10-clip 测试的固定步幅采样获得更好的结果。 均匀采样始终优于具有固定时间跨度的采样。 均匀采样在基于 RGB 的识别方面也优于固定步幅采样 4.4.与GCN的比较 表4PoseC3D 在参数数量和 FLOP 方面都比 GCN 对应物更轻尽管PoseC3D是轻量级的但在不同的数据集上仍然实现了具有竞争力的性能。 表5为了测试两种模型的鲁棒性我们可以丢弃输入中一定比例的关键点看看这种扰动如何影响最终的准确性。通过随机删除每一帧中的1个肢体关键点来测试这两个模型概率为p。 看到 3D-CNN 对输入扰动非常稳健每帧删除 1 个肢体关键点仅导致 Mean-Top1 中的适度下降小于 1%而 GCN 的下降为 14.3%。用嘈杂的输入训练 GCN类似于 dropout 操作。然而即使在这种情况下对于casep 1GCN的MeanTop1精度也下降了1.4%。 3D-CNN显著优于GCN。 图5不同方法提取的姿势注释。3DCNN 在 cross-PoseAnno 设置中显示出强大的泛化能力 可扩展性GCN的计算随视频中人数的增加呈线性扩展这使得群体活动识别的效率较低。尽管参数和 FLOP 的数量要少得多但 3D-CNN 在排球验证上达到了 91.3% 的 Top-1 准确率比基于 GCN 的方法高 2.1%。 4.5. RGBPose-SlowFast PoseC3D 的 3D-CNN 架构通过一些早期融合策略将姿势与其他模态融合更加灵活。 结果表明对于RGB和Pose双向特征融合优于单向特征融合。在早期阶段通过双向特征融合与 1-clip 测试的早期晚期融合可以优于 10-clip 测试的后期融合。RGB模态比Pose更重要但我们在表7中观察到早期晚期融合对两者的性能改进。 4.6.与最先进的比较 以前的方法侧重于基于GCN的3D骨架输入的识别但我们证明了具有3D-CNN的高质量2D骨架可以产生更好的性能。在Kinetics上当使用低质量的2D骨架时我们的方法与之前的最新技术相当。当两者都使用高质量的方法时我们的方法大大优于以前的方法。 5、结论 本文提出了PoseC3D:一种基于3D-CNN的骨骼动作识别方法它以3D热图体积为输入。PoseC3D 解决了基于 GCN 的方法在鲁棒性、互操作性和可扩展性方面的局限性。使用轻量级 3D-ConvNets 和紧凑的 3D 热图体积作为输入PoseC3D 在准确性和效率方面都优于基于 GCN 的方法。基于PoseC3D我们在各种基准上实现了基于骨架和基于RGB骨架的动作识别的最新技术。
http://www.zqtcl.cn/news/439089/

相关文章:

  • 网站的ico怎么做简单房地产网站
  • 做室内设计通常上的网站关键词挖掘查询工具爱站网
  • 大理住房和城乡建设部网站为食堂写个网站建设
  • 做网站要icp备案吗软件定制开发 报价
  • 外国网站上做雅思考试dw做网站的导航栏
  • 公司网站建设的作用网站建设网上商城心得体会
  • 珠海网站建设的公司网站生成app
  • 营销网站建设的价格私人网站建设成本
  • 企业网站制作模板免费下载淘宝指数查询官网手机版
  • 做服装外单的网站购物网站首页图片
  • 网站建设到运营赚钱上海网络哪家比较好
  • 做网站要求高吗超炫网站
  • 贵卅省住房和城乡建设厅网站怎么快速仿wordpress站
  • 苏州网站建设排名clef wordpress
  • 罗定建设局网站汽车装饰网站源码
  • 网站用什么切版商城网站怎么建
  • 设计网站公司多少钱wordpress获取所有标签
  • 怎么看一个网站是哪个公司做的电子商务网站设计与规划
  • 邯郸哪里做网站优化网站建设如何排版
  • 济南网站建设设计制作公司找人做网站价格
  • 阿里网站年费续费怎么做分录大型的网站开发
  • 中山做网站费用广西壮族自治区住房和建设厅网站
  • vs2015做网站如何添加控件建设网站计划 ppt
  • 简述网站设计流程贵阳小程序开发软件公司
  • 营销网站建设的原则设计网站页面要注意什么
  • 上海怎么做网站国外网站 设计
  • 开发公司土地评估费计入土地价款优化搜狐的培训
  • 网站建设佰首选金手指三360怎么免费建网站
  • 网站万能密码修复苏州市建设中心网站
  • 如何搭建php网站网站制作的前期主要是做好什么工作