卖友情链接赚钱,网站优化和提升网站排名怎么做,今天高清视频免费播放,建设网站需要备案1.总结
GR-3 是一个大规模的视觉 - 语言 - 动作#xff08;VLA#xff09;模型。它对新物体、新环境以及含抽象概念的新指令展现出较好的泛化能力。此外#xff0c;GR-3 支持少量人类轨迹数据的高效微调#xff0c;可快速且经济地适应新任务。GR-3 在处理长周期和灵巧性任…1.总结
GR-3 是一个大规模的视觉 - 语言 - 动作VLA模型。它对新物体、新环境以及含抽象概念的新指令展现出较好的泛化能力。此外GR-3 支持少量人类轨迹数据的高效微调可快速且经济地适应新任务。GR-3 在处理长周期和灵巧性任务包括需要双手操作和底盘移动的任务上也展现出稳健且可靠的性能。
这些能力源自—种多样的训练方法具体包括利用大规模的视觉 - 语言数据联合训练、负责实验室采集的同学基于 VR 设备构建了人类轨迹数据进行有效地模仿学习。此外我们还推出了一款双臂移动机器人 ByteMini。ByteMini 兼具灵巧性和可靠性集成了 GR-3 后能完成各式各样的复杂任务。
本报告介绍 GR-3——一种大规模视觉-语言-动作模型具备以下特性
严格遵循语言指令并对新颖物体、环境及指令具有良好泛化能力 仅需少量人类轨迹即可高效微调实现快速场景迁移 在长跨度、灵巧任务中保持高鲁棒性与高可靠性。 技术报告字节跳动Seed
-
-
2. 简介
打造能够协助人类完成日常任务的智能通用机器人是机器人研究中长期追求的愿景。真正的难题在于现实世界的巨大多样性机器人策略必须具备强大的泛化能力才能应对层出不穷的新场景。此外许多日常任务天然具有长跨度、高复杂度的灵巧操作要求这对策略的鲁棒性与可靠性提出了极高标准。
GR-3 以自然语言指令、环境观测和机器人状态为输入端到端输出动作序列控制双臂移动机器人。模型基于预训练 VLM并通过流匹配预测动作。作者对网络架构进行了系统研究提出一系列关键设计显著提升了指令跟随与长跨度任务表现。为强化泛化能力作者将机器人轨迹数据与覆盖多种视觉-语言任务的大规模数据协同训练使 GR-3 不仅能处理全新类别的物体还可理解尺寸、空间关系、常识知识等在机器人数据中缺失的抽象概念。
此外GR-3 仅需通过 VR 设备收集的少量人类轨迹即可高效微调实现低成本快速适配。作者同步推出 ByteMini——一款灵活可靠的双臂移动机器人与 GR-3 结合后可在现实世界中完成多样复杂任务。
在三大挑战性场景的广泛实验中——可泛化抓取放置、长跨度桌面整理、灵巧布料操作——GR-3 全面超越当前最佳基线 π0。它对新类别物体和复杂语义展现优异泛化能力仅用每条物体 10 条人类轨迹即可快速适配新物体在长跨度与灵巧任务中亦表现稳健桌面整理与布料操作均取得高平均任务进度。作者期望 GR-3 成为迈向日常生活通用机器人的关键一步。 -
-
3.模型结构
GR-3 是一个端到端的视觉-语言-动作VLA模型 πθ用于控制带有移动底盘的双臂机器人。模型以自然语言指令 l、当前观测 和机器人状态 为条件一次性生成长度为 k 的动作片段 即 。
GR-3 采用混合 Transformer 架构。
首先作者使用预训练的视觉-语言模型 Qwen2.5-VL-3B-Instruct 处理来自多台摄像头的图像观测与语言指令随后由动作扩散 TransformerDiT预测动作片段。具体而言GR-3 利用流匹配实现动作预测流估计以当前机器人状态 st 以及 VLM 主干输出的 KV 缓存为条件。 长度为 k 的动作片段被表示为 k 个 token并与机器人状态 token 拼接构成动作 DiT 的输入序列。 流匹配的时间步通过自适应层归一化AdaLN注入。为了建模动作片段内部的时间依赖动作 DiT 使用因果注意力掩码。
为保证推理速度动作 DiT 的层数仅为 VLM 主干的一半且仅复用主干后一半层级的 KV 缓存。整体模型参数量为 4 B。
在初期实验中作者观察到训练过程经常出现不稳定。受 QK Norm 启发作者在动作 DiT 的注意力与 FFN 内的线性层后额外引入 RMSNorm。该设计显著提升了整个训练的稳定性并在下游实验中大幅增强了语言遵循能力详见第 5 节。 -
-
4.训练策略
作者采用多种数据源混合训练 GR-3机器人轨迹数据用于模仿学习网页级视觉-语言数据用于协同训练少量人类轨迹数据用于小样本泛化。
该训练方案使 GR-3 能够 1) 泛化到全新物体、环境与指令2) 以低成本高效适配未见场景3) 稳健地完成长跨度与灵巧任务。
4.1 基于机器人轨迹数据的模仿学习
作者采用模仿学习目标来训练 GR-3通过最大化策略在一组专家演示 D 上的对数似然
具体而言训练时利用流匹配损失来监督动作预测
其中 为流匹配时间步t 表示回合中的时间戳 为带噪动作块 为随机噪声 为流匹配的真实值。
作者将流匹配标签用于流预测。为了加速训练作者在 VLM 主干的一次前向传播中对多个采样的流匹配时间步同时计算流匹配损失。
-
在推理阶段动作片段初始化为随机噪声 并用欧拉方法从 积分到 即 实验中设 。
-
作者通过遥控操作采集真实机器人轨迹。为使采集过程更易控制并最大化数据多样性作者开发了一套数据采集调度器见图 4在每次采集开始前向操作员提示1需执行的动作2物体组合3背景设置。系统生成新的配置后操作员据此布置环境。该调度器的实现帮助作者有效管理整体数据分布充分随机化采集数据极大提升了数据集的丰富性与多样性。此外采集后还会进行质量检查剔除无效或低质量数据。 先前研究指出策略可能利用多视角的伪相关来预测动作而非真正关注语言条件。为缓解这一问题作者在动作维度中引入“任务状态”作为辅助监督。任务状态可取以下值进行中0、已完成1、无效-1。“进行中”表示机器人正在执行任务“已完成”表示任务成功结束“无效”表示当前观测下指令不可行。例如桌上没有刀时“把刀放进编织篮”即为无效指令。
训练时作者随机将语言指令替换为无效指令并要求模型仅预测“无效”状态而不监督动作片段的其他维度。此设计迫使动作 DiT 必须关注语言指令并判断任务状态显著提升了语言遵循能力。
-
4.2 协同训练视觉-语言数据
为使 GR-3 具备遵循分布外OOD指令的泛化能力作者将机器人轨迹数据与视觉-语言数据联合训练见图 3。机器人轨迹数据同时训练 VLM 主干与动作 DiT采用流匹配损失视觉-语言数据仅训练 VLM 主干使用下一词预测损失。为简化实现作者在 mini-batch 中以等权重动态混合两类数据因此协同训练的总目标为下一词预测损失与流匹配损失之和。
通过视觉-语言协同训练GR-3 能在零样本情况下有效泛化至未见物体并理解复杂概念的新颖语义。作者从多个数据源精心构建了一套大规模视觉-语言数据集涵盖图像描述、视觉问答、图像定位及交错式图像描述等任务见图 4。作者还设计了过滤与再标注流水线以提升数据集质量确保协同训练效果。
协同训练不仅帮助 GR-3 保留了预训练 VLM 的强视觉-语言能力还使动作 DiT 能在动作预测中直接利用这些能力从而显著提升下游操作任务的泛化表现。
-
4.3小样本泛化基于人类轨迹数据
GR-3 作为通用视觉-语言-动作模型可通过轻量微调迅速适配全新场景。然而采集真实机器人轨迹既费时又昂贵。近年来VR 设备与手部追踪技术的进步为直接从人类轨迹学习动作提供了契机。本报告中作者将 GR-3 的高效微调能力延伸至更具挑战性的“极少人类轨迹小样本学习”场景。
具体而言面对一个新场景作者仅需利用 PICO 4 Ultra Enterprise 采集少量人类轨迹。借助 VR人类轨迹的采集速度可达约 450 条/小时远高于遥操作机器人轨迹的 250 条/小时从而以更低成本实现快速迁移。
采集到的人类轨迹包含第一视角视频与手部轨迹。作者沿用机器人轨迹的标注流程为人类轨迹补充语言指令。完成视觉-语言数据与机器人轨迹的第一阶段训练后作者将人类轨迹纳入并对三类数据共同训练。
与机器人轨迹不同人类轨迹仅提供第一视角和手部轨迹缺少腕部视角、关节状态与夹爪状态。对此作者用空白图像填充缺失的腕部视角并仅依据手部轨迹对人类数据进行训练。 -
-
5.硬件和系统
5.1 ByteMini机器人
ByteMini 机器人见图 5被用于数据采集与策略部署。这台 22 自由度的双臂移动机器人围绕三大核心目标设计灵活操作、高可靠性与人机友好。 灵活操作 两条 7 自由度的机械臂采用无偏置构型并在腕部引入独特的球形关节实现接近人手的灵巧度。紧凑的球形腕部突破了传统 SRS 构型腕部体积过大、在狭窄空间内操作受限的瓶颈。肘关节经过专门设计可实现 2.53 rad 的大范围内收使双臂能够在机器人胸前的有限空间内完成精细作业。
高可靠性 数据采集与策略部署的高负荷运行要求 ByteMini 具备极高的稳定性与一致性。作者采用集成升降机构的万向移动底盘确保空间机动与垂直高度调节的平稳可靠。为进一步提升可靠性并保证动作一致性臂部执行器基于准直驱QDD原理设计兼具高透明度与稳定性。
人机友好 为提升易用性作者在机器人上集成了便携屏幕与 NUC 计算单元并由双锂电池供电在多种场景下可连续运行超过 10 小时。ByteMini 还配备无线急停按钮可在紧急情况下迅速切断动作。头部与双腕均安装 RGB-D 相机腕部相机可在精细操作时提供近距离视野。
-
5.2 系统与控制
全身柔顺控制 作者采用全身柔顺控制框架将所有自由度视作一个整体把任意遥操作的人体运动重映射为机器人可行运动。可操作度优化、奇异点规避以及关节物理限位被统一纳入实时最优控制问题以最大化机器人的灵巧性。该框架能在广阔工作空间内为多种长跨度操作任务生成流畅、连续的运动从而为策略训练提供高质量的示范轨迹。柔顺力控制器支持高动态运动及与环境的物理交互既提升了安全性也提高了数据采集效率。
全身遥操作 在遥操作采集阶段作者通过 Meta VR Quest 实现全身重映射使操作者直观、友好地将人体动作直接映射到机器人末端执行器。操作者可以同时控制机械臂、升降机构、夹爪和移动底盘从而在现实世界中为复杂长跨度任务提供无缝的数据采集体验。
策略部署的轨迹优化 在策略部署阶段作者使用 GR-3 预测的动作片段控制机器人 19 个自由度不含升降机构与头部的 3 个自由度。作者引入纯跟踪算法并结合轨迹优化以提升 GR-3 生成轨迹的稳定性与平滑度。实时参数化优化最小化加加速度确保各航点之间以及整条轨迹之间的无缝衔接。
-
-
6. 实验
作者在真实世界中开展了大量实验以全面评估 GR-3 的表现并围绕四个核心问题展开 1. GR-3 能否严格遵循包括训练阶段未见在内的所有指令 2. GR-3 是否具备泛化到分布外场景新物体、新环境、新指令的能力 3. GR-3 能否基于极少的人类轨迹完成小样本学习并迁移到机器人本体 4. GR-3 是否能学习到稳健策略从而胜任长跨度且灵巧的复杂任务
实验选取三项任务可泛化抓取-放置、长跨度桌面整理、灵巧布料悬挂。更多视频演示请见项目主页。作者将 GR-3 与当前最佳方法 π0 对比按照 π0 官方 GitHub 仓库的指引对其在三大任务上分别进行微调。
6.1 可泛化抓取-放置
为评估 GR-3 在分布外场景的泛化能力作者设置了聚焦泛化的抓取-放置任务。共采集 3.5 万条机器人轨迹涵盖 101 种物体总时长 69 小时。轨迹以“将 A 放入 B”形式标注A 为物体类别B 为容器。基线模型仅用这些机器人轨迹进行微调GR-3 则同时用机器人轨迹与视觉-语言数据协同训练。训练期间作者对机器人轨迹图像施加光度增强以提升对变化环境的鲁棒性。作者还对比了“GR-3 无协同训练”这一变体仅用机器人轨迹训练以评估协同训练的具体贡献。
评估设置 作者在四种场景中进行评测 1) 基础场景环境与物体均在训练中见过共 54 种物体用于检验基本指令遵循能力。 2) 未见环境使用与基础场景相同的 54 种物体但置于四个训练时未见的环境收银台、会议室、办公桌、休息室中物体摆放保持一致。 3) 未见指令给出需要复杂概念理解的指令如“把左边的可乐放进纸盒”“把带触手的动物放进纸盒”。 4) 未见物体使用 45 种在机器人轨迹中未出现的新物体。
评测指标 作者采用指令遵循率IF与成功率两个指标。 - 指令遵循率若机器人正确接近指令指定的物体则视为成功。 - 成功率若机器人最终把目标物体放入容器则视为成功。 两者得分越高代表相应能力越强。
基础指令遵循 在“基础”与“未见环境”两种设定中作者将 54 个已见物体划分为 9 个 mini-batch每批 6 个物体。在每次 rollout 时依据给定指令让模型从 6 个候选中挑选 1 个物体。为保证不同模型结果可比作者使用预捕获的摆放模板固定物体位置确保同一 mini-batch 的物体布局在评测期间完全一致。图 7(a) 显示GR-3 在两种设定下的指令遵循率和成功率均超越 π0基础与未见环境间的性能差异很小表明 GR-3 对环境变化具备鲁棒性。此外GR-3 与“无协同训练”版本在这两设定下差异不显著说明协同训练对已知物体表现无负面影响。 可泛化指令遵循 在“未见指令”设定中作者测试模型对尺寸、空间关系、常识等抽象概念的理解能力。示例指令包括“把可乐旁边的那罐雪碧放进纸盒”“把最大的物体放进纸盒”“把海洋动物放进纸盒”等这些指令在机器人轨迹数据中从未出现需要模型进行复杂语义推理。 在“未见物体”设定中作者将 45 个未见物体划分为 9 个 mini-batch每批 5 个物体即每次 rollout 需从 5 个候选中选 1 个。该设定尤为苛刻45 个物体中超过 70 % 属于训练时未见的类别。图 7(a) 显示GR-3 在这两项设定中大幅领先 π0成功率分别由 40 % 提升至 77.1 %未见指令和 57.8 %未见物体。与“无协同训练”版本相比GR-3 亦显著提升表明视觉-语言协同训练为泛化能力带来关键增益。VLA 模型将大规模视觉-语言知识有效迁移到策略学习实现对新场景的零样本泛化。仅使用机器人轨迹训练的 GR-3 甚至低于 π0 基线作者推测 π0 的优势源于其大规模跨本体预训练。
基于人类轨迹的小样本泛化 作者进一步利用 VR 采集的人类轨迹评估小样本泛化能力挑战在于1) 需跨本体学习2) 数据极度稀缺。具体而言作者在“未见物体”设定中为 45 个新物体各采集 10 条以内人类轨迹总计 450 条总时长约 30 分钟。作者以已训练于机器人轨迹和视觉-语言数据的检查点为起点增量训练 GR-3在保留原有数据的同时加入人类轨迹再协同训练 20 k 步。 作者在 1-shot、5-shot、10-shot 三种小样本设定下分别评测已知与未知物体图 7(b)。与零样本基线相比随着人类轨迹增多未见物体的指令遵循率和成功率持续提升仅 10 条人类轨迹即可将成功率从 57.8 % 提高到 86.7 %。同时已知物体性能无明显下降表明这一微调策略兼具样本高效与成本低廉为将预训练 VLA 模型迁移至下游新场景提供了可行路径。
-
6.2 长期工作台总线 长跨度桌面整理 作者通过桌面整理任务检验 GR-3 在长跨度操作中的鲁棒性图 8。在该任务中机器人需清理布满餐具、食物、外带盒及塑料整理箱的餐桌。为完成整项作业机器人必须1) 将食物打包进外带盒2) 将所有餐具投入整理箱3) 把垃圾全部扔进垃圾桶。由于操作区域广阔机器人需驱动底盘在餐桌、外带盒与整理箱之间往返图 8(a)。作者在“平铺任务”与“指令跟随”两种设定下进行评测。
平铺任务设定 机器人仅收到一条概括指令——“清理餐桌”——即需在单次运行中自主完成全部子任务图 8(a)。该设定用于评估模型在长跨度任务中的鲁棒性。作者以“平均任务进度”作为指标计算成功完成的子任务数占总子任务数的比例数值为 1.0 表示完全成功中间值表示部分完成。作者在此设定下共测试了五组不同物体配置。
指令跟随IF设定 为了进一步检验模型对子指令的遵循能力作者依次给出多条子任务描述例如“将纸杯扔进垃圾桶”。每次子任务均从机器人“原位”开始。作者以“平均子任务成功率”作为指标。IF 设定共含六类测试场景图 8(b)
基础物体布局与训练数据几乎一致。 多实例在场景中加入某类物体的多个实例并指令机器人将该类全部实例投入整理箱或垃圾桶。 多目的地额外放置一个编织篮要求机器人把餐具投入篮子或整理箱。 多实例 多目的地综合前两设定让机器人把某类全部实例移至两个目的地之一。 新目的地要求把物体移至训练时未与之配对的目的地例如“把叉子扔进垃圾桶”。 无效任务现实应用中机器人可能收到无法完成的复杂指令。若桌上无蓝碗则“把蓝碗放入塑料盒”即为无效。作者期望策略能拒绝执行此类错误指令。在该测试中若模型在 10 秒内不操作任何物体即判为成功。
实现细节 作者共采集约 101 小时的机器人轨迹。基线模型 π0 仅在这些轨迹上微调。GR-3 则同时利用机器人轨迹与视觉-语言数据协同训练。作者还测试两个消融版本 - GR-3 w/o Norm移除 DiT 块注意力与 FFN 中的 RMSNorm。 - GR-3 w/o TS训练时不引入任务状态。
两种设定分别训练“平铺版”与“IF 版”。平铺版在训练时随机使用整体任务或子任务作为语言指令IF 版仅使用子任务指令。
结果 图 8(d) 显示GR-3 在两项设定下均优于 π0尤其在 IF 设定中成功率从 53.8 % 提升至 97.5 %。π0 虽能完成长跨度整理但指令遵循薄弱在分布外情境下尤为明显无法区分刀叉在新目的地测试中将物体投入训练时常见容器而非按指令操作。相反GR-3 在六类测试场景中均能严格遵循指令可泛化到多实例与多目的地场景并在无效任务中正确拒绝执行。
移除 RMSNorm 会显著削弱性能尤其在 IF 设定下GR-3 w/o Norm 指令遵循能力大幅下降无法泛化到新目的地凸显 RMSNorm 在提升指令遵循中的关键作用。去除任务状态同样导致 IF 性能下降表明任务状态能有效帮助 VLA 模型执行指令。
-
6.3 灵巧布料操作
本实验评估 GR-3 对可变形物体的灵巧操控能力具体任务为使用衣夹把衣服挂到晾衣架上图 2。机器人需依次完成1) 抓取衣夹2) 将衣服套上衣夹3) 把衣服连同衣夹挂到晾衣架。最后一步中机器人需旋转底盘从桌面前移到晾衣架旁完成挂衣。作者共采集 116 小时机器人轨迹训练 π0GR-3 则在此基础上与视觉-语言数据协同训练。作者在三种设定下评测基础Basic、位置扰动Position、未见实例Unseen Instances。
设定
基础使用训练中见过的 6 件衣服摆放方式与训练数据一致。 位置扰动将衣服旋转并揉皱图 9(b)评估模型对复杂布料布局的鲁棒性。 未见实例使用训练中未见的 4 件衣服图 9(a)。训练时均为长袖测试集中两件为短袖考验模型对新颖款式与袖长的泛化能力。 评测指标 作者以“平均任务进度”为指标。完整挂衣成功得 1.0任务被细分为 4 个关键里程碑 1) 抓取衣夹 2) 右肩套上衣夹 3) 左肩套上衣夹 4) 把衣服挂到晾衣架图 10(a)。 每个里程碑贡献相应分数累加得到总进度。
结果 图 10 显示GR-3 在三种设定下均优于 π0
基础86.7 % 位置扰动83.9 % 表明其擅长复杂灵巧任务且对布料位置变化鲁棒。 未见实例75.8 % 表明模型可泛化至未见款式与袖长。
进一步分析 rollout 流程图 10(a) 给出基础设定下 4 个里程碑的桑基图。左右模型共同的最难点是“左肩套上衣夹”机器人需先拉出在衣夹后方的左领口再完成抓取且需同时握住衣夹。另一常见失败模式是衣夹在左肩操作过程中滑落导致最后一步失败。 -
-
7. 总结
局限与未来工作 尽管 GR-3 在挑战性任务中表现强劲仍存在不足面对包含全新概念或物体的未见指令时模型会出错对于形状前所未见的物体抓取亦显吃力。作者计划通过扩大模型规模与训练数据量持续提升模型对新场景的适应能力。此外与所有模仿学习方法类似GR-3 在 rollout 时可能陷入分布外状态且无法自行恢复。未来作者拟引入强化学习RL以进一步提高复杂与灵巧任务的鲁棒性突破模仿学习的性能上限。
结论 本报告介绍了 GR-3——一个强大的视觉-语言-动作VLA模型可输出动作控制双臂移动机器人。作者系统研究了网络架构并构建了涵盖以下要素的综合训练方案与大规模视觉-语言数据协同训练、基于少量人类轨迹的高效小样本学习以及基于机器人轨迹的有效模仿学习。在三大挑战性任务上的大量真实世界实验表明GR-3 能够理解包含抽象概念的复杂指令有效泛化至全新物体与环境仅需极少人类轨迹即可快速适应并在长跨度与灵巧任务中表现出卓越的稳健性与可靠性。作者希望 GR-3 能成为迈向通用机器人的重要一步使其能够在现实世界中协助人类完成多样化任务。