当前位置：首页 > news >正文

做国外网站做什么内容好贵阳网站建设培训班

news 2025/11/15 9:06:14

做国外网站做什么内容好,贵阳网站建设培训班,seo如何优化网站推广,网站外链怎么发布26年6月来自UCLA的论文“AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning”。视觉-语言-动作 (VLA) 模型的最新进展通过利用世界知识和推理能力为端到端自动驾驶带来了希望。然而#x…26年6月来自UCLA的论文“AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning”。视觉-语言-动作 (VLA) 模型的最新进展通过利用世界知识和推理能力为端到端自动驾驶带来了希望。然而当前的 VLA 模型常常难以应对物理上不可行的动作输出、复杂的模型结构或不必要的冗长推理。本文提出 AutoVLA一种 VLA 模型将推理和动作生成统一在一个自回归生成模型中用于端到端自动驾驶。AutoVLA 直接从原始视觉输入和语言指令执行语义推理和轨迹规划。将连续轨迹 token 化离散的可行动作从而能够直接集成到语言模型中。在训练方面采用监督微调使模型具备两种思维模式快速思维仅轨迹和慢速思维通过思维链推理增强。为了进一步提升规划性能和效率引入了一种基于组相对策略优化 (GRPO) 的强化微调方法以减少简单场景中不必要的推理。在 nuPlan、nuScenes、Waymo 和 CARLA 等真实世界和模拟数据集及基准测试中开展的大量实验证明 AutoVLA 在开环和闭环设置下均具有卓越的性能。定性结果展现 AutoVLA 在各种场景下的自适应推理和精准规划能力。尽管近年来 VLA 模型取得了一些进展其在自动驾驶领域仍面临两个关键限制如图所示。1动作生成结构复杂或物理上不可行。一些模型直接使用 VLM [35–37] 生成文本动作或航点但这些输出可能在物理上不可行并容易出现模式崩溃。为了解决这个问题最近的方法引入中间元动作 [38–40] 或潜动作 tokens [41–43]然后由下游规划器或解码器处理以生成物理上可行的轨迹。然而中间表示要么破坏了端到端优化范式要么增加了模型复杂度和训练开销。2跨不同场景的推理不够灵活且效率低下。大多数现有模型 [44, 45] 采用固定的推理策略缺乏在简单场景的直接动作输出和复杂场景的思维链 (CoT) 推理之间自适应切换的能力。尽管 DriveVLM [46] 引入了双-过程范式但它依赖于单独的模块即用于慢速推理的 VLM 和用于快速响应的传统端到端模型这导致了复杂的架构、增加了训练开销并且可扩展性有限 [47]。 AutoVLA 是一个端到端自动驾驶框架它将物理动作 tokens 直接集成到预训练的 VLM 主干网络中从而支持直接学习自回归规划策略如上图b和下图所示细节。其统一架构无缝集成了推理和动作生成允许在直接轨迹生成和 CoT 推理之间进行自适应切换。在监督微调 (SFT) 中利用轨迹数据和 CoT 推理数据使模型具备双处理能力快速和慢速思维。此外提出强化微调 (RFT) [48]利用具有可验证规划奖励函数的组相对策略优化 (GRPO) [49]。这使得自适应推理能够在规划准确性和效率之间取得平衡。RFT 方法不仅提高规划性能还通过最大限度地减少不必要的推理来提高运行效率。如上图所示AutoVLA 框架由两个主要组件组成1VLM 主干它能够处理视觉和文本输入并生成相应的 token推理和动作采用统一的自回归 Transformer 解码器。2物理动作 token 生成扩展语言模型解码器使其能够输出与车辆运动直接对应的物理动作 token。这些 token 的设计遵循物理约束可以可靠地转换为物理上可行的规划轨迹。 AutoVLA 的训练分两个阶段进行如图所示。1监督微调使用真实轨迹数据并从大规模 VLM 中提取高质量的推理数据。2强化微调使用特定于任务的奖励函数来优化规划性能同时通过最小化不必要的推理来提高运行效率。 AutoVLA 框架模型输入。AutoVLA 将车载摄像头的多视角、多帧摄像头数据 C、高级导航指令 I 以及车辆自身状态 S 作为输入并执行场景推理和轨迹规划。具体而言利用三个 RGB 摄像头分别位于车辆的前部、左前部和右前部。每个摄像头数据流 ci [ci_t−3, ci_t−2, ci_t−1, ci_t] 以 2 Hz 的频率捕获四个连续帧包括当前帧和前三个帧为场景动态提供时间信息。此外该模型使用高级导航指令 I例如左转和直行来明确指定预期方向。车辆自身状态 S 包含当前速度、加速度和历史动作。基础 VLM 模型。采用 Qwen2.5-VL-3B [21] 作为 AutoVLA 的视觉语言主干。 Qwen2.5-VL 是一系列强大的多模态大语言模型具备强大的视觉理解能力。Qwen2.5-VL 模型的开源特性使其能够针对特定任务进行微调。3B 版本在效率和性能之间取得了良好的平衡非常适合部署在车载设备中。动作token化。为了在语言模型中进行轨迹规划将连续车辆轨迹 P 离散化为一系列物理动作 token a [a_1,…,a_T]其中 a_t∈AT 是 token 化预测轨迹的长度每个 token 由短期空间位置和航向运动 (∆x,∆y,∆θ) 表示。这将规划任务转化为下一个 token 预测问题可以在语言模型中进行。构建动作码本 A {a_1,a_2,… , a_K }该方法使用 K -盘聚类方法 [88–90]涵盖大多数车辆运动模式。最后获得一个由 K 2048 个离散动作 token 组成的车辆运动码本。按照 [30, 91]这些动作 tokens 作为附加 tokens 合并到 VLM 中即 action_0、action_1、…。在推理过程中模型输出这些动作 tokens 的序列随后使用动作码本将这些动作 tokens 解码为规划轨迹。统一推理和动作。AutoVLA 在单个自回归 Transformer 框架内统一了推理和动作生成从而能够根据驾驶场景在快速和慢速思维之间自适应切换。在快速思维模式下AutoVLA 直接预测物理动作 tokens 而无需生成冗长的推理步骤从而能够在简单场景中快速响应。相比之下慢思考模式涉及结构化的CoT推理其中模型首先分析环境识别关键要素并推理潜结果然后再决定最终的驾驶行为。为了实现这种双重思考能力AutoVLA 采用直接行动监督和推理增强数据相结合的训练方式。其设计系统提示和响应格式一致地支持这两种模式。推理数据推理数据提供了高质量的驾驶任务 (CoT) 标注这对于训练具有推理能力的视觉语言模型 (VLM) 至关重要 [42]。在驾驶任务中推理涉及理解动态环境中的复杂语义和交互 [92–95]。尽管推理至关重要但由于三大限制因素开发高质量、大规模的驾驶推理数据集仍然是一项关键挑战1场景多样性有限且示例重复2关键感知线索例如交通标志和车辆指示灯信号的表征不足3推理过程质量低下例如无正当理由在停车标志处反复停车。为了解决这些问题其提出一种基于先进的 Qwen2.5-VL-72B 模型 [21] 的自动推理标注流程。该流程能够自动生成高精度推理标注并支持将知识从大模型蒸馏到更紧凑的目标模型。该流程生成涵盖四个关键组件的结构化推理注释详细的场景描述、关键物体的识别、周围智体意图的预测以及合适驾驶行为的确定。为了规范推理结果该方法将真实的驾驶行为作为提示引导模型生成因果解释将驾驶决策与场景上下文明确联系起来。这种结构化的提示方法显著减少了无意义的输出并最大限度地减少了手动校正的需求。利用该注释流程构建一个全面的推理数据集其中包含约 45.6k 条 nuPlan 数据集的 CoT 推理注释和 7.2k 条 Waymo E2E 数据集的注释。此外还重新格式化并集成 DriveLM [96]一个基于 nuScenes 和 CARLA 模拟数据构建的视觉问答 (VQA) 数据集以增强推理数据。监督式微调监督式微调 (SFT) 用于训练模型生成推理和动作序列。给定多帧摄像头图像 C、高级导航指令 I 和车辆自身状态 S训练模型生成一系列输出 tokens。输出序列由用于推理的语言 token l [l_1, …, l_L] 和动作 token a [a_1, …, a_T] 组成。为了在 SFT 期间同时实现快速和慢速思考用真实助手响应来整理训练数据这些响应要么仅包含最终动作 token要么将 CoT 推理与相应的动作 token 相结合。在快速思考模式下l 是一个固定的短模板表示不需要推理。相反在慢速思考模式下l 以一个引入 CoT 推理需求的模板开始然后是结构化的推理序列。第一个监督信号是标准因果语言模型目标函数它最小化目标 token 序列的负对数似然并增强推理能力。另一个监督信号侧重于规划准确性针对动作 token a [a_1,…,a_T] 引入辅助损失这些 token 出现在输出序列中的位置 x_L1 到 x_LT。给定输出序列 x [l_1,…,l_L,a_1,…,a_T]损失函数定义为为了联合优化推理和动作生成将语言模型损失和动作损失合并为一个 SFT 损失函数。为了解决推理数据和纯动作数据之间的不平衡问题并鼓励模型从包含 CoT 推理的示例中学习根据真实数据中 CoT 的存在情况为每个样本应用一个加权因子。每个训练示例的总损失计算如下强化微调为了进一步提升 AutoVLA 的性能使其与驾驶需求和特定任务的奖励保持一致引入一种基于强化学习的训练后方法。该 RFT 阶段使模型能够进行自适应推理并优化规划性能。采用 GRPO 算法 [49]该算法可以稳定训练并提高收敛效率。此外规划固有的多模态性即同一场景下存在多条可行轨迹与 GRPO [38] 基于组的优化框架自然契合。给定一个场景输入查询 q包括传感器图像、自车辆状态和驾驶指令从旧策略 π_θ_old 中采样一组 G 个候选输出 O {o_1, o_2, …, o_G}。然后使用归一化的群相对优势 A_i 来优化当前策略 π_θ通过最大化以下目标最终奖励函数定义为 r r_Driving − λ_r * r_CoT其中 λ_r 表示平衡权重。术语 r_Driving 因基准而异。对于 nuPlan 数据集采用预测驾驶员模型评分 (PDMS) [51] 作为驾驶奖励该评分涵盖安全性、舒适性、行驶效率和其他驾驶质量指标等方面。对于 Waymo E2E 数据集由于评估者反馈评分 (RFS) 注释的可用性有限 [52]使用平均位移误差 (ADE) 作为驾驶奖励。为了避免不必要的过长推理链在奖励函数中加入 CoT 长度惩罚 r_CoT。实验设置数据集。用一系列多样化的真实世界和模拟数据集训练 AutoVLA 模型。nuPlanOpen-Scene数据集 [50, 97] 包含 120 小时的大规模驾驶数据包含八路摄像头数据流和物体标注。Waymo 端到端驾驶数据集 [52] 包含 4,021 个 20 秒的驾驶片段包含八路摄像头视图和自主车辆轨迹尤其关注具有挑战性和长尾场景例如穿越施工区域或危险路况。nuScenes 数据集 [53] 提供 1,000 个城市驾驶场景包含六个摄像头视图。CARLA-Garage 数据集 [55] 提供来自 CARLA 模拟器的超过 500,000 帧摄像头数据。除了收集的推理数据外还利用 DriveLM 数据集 [96] 作为 nuScenes 和 CARLA 数据集通过重新格式化 VQA 对来促进 CoT 推理。基准测试。在真实世界和模拟环境中基于开环和闭环基准测试对 AutoVLA 进行评估。开环性能基于两个公共基准测试进行评估来自 nuPlan 数据集的 NAVSIM 基准测试 [51] 和 nuScenes 基准测试 [65]。NAVSIM 基准测试采用 PDMS 来评估驾驶行为的关键方面例如碰撞和自我认知进展。nuScenes 基准测试使用 L2 距离和碰撞率作为评估指标。此外用 RFS 指标报告模型在 Waymo 端到端驾驶基准测试中的表现该指标反映人类判断的规划质量。闭环性能基于 CARLA 模拟器中的 Bench2Drive 基准测试 [54] 进行评估。Bench2Drive 包含 44 个在不同地点和天气条件下的交互式闭环场景使用成功率、驾驶得分、效率和舒适度等指标。实施细节。每个动作 token 对应 0.5 秒的移动规划时间范围设为 5 秒。因此模型输出 10 个动作 token从中可以解码出 5 秒的轨迹。对于 SFT使用 1 × 10−5 的学习率和 FSDP 训练策略。该模型使用 8 个 NVIDIA L40S GPU 训练了 5 个 epoch。使用的每个 GPU 批次大小为 1并在 4 个步骤中累积梯度因此有效批次大小为 32。SFT 损失函数中的加权参数设为 λ_a 1 和 λ_cot 40。对于 RFT使用 LoRA 适配器 [98] 进行参数高效训练。RFT 的学习率设为 3 × 10−5KL 正则化权重 β 设为 0.04。在每个步骤执行一次策略更新从而允许使用简化的目标而无需裁剪或跟踪旧策略。该模型针对下图所示每 6,000 步的数据缩放对规划的影响进行了微调并选择了性能最佳的检查点进行评估。推理数据收集拥有包含思维链 (CoT) 标注的大规模高质量推理数据集对于实现视觉-语言-动作 (VLA) 模型的稳健推理能力至关重要。本文介绍一种基于最先进的 Qwen2.5-VL-72B 视觉-语言模型 [21] 的自动推理标注流程如图所示。该流程显著减少对人工标注的依赖并有助于将知识从更强大的大规模模型有效提炼到更高效、更紧凑的模型。强化微调细节组相对策略优化 (GRPO) 采用基于组的采样来计算优势函数取代传统的状态值估计器或评价模型。这种设计加速了训练速度同时自然地与规划固有的多模态性相一致因为规划需要从一组候选轨迹中进行评估和选择。算法 1 展示整体强化微调 (RFT) 流程。用 nuPlan 数据集的 navtrain 部分作为 NAVSIM 基准的 RFT并使用 Waymo E2E 数据集的验证集分割作为 Waymo 基准的 RFT。预训练 AutoVLA 的视觉编码器处于冻结状态并使用低秩自适应 (LoRA) 对模型进行微调以降低训练成本和内存消耗。具体而言LoRA 的秩和 alpha 均设置为 8dropout 率为 0.1。预训练的 SFT 模型在优化过程中用作参考策略。超参数 γ、L_tol 和学习率分别设置为 2 × 10−3、400 和 3 × 10−5。为了确保驾驶奖励信号占主导地位正则化权重设置为相对较小的值 λ_r 0.3。还在 Waymo 数据集的 RFT 中设置 δ 2κ 10。此外将生成参数配置为采样温度为 1.0、top-p 为 1.0 和 top-k 为 0.0以鼓励 GRPO 采样期间的多样化和探索性生成从而有效涵盖更广泛的可能操作。数据预处理为了实现跨多个驾驶数据集的混合训练开发了统一的数据预处理流程以标准化所有数据集的格式。对于每个样本提取并标准化12 Hz 下自车坐标系中的地面真实轨迹坐标和航向2由 2 Hz 下连续 4 帧提供 2 秒历史记录组成的多视角摄像头图像序列的图像路径3CoT 推理注释4车辆状态包括当前速度和加速度5高级驾驶指令。预处理流程处理特定数据集在数据格式、采样率和坐标系方面的差异以创建一致的格式。最终格式化数据集的大小和分布如表所示。 nuPlan (NAVSIM)。从 nuPlan 训练集拆分中随机抽取 45.6k 个场景并使用提出的自动注释流程生成推理数据。由此生成的推理样本加上剩余仅包含轨迹标注的训练数据构成 nuPlan 的完整训练集。根据 NAVSIM 基准测试用 navtest 部分数据作为测试集。 nuScenes。对训练集中的所有样本进行预处理。对于 DriveLM 数据集中的样本重新格式化问答 (QA) 对并按照四步推理格式生成结构化推理标注。DriveLM 未涵盖的样本也用于训练但仅进行轨迹监督。验证集用于测试。 Waymo。Waymo E2E 数据集提供 2037 个训练片段和 479 个验证片段每个片段包含一段 20 秒的视频其中包含整个行驶过程中的驾驶日志。用 4 秒滑动窗口对推理数据进行采样并使用与推理样本偏移 1 秒的 2 秒滑动窗口提取仅包含轨迹的数据。由于位置数据中存在噪声车辆静止时估计的航向可能会出现突变波动。为了解决这个问题用运动阈值来检测静止周期并相应地平滑航向。测试集包含 1505 个样本。 CARLA。CARLA-Garage 数据集用于训练模型进行闭环评估。由于只有前置摄像头图像可用用单视图输入包含四个连续帧进行 CARLA 训练和测试。用偏移量为 0.5 秒的滑动窗口对数据进行采样并将轨迹从 4 Hz 下采样至 2 Hz。对于推理注释利用 DriveLM-CARLA 数据集该数据集提供与 DriveLM-nuScenes 类似的 QA 对并重新格式化 QA 对以生成带有推理注释的样本。

查看全文

http://www.zqtcl.cn/news/319243/