行业门户网站制作,视频号下载免费,在Vs中做网站接口,希爱力的作用与功效1 背景之前大家普遍认为的端到端就是传感器输入#xff0c;控制输出#xff0c;这也确实是真正的端到端#xff0c;但目前车企走的更多的是轨迹生成。自动驾驶端到端控制瓶颈主要有以下两点#xff1a;可解释性缺失#xff1a;传统端到端模型#xff08;如纯VLM控制器控制输出这也确实是真正的端到端但目前车企走的更多的是轨迹生成。 自动驾驶端到端控制瓶颈主要有以下两点可解释性缺失传统端到端模型如纯VLM控制器生成的控制指令缺乏透明决策依据难以追溯风险原因。动态适应性不足单一控制器难以协调高层语义理解如天气影响与底层动力学约束导致跨场景性能波动。 之前笔者提到过理想小米小鹏蔚来等都通过使用VLM模型丰富智驾的功能并将其量产到车上主要利用VLM的识别推理能力。2 VLM-MPC 本篇博客主要介绍VLM-MPC自动驾驶中视觉语言基础模型引导的模型预测控制器。 受到视觉语言模型VLMs紧急推理能力及其提高自动驾驶系统理解力的启发本文引入了一种闭环自动驾驶控制器称为VLM-PLC其结合了用于高级决策的VLM和用于低级车辆控制的模型预测控制器MPC。2.1 分层异步架构 VLM-MPC由异步运行的双层组件构成解决VLM延迟高与MPC实时性需求的矛盾组件功能运行频率输入/输出上层VLM解析环境语义天气、光照、交通参与者生成高层驾驶参数目标速度、车距0.2 Hz图像车辆状态→决策参数如期望速度下层MPC基于VLM参数优化实时控制满足车辆动力学约束10 Hz参数→控制信号转向角、油门/刹车 VLM-MPC系统在结构上分为两个异步组件上层VLM和下层MPC。上层VLM基于前视相机图像、自车状态、交通环境条件和参考内存来生成用于下层控制的驾驶参数。Reference memory数据集真实轨迹作为参考Environment description model驾驶环境描述Scenario Encoder场景编码Prompt Generator推理Prediction horizonSpeed maintenance weightControl effort weightHeadway maintenance weightDesired speedDesired headway下层MPC通过这些参数实时控制车辆其考虑了发动机滞后并且向整个系统提供了状态反馈。2.2 关键技术环境编码器利用CLIP模型从图像提取结构化环境特征如“雨天”“交叉路口”增强VLM的上下文感知。参考记忆模块聚合历史驾驶参数如平均安全车距通过统计先验减少VLM输出波动抑制幻觉风险。抗幻觉设计双层校验机制确保决策参数符合物理可行性如MPC拒绝VLM生成的超速指令。2.3 实验结果 论文的主要贡献如下 1VLM-MPC自动驾驶控制器提出了一种闭环自动驾驶控制器其将VLMs应用于高级车辆控制。上层VLM使用车辆的前视相机图像、文本场景描述和经验记忆作为输入以生成低级MPC所需的控制参数。低级MPC利用这些参数并且考虑车辆动力学以实现逼真的车辆行为并且向上层提供状态反馈。这种异步两层结构解决了当前VLM响应速度慢的问题 2VLM对环境的理解通过比较不同场景条件例如天气、光照、道路条件下的行为本文证明了VLM理解环境并且做出合理决策的能力。这突显了VLM适应各种驾驶环境和条件的能力。 基于nuScenes数据集的实验验证了所提出的VLM-MPC系统在各种场景例如夜晚、下雨、十字路口下的有效性。结果表明VLM-MPC系统在安全性和驾驶舒适性方面始终优于基线模型。通过比较不同天气条件和场景下的行为证明了VLM理解环境并且做出合理推理的能力。 实验结果表明与基线模型相比VLM-MPC系统始终具有更优的安全性、驾驶舒适性和稳定性能。与不同FMs的兼容性分析表明Llama3.1-8B模型可以满足所提出方法的响应时间要求。3 总结 目前很多的大模型工作都是在开环环境下进行甚至仿真环境下的闭环实验都没有做在笔者看来这是当前很多科研论文不够严谨的表现。 基于VLM的MPC需要基于闭环实验甚至实车验证因为涉及到控制器的动态调参对于整个系统的稳定性是非常重要的。该方案为科研工作者提供了一个思路。参考文献《VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving》