中昌国际建设集团网站,惠州做学校网站,php 个人网站,wordpress调用字段《VLM-MPC: Model Predictive Controller Augmented Vision Language Model for Autonomous Driving》2024年8月发表#xff0c;来自威斯康星大学的论文。 受视觉语言模型#xff08;VLM#xff09;的紧急推理能力及其提高自动驾驶系统可理解性的潜力的启发#xff0c;本文…《VLM-MPC: Model Predictive Controller Augmented Vision Language Model for Autonomous Driving》2024年8月发表来自威斯康星大学的论文。 受视觉语言模型VLM的紧急推理能力及其提高自动驾驶系统可理解性的潜力的启发本文介绍了一种名为VLM-MPC的闭环自动驾驶控制器该控制器将模型预测控制器MPC与VLM相结合以评估基于模型的控制如何增强VLM决策。所提出的VLM-MPC由两个异步组件组成上层VLM根据前置摄像头图像、自我车辆状态、交通环境条件和参考存储器生成驾驶参数例如期望速度、期望车头时距用于下层控制下级MPC使用这些参数实时控制车辆考虑发动机滞后并向整个系统提供状态反馈。基于nuScenes数据集的实验验证了所提出的VLM-MPC在各种环境如夜间、降雨和十字路口中的有效性。结果表明与基于VLM的控制造成碰撞风险的某些情况相比VLM-MPC始终将侵占后时间PET保持在安全阈值以上。此外与现实世界的轨迹和基于VLM的控制相比VLM-MPC增强了平滑度。通过比较不同环境设置下的行为我们强调了VLM-MPC理解环境并做出合理推断的能力。此外我们通过消融测试验证了参考记忆和环境编码器这两个关键组件对响应稳定性的贡献。 1. 研究背景与动机 问题现有自动驾驶系统基于规则或学习的方法存在适应性差、对分布外OOD数据鲁棒性不足、响应速度慢等问题且缺乏可解释性。 解决方案结合视觉语言模型VLM的推理能力和模型预测控制MPC的动态优化能力提出 VLM-MPC 框架旨在提升自动驾驶的安全性、平滑性和环境适应性。 2. 核心贡献 异步分层架构 上层 VLM通过环境编码器提取天气、光照、道路条件、场景编码器车辆状态、前车信息、参考记忆历史驾驶参数聚合生成驾驶参数如目标速度、车距。 下层 MPC基于VLM生成的参数和车辆动力学模型考虑发动机延迟实时控制车辆实现高频闭环反馈。 异步机制VLM以低频0.2Hz更新参数MPC以高频10Hz执行控制解决VLM响应速度慢的问题。 抗幻觉设计 参考记忆通过历史数据统计场景平均参数减少VLM输出不稳定。 环境编码器利用CLIP模型从摄像头图像中提取环境描述增强上下文感知。 实验验证 数据集基于nuScenes数据集覆盖雨、夜、交叉路口等复杂场景。 指标 安全性通过“侵入后时间”PET衡量VLM-MPC在所有场景中PET均高于安全阈值1秒。 平滑性通过加速度均方根RMSa衡量VLM-MPC优于真实轨迹和基线模型如LLM直接生成动作。 完成率VLM-MPC使用Llava 1.6模型完成率达99.7%GPT系列模型达100%。 3. 实验关键结果 安全性表4 VLM-MPC在雨天交叉路口等复杂场景中PET值1.36–1.92秒显著高于基线模型如LLM to Action的0.05–2.65秒。 平滑性表5 VLM-MPC的RMSa0.33–0.43 m/s²接近真实轨迹0.51–0.68 m/s²远优于LLM直接控制0.93–3.13 m/s²。 消融实验表7、8 移除参考记忆VLM-MPC without M导致参数偏向高风险更高速度、更大车距雨天/夜间平滑性下降。 移除环境编码器VLM-MPC without E显著降低完成率87.5%因VLM无法理解道路信息。 4. 创新点 VLM与MPC的协同通过分层架构将VLM的语义推理与MPC的物理约束结合兼顾决策智能与动态优化。 抗幻觉机制参考记忆和环境编码器显著提升输出稳定性减少语言模型常见的不合理生成。 可解释性增强通过可视化注意力机制图10展示VLM在生成参数时对图像关键区域的关注如道路、障碍物。 5. 局限与未来方向 局限 实验依赖仿真数据nuScenes未覆盖真实场景的动态不确定性。 当前VLM响应时间Llava 1.6约3.42秒仍需优化以满足更高频率需求。 未来 模型轻量化优化参数规模提升实时性。 真实路测验证系统在复杂天气、低光照等极端场景的鲁棒性。 多模态扩展融合雷达、LiDAR等多传感器数据增强环境感知。 6. 总结
VLM-MPC 通过结合VLM的语义理解和MPC的动态控制为自动驾驶提供了一种安全、平滑且可解释的解决方案。其分层异步架构和抗幻觉设计有效弥补了纯学习方法的不足实验验证了其在复杂场景下的优越性为未来自动驾驶系统的智能化与可靠性提供了重要参考。 如果此文章对您有所帮助那就请点个赞吧收藏关注 那就更棒啦十分感谢