二度云自助建站系统,搭建本地网站,网络设计项目,tdk标签影响网站权重本文深入分析了大模型技术在自动驾驶领域的应用和影响#xff0c;万字长文#xff0c;慢慢观看~
文中首先概述了大模型技术的发展历程#xff0c;自动驾驶模型的迭代路径#xff0c;以及大模型在自动驾驶行业中的作用。接着#xff0c;详细介绍了大模型的基本定义、基础功…本文深入分析了大模型技术在自动驾驶领域的应用和影响万字长文慢慢观看~
文中首先概述了大模型技术的发展历程自动驾驶模型的迭代路径以及大模型在自动驾驶行业中的作用。接着详细介绍了大模型的基本定义、基础功能和关键技术特别是Transformer注意力机制和预训练-微调范式。文章还介绍了大模型在任务适配性、模型变革和应用前景方面的潜力。在自动驾驶技术的部分详细回顾了从CNN到RNN、GAN再到BEV和Transformer结合的技术迭代路径以及占用网络模型的应用。最后文章重点讨论了大模型如何在自动驾驶的感知、预测和决策层面提供赋能突出了其在该领域的重要性和影响力。 目录
一、本文概述
1.1 大模型技术发展历程
1.2 自动驾驶模型迭代路径
1.3 大模型对自动驾驶行业的赋能与影响
二、大模型技术发展历程
2.1 大模型基本定义与基础功能
2.2 大模型的基础——Transformer注意力机制
2.3 大模型的预训练-微调范式
2.4 探索大模型:任务适配性、模型变革与应用前景
三、自动驾驶技术迭代路径
3.1 自动驾驶算法核心模块概览
3.2 CNN
3.3 RNN、GAN
3.4 BEV
3.5 TransformerBEV
3.6 占用网络模型
四、大模型对自动驾驶行业的赋能
4.1 自动驾驶的大模型
4.2 车端赋能主要作用于感知和预测环节逐渐向决策层渗透 一、本文概述
1.1 大模型技术发展历程
大模型泛指具有数十亿甚至上百亿参数的深度学习模型而大语言模型是大模型的一个典型分支以ChatGPT为代表
Transformer架构的提出引入了注意力机制突破了RNN和CNN处理长序列的固有局限使语言模型能在大规模语料上得 到丰富的语言知识预训练
一方面开启了大语言模型快速发展的新时代另一方面奠定了大模型技术实现的基础为其他领域模型通过增大参数量提升模型效果提供了参考思路。
复杂性、高维度、多样性和个性化要求使得大型模型在自动驾驶、量化交易、医疗诊断和图像分析、自然语言处理和智能对 话任务上更易获得出色的建模能力。 1.2 自动驾驶模型迭代路径
自动驾驶算法模块可分为感知、决策和规划控制三个环节。其中感知模块为关键的组成部分经历了多样化的模型迭代
CNN2011-2016—— RNNGAN2016-2018—— BEV2018-2020—— TransformerBEV2020至 今—— 占用网络2022至今
可以看一下特斯拉智能驾驶迭代历程 2020年重构自动驾驶算法引入BEVTransformer取 代传统的2DCNN算法并采用特征级融合取代后融合自动标注取代人工标注。2022年算法中引入 时序网络并将BEV升级为占用网络(Occupancy Network)。2023年8月端到端AI自动驾驶系统FSD Beta V12首次公开亮相完全依靠车载摄像头和神经网络来识别道路和交通情况并做出相应的决策。 1.3 大模型对自动驾驶行业的赋能与影响
自动驾驶领域的大模型发展相对大语言模型滞后大约始于2019年吸取了GPT等模型成功经验。
大模型的应用加速模型端的成熟为L3/L4级别的自动驾驶技术落地提供了更加明确的预期。
可从成本、技术、监管与安全四个层面对于L3及以上级别自动驾驶落地的展望其中
成本仍有下降空间技术的发展仍将沿着算法和硬件两条主线并进法规政策还在逐步完善之中安全性成为自动驾驶汽车实现商业化落地必不可少的重要因素
各主机厂自2021年开始加速对L2自动驾驶的布局且预计在2024年左右实现L2接近L3或者更高级别的自动驾驶功能的落地其中政策有望成为主要催化。 二、大模型技术发展历程
2.1 大模型基本定义与基础功能
大模型基本定义由大语言模型到泛在的大模型大模型主要指具有数十亿甚至上百亿参数的深度学习模型比较有代表性的是大型语言模型 Large Language Models比如最近大热的ChatGPT。
大型语言模型是一种深度学习算法可以使用非常大的数据集来识别、总结、翻译、预测和生成内容。
大语言模型在很大程度上代表了一类称为Transformer网络的深度学习架构。Transformer模型是一个神经网络通过跟 踪序列数据中的关系像这句话中的词语来学习上下文和含义。
Transformer架构的提出开启了大语言模型快速发展的新时代
谷歌的BERT首先证明了预训练模型的强大潜力OpenAI的GPT系列及Anthropic的Claude等继续探索语言模型技术的边界。越来越大规模的模型不断刷新自然语言处理的技术状态。这些模型拥有数百亿或上千亿参数可以捕捉语言的复杂语义关系并进行人类级别的语言交互。
下图是大模型的发展历程 2.2 大模型的基础——Transformer注意力机制
注意力机制Transformer的核心创新创新点1Transformer模型最大的创新在于提出了注意力机制这一机制极大地改进了模型学习远距离依赖关系的能力突破了传统RNN和CNN在处理长序列数据时的局限。
创新点2 在Transformer出现之前自然语言处理一般使用RNN或CNN来建模语义信息。但RNN和CNN均面临学习远距离依赖关系的困难
RNN的序列处理结构使较早时刻的信息到后期会衰减而CNN的局部感知也限制了捕捉全局语义信息。这使RNN和CNN在处理长序列时往往难以充分学习词语之间的远距离依赖。
创新点3Transformer注意力机制突破了RNN和CNN处理长序列的固有局限使语言模型能在大规模语料上得到丰富的语言知识预训练。该模块化、可扩展的模型结构也便于通过增加模块数量来扩大模型规模和表达能力为实现超大参数量提供了可行路径。
Transformer解决了传统模型的长序列处理难题并给出了可无限扩展的结构奠定了大模型技术实现的双重基础。
下面是Transformer结构图 2.3 大模型的预训练-微调范式
大模型代表了一种新的预训练-微调范式其核心是先用大规模数据集预训练一个极大的参数模型然后微调应用到具体任务。
这与传统的单任务训练形成了对比标志着方法论的重大变革。 参数量的倍数增长是大模型最根本的特点从早期模型的百万量级发展到现在的十亿甚至百亿量级实现了与以往数量级的突破。 Transformer架构的提出开启了NLP模型设计的新纪元它引入了自注意力机制和并行计算思想极大地提高了模型处理长距离依赖关系的能力为后续大模型的发展奠定了基础。
正是由于Transformer架构的成功研究者们意识到模型的架构设计在处理复杂任务和大规模数据中发挥着举足轻重的作用。这一认识激发了研究者进一步扩大模型参数量的兴趣。虽然之前也曾有过扩大参数量的尝试但因受限于当时模型本身的记忆力等能力提高参数数量后模型的改进并不明显。
GPT-3的成功充分验证了适度增大参数量能显著提升模型的泛化能力和适应性由此掀起了大模型研究的热潮。
它凭借过千亿参数量和强大的语言生成能力成为参数化模型的典范。GPT-3在许多NLP任务上表现亮眼甚至在少样本或零样本学习中也能取得惊人的效果。
增大参数量的优点
更好的表示能力 增大参数量使模型能够更好地学习数据中的复杂关系和模式从而提高模型的表示能力使其在不同任务上表现更出色。泛化能力和迁移学习大模型能够从一个领域学习到的知识迁移到另一个领域实现更好的迁移学习效果这对于数据稀缺的任务尤其有价值。零样本学习 增大参数量可以使模型更好地利用已有的知识和模式从而在零样本学习中取得更好的效果即使只有很少的示例也能完成任务。创新和探索 大模型的强大能力可以帮助人们进行更多创新性的实验和探索挖掘出更多数据中的隐藏信息。 2.4 探索大模型:任务适配性、模型变革与应用前景
与早期的人工智能模型相比大型模型在参数量上取得了质的飞跃导致了在复杂任务的建模能力整体上的提升
1学习能力增强以应对更复杂的任务2泛化能力加强以实现更广泛的适用性3鲁棒性提高4具备更高层次认知互动能力可模拟某些人类能力等。
复杂性、高维度、多样性和个性化要求使得大型模型在某些任务上更易获得出色的建模能力
多模态传感器数据的融合分析尤其涉及到时序数据的处理如自动驾驶复杂且动态的目标需要模型从大规模多样化的数据模式中学习如金融领域中的量化交易策略优化涉及异构数据源的高维输入空间如医学图像和报告需要为不同用户或场景进行个性化建模的定制化需求如智能助理 三、自动驾驶技术迭代路径
3.1 自动驾驶算法核心模块概览
自动驾驶算法模块可分为感知、决策和规划控制三个环节其中感知模块为关键的组成部分 感知模块感知模块负责解析并理解自动驾驶所处车辆周边的交通环境是实现自动驾驶的基础和前提感知模块的精准程度直接影响并制约着自动驾驶系统的整体安全性和可靠性。
感知模块主要通过摄像头、激光雷达、毫米波雷达等各类传感器获取输入数据然后通过深度学习等算法准确解析出道路标线、其他车辆、行人、交通灯、路标等场景元素以供后续流程使用。
决策和规划控制与感知模块相比决策和规划控制等模块的作用更为单一和被动。
这些模块主要依据感知模块输出的环境理解结果通过算法决策生成驾驶策略并实时规划车辆的运动轨迹和速度最终转换为控制命令以实现自动驾驶。 但是大模型在车端赋能主要作用于感知和预测环节逐渐向决策层渗透。 3.2 CNN
2011-2016CNN引发自动驾驶领域的首次革新浪潮
随着深度学习和计算能力的提升卷积神经网络(CNN)在图像识别任务上的出色表现引发了自动驾驶领域的首次革新浪潮。
2011年IJCNN的论文《Traffic Sign Recognition with Multi-Scale Convolutional Networks》展示了CNN在交通标志识别方面的潜力2016年Nvidia团队发表的《End-to-End Deep Learning for Self-Driving Cars》成为最早将CNN应用于端到端自动驾驶的工作之一。 这是一个两阶段的卷积神经网络架构输入通过两个卷积和子采样阶段进行前馈处理最终通过线性分类器进行分类。
CNN极大提升了自动驾驶车辆的环境感知能力
一方面CNN在图像识别与处理方面的卓越表现使车辆能够准确分析道路、交通标志、行人与其他车辆另一方面CNN有效处理多种传感器数据的优势实现了图像、激光雷达等数据的融合提供全面的环境认知。叠加计算效率的提高CNN模型进一步获得了实时进行复杂的感知与决策的能力。
但CNN自动驾驶也存在一定局限性
1需要大量标注驾驶数据进行训练而获取足够多样化数据具有难度2泛化性能有待提高3鲁棒性也需要经受更复杂环境的考验4时序任务处理能力相比较而言RNN等其他模型可能更占优势。 3.3 RNN、GAN
2016-2018RNN和GAN被广泛应用到自动驾驶相关的研究推动自动驾驶在对应时间区间内快速发展
RNN相较于CNN更适合处理时间序列数据RNN的循环结构可以建模时间上的动态变化这对处理自动驾驶中的轨迹预测、行为 分析等时序任务非常有用。例如在目标跟踪、多智能体互动建模等领域RNN和LSTMRNN的改进版本带来了巨大突破可以 预测车辆未来的运动轨迹为决策和规划提供支持。
GAN的生成能力缓解自动驾驶系统训练数据不足的问题GAN可以学习复杂分布生成高质量的合成数据为自动驾驶领域带来 了新思路用于缓解自动驾驶系统训练数据不足的问题。例如GAN可以生成模拟的传感器数据、场景信息测试自动驾驶算法的 鲁棒性也可以用于交互式模拟场景生成。
RNNGAN可以实现端到端的行为预测和运动规划RNN负责时序建模GAN负责数据生成两者相互协同可以为自动驾驶系统提供更全面和可靠的环境感知、状态预测和决策支持。 这是融合了LSTM和GAN的模型架构示例。
RNN和GAN仍未解决的问题
RNN类模型长期时序建模能力仍较弱特别是在处理较长的时间序列数据时可能出现梯度消失或梯度爆炸的问题限制了它在某些自动驾驶任务上的应用效果。GAN模型生成的数据质量难以控制很难达到足够逼真的程度。此外尽管GAN可以生成合成数据但在实际应用中它在自动驾驶领域的具体应用仍相对有限。样本效率低RNN和GAN在样本效率方面仍较低通常需要大量的真实场景数据来训练和优化模型。而且这些模型难以解释缺乏对内部决策过程的清晰解释同时模型的稳定性和可靠性也是需要进一步解决的问题之一。
RNN和GAN在自动驾驶领域应用趋冷的原因
效率和实时性需求 自动驾驶系统需要在实时性要求较高的情况下做出决策和控制。传统的RNN在处理序列数据时存在计算效率较低的问题处理实时感知和决策任务能力有限。复杂性和泛化能力 自动驾驶涉及复杂多变的交通场景和环境需要具备强大的泛化能力。然而传统的RNN可能在处理复杂的时序数据时遇到困难而无法很好地适应各种交通情况。新兴技术的兴起 随着深度学习领域的发展新的模型架构和算法不断涌现如Transformer架构、强化学习等这些新技术在处理感知、决策和规划等任务方面可能更加高效和适用。 3.4 BEV
2018-2020基于鸟瞰视角(BEV)的模型在自动驾驶领域获得了广泛的研究和应用
BEV模型的核心思想是将车辆周围的三维环境数据如来自激光雷达和摄像头的点云、图像等数据投影到俯视平面上生成二维的鸟瞰图。这种将三维信息“压平”成二维表示的方式为自动驾驶系统的环境感知和理解带来了重要优势
鸟瞰图提供了比直接的原始传感器数据更加直观和信息丰富的环境表示可以更清晰地观察道路、车辆、行人、标志等元素的位置和关系增强自动驾驶对复杂环境的感知能力全局的俯视视角更有利于路径规划和避障系统进行决策根据道路和交通状况规划更合理稳定的路径BEV模型可以将来自不同传感器的输入数据统一到一个共享表示中为系统提供更加一致和全面的环境信息 这是BirdNet 3D 对象检测框架网络的三个输出是类别绿色、2d 边界框蓝色和偏航角红色。
但是BEV模型也存在一些问题亟待解决
从原始三维数据生成BEV表示需要进行大量坐标变换和数据处理增加了计算量和对硬件的要求信息损失问题三维信息投影到二维时难免会损失一些细节如遮挡关系等不同传感器到BEV坐标系的转换也需要进行复杂的标定和校准需要研究如何有效融合各种异构数据源以生成更加准确和完整的BEV 3.5 TransformerBEV
2020年以来 TransformerBEV结合正在成为自动驾驶领域的重要共识推动自动驾驶技术进入崭新发展阶段
将Transformer模型与BEV(鸟瞰视角)表示相结合的方法正在成为自动驾驶领域的重要共识推动完全自主驾驶的实现
一方面BEV可以高效表达自动驾驶系统周围的丰富空间信息另一方面Transformer在处理序列数据和复杂上下文关系方面展现了独特优势在自然语言处理等领域得到成功应用。两者结合可以充分利用BEV提供的环境空间信息以及Transformer在多源异构数据建模方面的能力实现更精确的环境感知、更长远的运动规划和更全局化的决策。
特斯拉率先引入BEVTranformer大模型与传统2DCNN小模型相比大模型的优势主要在于
1提高感知能力BEV将激光雷达、雷达和相机等多模态数据融合在同一平面上可以提供全局视角并消除数据之间的遮挡和重叠问题提高物体检测和跟踪的精度2提高泛化能力Transformer模型提取特征函数通过注意力机制寻找事物本身的内在关系使智能驾驶学会总结归纳而不是机械式学习。主流车企及自动驾驶企业均已布局BEVTransformer大模型成为自动驾驶算法的主流趋势。
下面是TransformerBEV的示例框图 (a) 对象对齐时间融合首先根据车辆自身的移动情况把 当前时刻(t时刻)的鸟瞰视角地图变形调整成上一时刻(t-1 时刻)的样子。这样就可以根据对象在上一时刻的位置 结合速度预测出它当前的位置从而实现对象在不同时刻 地图上的融合。
(b) 对象聚焦多视图采样首先在三维空间预设一些点然后把这些点投影到图像上的特征上。这样不仅可以在整个高度范围采样还可以对某些主要对象按照自适应和聚焦的方式在它们所处的局部空间区域采样更多点。
(c) 对象通知查询增强在编码器处理图像特征后添加热图的监督信息。同时用检测到对象高置信度位置对应的点 来替换掉原本预设要查询的一些点。 下面是TransformerBEV的示例框图2 GPT的出现对TransformerBEV模型的产生起到了重要影响
GPT的成功表明了Transformer模型的潜力促使更多研究者将Transformer应用到计算机视觉和自动驾驶领域产生了 TransformerBEV的创新做法。GPT的预训练思想为TransformerBEV的预训练和迁移学习提供了借鉴可以通过预训练捕捉语义信息然后迁移应用。 •OpenAI公开的代码和模型也加速了Transformer类模型在各领域的研究进程。
当前TransformerBEV模型受关注主要基于它综合了Transformer和BEV各自的优势
Transformer擅长处理序列数据捕捉语义信息而BEV提供场景整体观有利解析空间关系。两者组合可实现互补增强 对复杂场景的理解表达。自动驾驶数据积累为训练大模型奠定基础。大数据支持学习更复杂特征提升环境感知精度也使端到端学习成为可能。 提升安全性和泛化能力仍是自动驾驶核心难题。目前阶段TransformerBEV较好地结合语义理解和多视角建模可处理相对 不常见、复杂或者挑战性的交通场景或环境具有很大潜力。 3.6 占用网络模型
2022年自动驾驶系统中使用了占用网络模型实现了对道路场景的高效建模
占用网络模型
占用网络是特斯拉在2022年应用到自动驾驶感知的一种技术相较于BEV可以更精准地还原自动驾驶汽车行驶周围3D环境提升车辆的环境感知能力。占用网络包含两部分一个编码器学习丰富语义特征一个解码器可以生成三维场景表达。特斯拉使用车载摄像头采集的大量行车数据训练占用网络模型。解码器部分能够复原和想象各种场景增强异常情况下的感知棒性。占用网络技术使特斯拉可以充分利用非标注数据有效补充标注数据集的不足。这对于提升自动驾驶安全性、减少交通事故具有重要意义。特斯拉正在持续改进该技术在自动驾驶系统中的集成应用。
特斯拉在2023年AI Day公开了occupancy network占用网络模型基于学习进行三维重建意图为更精准地还原自动驾 驶汽车行驶周围3D环境可视作BEV视图的升华迭代
BEVTransformer的不足鸟瞰图为2D图像会缺失一些空间高度信息无法真实反映物体在3D空间的实际占用体积 故而在BEV中更关心静止物体如路沿、车道线等而空间目标的识别如物体3D结构难以识别占用网络现存三维表示方法体素、网格、点云在储存、结构和是否利于学习方面均不够完全理想而占用网络基于学习将三维曲面表示为深度神经网络分类器的连续决策边界可以在没有激光雷达提供点云数据的情况下对3D环境进行重建且相较于激光雷达还可以更好地将感知到的3D几何信息与语义信息融合得到更加准确的三维场景信息 华为ADS 2.0进一步升级GOD 网络道路拓扑推理网络进一步增强类似于特斯拉的占用网络。
GOD 2.0(通用障碍物检测网络 General Obstacle Detection)障碍物识别无上限障碍物识别率达到99.9%RCR2.0能识别更多路感知面积达到2.5个足球场道路拓扑实时生成。2023年12月搭载ADS 2.0的问界新M7可实现全国无高精地图的高阶智能驾驶。
对比BEV效果下面BEV鸟瞰视图 下面是占用网络3D视图 四、大模型对自动驾驶行业的赋能
4.1 自动驾驶的大模型
以GPT为代表的大模型通常包含亿级甚至百亿级参数采用Transformer结构进行分布式训练以提升模型能力。
GPT的成功激发了自动驾驶研究者利用类似架构进行端到端学习甚至涌现出专为自动驾驶设计的预训练模型。这些努力为自动驾驶行业带来新思路大模型通过强大的数据分析和模式识别能力增强了自动驾驶系统的安全性、效率和用户体验实现了更准确的环境感知、 智能决策。 大模型的应用加速模型端的成熟为L3/L4级别的自动驾驶技术落地提供了更加明确的预期
模型的成熟使得自动驾驶系统更加稳定和可靠为商业化应用奠定了基础。随着深度学习和神经网络技术的迅速发展模型在 感知、决策和控制等方面取得了显著进展向着高效地处理大量传感器数据准确识别交通标志、行人、车辆等、实现环境感 知的方向发展。此外模型也能够辅助实时路径规划和决策制定使车辆能够在复杂的交通环境中安全行驶。
大模型的应用为L3/L4级别的自动驾驶技术落地提供了更加明确的预期尤其特斯拉在前沿技术领域的探索正在成为实现 L3/L4级别自动驾驶落地的风向标。特斯拉提出的TransformerBEV占用网络算法让车辆能够更精准地理解复杂的交通环境 为L3/L4级别的自动驾驶系统提供更强的环境感知能力从而在城市道路和高速公路等特定场景中更自信地行驶。
国内重要自动驾驶政策节选 安全性自动驾驶汽车实现商业化落地必不可少的重要因素
为保证自动驾驶系统的安全可靠按照国家监管要求自动驾驶车辆必须经过5000公里以上的封闭场地训练评估且测试 驾驶员须通过不少于50小时培训并通过车辆安全技术检验后方可申请上路测试资格。目前我国智能网联汽车道路测试总里 程已超7000万公里我们预计L3级及以上自动驾驶汽车开放个人使用上路试点区域仍需一定的时间才能实现。
汽车通信安全和数据安全也需达到国标或相关条例要求。我们预计未来中国会参考欧美国家实践进一步细化安全要求加强相关法规制度建设如制定自动驾驶汽车安全评估标准、明确自动驾驶系统开发生命周期各阶段的安全保障要求、建立自 动驾驶汽车事故责任认定机制等。
部分自动驾驶汽车安全标准 4.2 车端赋能主要作用于感知和预测环节逐渐向决策层渗透
大模型在自动驾驶中的应用简单来说就是把整车采集到的数据回传到云端通过云端部署的大模型对数据进行相近的训练。
大模型主要作用于自动驾驶的感知和预测环节。
在感知层可以利用Transformer模型对BEV数据进行特征提取实现对障碍物的监测和定位预测层基于感知模块的输出利用Transformer模型捕捉学习交通参与者的运动模式和历史轨迹数据预测他们未来行为和轨迹。 未来将驱动驾驶策略生成逐渐从规则驱动向数据驱动转变。规划决策层的驾驶策略的生成有两种方式
1基于数据驱动的深度学习算法
2基于规则驱动出于安全考虑目前普遍采取基于规则生成驾驶策略但随着自动驾驶等级的提升及应用场景的不断拓展基于规则 的规控算法存在较多Corner Case处理局限性。
结合车辆动力学可利用Transformer模型生成合适的驾驶策略
将动态环境、路况信息、 车辆状态等数据整合到模型中Transformer多头注意力机制有效平衡不同信息源之间的权重以便快速在复杂环境中做出合理决策。 本文内容来以下资料
1、AI行业系列之智能驾驶自动驾驶的“大模型”时代2、智能汽车行业专题研究大模型应用下自动驾驶赛道将有哪些变化3、2023年行业大模型标准体系及能力架构研究报告4、人工智能行业专题报告多模态AI研究框架5、AI大时代系列报告之一基础篇大模型与算力共振奇点时刻到来等等...... 分享完成本文只供大家参考与学习谢谢~