免费站推广网站2022,杭州建设网站建站,网站建设的一般流程是怎样的,好玩的网页近日#xff0c;CMU Catalyst 团队推出了一篇关于高效 LLM 推理的综述#xff0c;覆盖了 300 余篇相关论文#xff0c;从 MLSys 的研究视角介绍了算法创新和系统优化两个方面的相关进展。
在人工智能#xff08;AI#xff09;的快速发展背景下#xff0c;大语言模型CMU Catalyst 团队推出了一篇关于高效 LLM 推理的综述覆盖了 300 余篇相关论文从 MLSys 的研究视角介绍了算法创新和系统优化两个方面的相关进展。
在人工智能AI的快速发展背景下大语言模型LLMs凭借其在语言相关任务上的杰出表现已成为 AI 领域的重要推动力。然而随着这些模型在各种应用中的普及它们的复杂性和规模也为其部署和服务带来了前所未有的挑战。LLM 部署和服务面临着密集的计算强度和巨大的内存消耗特别是在要求低延迟和高吞吐量的场景中如何提高 LLM 服务效率降低其部署成本已经成为了当前 AI 和系统领域亟需解决的问题。
来自卡内基梅隆大学的 Catalyst 团队在他们的最新综述论文中从机器学习系统MLSys的研究视角出发详细分析了从前沿的 LLM 推理算法到系统的革命性变革以应对这些挑战。该综述旨在提供对高效 LLM 服务的当前状态和未来方向的全面理解为研究者和实践者提供了宝贵的洞见帮助他们克服有效 LLM 部署的障碍从而重塑 AI 的未来。 论文链接https://arxiv.org/abs/2312.15234
综述概览
该综述系统地审视了现有 LLM 推理技术覆盖了 300 余篇相关论文从算法创新和系统优化两个方面展开介绍。论文以此为基础对现有工作设计了一套清晰且详尽的分类法突出了各种方法的优势和局限性逐类别搜集整理并介绍了每种方法的相关论文。除此之外论文还对当前的主流 LLM 推理框架在系统设计与实现方面进行了深入的对比和分析。最后作者对未来如何继续提高 LLM 推理效率进行了展望在技术层面提出了六大潜在发展方向。
分类法 算法创新
这一节对提出的各种算法和技术进行了全面分析旨在改进大规模 Transformer 模型推理的原生性能缺陷包括解码算法、架构设计、和模型压缩等等。 解码算法在这一部分中我们回顾了在图 2 中展示的几种 LLMs 推理优化过程的新颖解码算法。这些算法旨在减少计算复杂度并提高语言模型推理在生成任务中的总体效率包括 非自回归解码现有 LLMs 的一个主要限制是默认的自回归解码机制它逐个顺序生成输出 token。为解决这一问题一种代表性的工作方向是非自回归解码 [97, 104, 108271]即放弃自回归生成范式打破单词依赖并假设一定程度的条件独立性并行解码输出 token。然而尽管这类方法解码速度有所提高但大多数非自回归方法的输出质量仍不如自回归方法可靠。 投机式推理另一类工作是通过投机执行思想 [47] 实现并行解码。自回归 LLM 推理过程中的每个解码步骤都可以被视为带有条件分支的程序执行语句即决定接下来生成哪个 token。投机式推理 [51, 155] 先使用较小的草稿模型进行多步解码预测然后让 LLM 同时验证这些预测以实现加速。然而将投机解码应用于 LLMs 时仍然存在一些实际挑战例如如何使解码预测足够轻量且准确以及如何借助 LLMs 实现高效的并行验证。SpecInfer [177] 首次引入基于 tree-based speculative decoding 和 tree attention并提出了一个低延迟 LLM 服务系统实现该机制也被后续多个工作 [48, 118, 168, 185, 229, 236, 274, 310] 直接采用。 提前退出这类方法主要利用 LLMs 的深层多层结构在中间层提前推出推理中间层输出可以通过分类器转化成输出的 token从而降低推理开销 [117, 147, 163, 167, 234, 272, 282, 291, 308]它们也被称为自适应计算 [68, 219]。 级联推理这类方法级联了多个不同规模的 LLM 模型用于分别处理不同复杂度的推理请求代表性工作包括 CascadeBERT [157] 和 FrugalGPT [53]。
架构设计 配置缩小直接缩小模型配置。 注意力简化最近出现了很多研究工作它们主要是将之前的长序列高效注意力机制 [240] 应用在 LLM 上以缩短上下文减少 KV 缓存以及注意力复杂度同时略微降低解码质量如滑动窗口 [129, 299]、哈希 [198]、dilated [74]、动态选择等等。表 1 中总结了一些近期的热门方法和之前的工作之间的对应关系。 激活共享这类方法主要是通过共享 attention 计算的中间激活来降低推理内存开销代表性工作包括 MQA [220] 和 GQA [32]。 条件计算这类方法主要是指稀疏专家混合模型Sparse MoE比如最近大火的 Mistrial 7Bx8 模型就属于此类。 循环单元尽管 Transformer 已经替代了 RNN 模型但考虑到注意力机制的二次复杂性人们始终未曾放弃将 recurrent unit 机制重新引入 LLM 的尝试比如 RWKV [200]、RetNet [235]以及状态空间模型 [91, 102, 103, 176] 等等。
模型压缩 知识蒸馏这类方法以大型的教师模型为监督训练一个小型的学生模型。大多数之前的方法都在探索白盒蒸馏 [106, 133, 214, 233, 255]需要访问整个教师模型的参数。由于基于 API 的 LLM 服务如 ChatGPT的出现一些黑盒蒸馏模型吸引了很多关注 [238,59, 273, 201, 313]这些模型通常具有更少的模型参数与原始 LLMs如 GPT-4 [195]相比在各种下游任务上表现出了相当的性能。 网络剪枝过去几年中网络剪枝方法 [180, 215, 215] 已被广泛研究但并非所有方法都可以直接应用于 LLMs需要考虑重新训练可能带来的过高计算成本以及评估剪枝是否可以在底层系统实现上取得效率提升。大致上可以分为结构化剪枝 [80, 149, 174, 216, 172] 和半结构化稀疏化 [40, 87, 232, 251, 276] 等。
系统优化
本节研究 LLM 推理系统优化技术以加速 LLM 推理而不改变 LLM 计算语义。这一工作的目标是通过改进用于大型语言模型推理的底层系统和框架来提高系统效率包括低比特量化、并行计算、内存管理、请求调度、和内核优化等等详细内容可以参见论文原文。
软件框架 论文还对一些目前最先进的基于 GPU 的开源 LLM 推理系统进行了深入的分析并从多个方面总结了它们在设计与实现伤的差异。
未来方向 专用硬件加速器的发展生成型 LLM 服务效率的显著提升可能在很大程度上依赖于专用硬件加速器的发展和提升尤其是软硬协同设计方法。例如让内存单元更加接近处理单元或是针对 LLM 算法数据流优化芯片架构这些硬件优化可以在很大程度上为 LLM 推理在软件层面带来便利和机会。 高效有效的解码算法开发更高效的解码算法可以显著提高服务效率。受对实时应用更快生成速度的需求驱动一个有前途的方向是广义的投机式推理generalized speculative inference不仅会带来显著加速同时保持相同的生成质量。正如 SpecInfer 中所指出的广义的投机式推理中用于生成草稿 token 的小模型可以被替换为任何快速的 token 生成方法比如自定义函数、召回方法、甚至早停机制和非自回归解码等等。 长上下文 / 序列场景优化随着应用场景变得更加复杂处理更长的上下文或序列的需求不断增长。服务长序列负载的 LLM 需要解决算法和系统两方面的挑战。在算法方面它们依然面临长度泛化失效问题甚至可能出现 “loss in the middle” 的情况。目前的解法主要是通过召回增强、序列压缩和缓存来尽可能缩短序列长度并保存相关信息。 探索替代基础架构尽管 Transformer 模型和自注意力机制目前主导着 LLM 领域但探索替代架构是未来研究的一个有前景的方向。例如一些最新研究探索了无注意力方法使用纯 MLP多层感知机架构来替代注意力机制可能会改变目前 LLM 推理优化的格局。 在复杂环境中的部署探索随着 LLM 应用的扩展探索并优化它们在各种复杂环境中的部署成为一个关键的未来方向。这一探索不仅限于传统的基于云的部署还包括边缘计算、混合计算cloudedge、去中心化计算以及廉价的可抢占资源等。 特定需求的自动适应应用特定需求的多样性创造了一系列创新的 LLM 服务优化机会例如模型微调parameter-efficient fine-tuning、向量数据库检索、多模态负载等等。这些独特的挑战也要求将 LLM 服务技术自动且顺利地集成到现有 IT 基础设施中将优化空间扩展到整个 LLM 生命周期。 总结
总的来说该综述不仅是对当前 LLM 服务优化研究的全面概述也为未来在这一领域的探索和发展指明了方向。通过深入了解这些先进的解决方案研究者和实践者可以更好地理解和应对在实际应用中部署大型语言模型时面临的挑战。