精通网站建设 pdf微盘,河北地矿建设集团官方网站,做外贸seo优化的上市公司,企业网页建设公司联系电话文章目录 Llama 简介运用另一种#xff1a;MLC-LLM 一个令人沮丧的结论在资源受限的嵌入式设备上无法运行LLM#xff08;大语言模型#xff09;。
一丝曙光#xff1a;tinyLlama-1.1b#xff08;10亿参数#xff0c;需要至少2.98GB的RAM#xff09;
Llama 简介
LLaMA… 文章目录 Llama 简介运用另一种MLC-LLM 一个令人沮丧的结论在资源受限的嵌入式设备上无法运行LLM大语言模型。
一丝曙光tinyLlama-1.1b10亿参数需要至少2.98GB的RAM
Llama 简介
LLaMA 模型集合由 Meta AI 于 2023 年 2 月推出 包括四种尺寸(7B 、13B 、30B 和 65B)。由于 LLaMA 的 开放性和有效性 自从 LLaMA 一经发布 就受到了研究界和工业界的广泛关注。 LLaMA 模型在开放基准的各 种方面都取得了非常出色的表现 已成为迄今为止最流行的开放语言模型。大批研究人员通过指令调整或持续 预训练扩展了 LLaMA 模型。特别需要指出的是 指令调优 LLaMA 已成为一种主要开发定制专门模型的方法 由于相对较低的计算成本。
LLaMA是在训练一系列模型中 通过训练比通常来说更多的 tokens在不同的推理预算下达到尽可能好的性能而最终产生的模型。其参数范围为 70 亿(7B)到 650 亿(65B)。LLaMA 的预训练数据包含 CommonCrawl C4 Github Wikipedia Books ArXiv以及 StackExchange。
LLaMA 也使用了基本的 transformer 架构并利用了以前的语言模型提出的各种改进
预归一化为了提升训练的稳定性 LLaMA 使用了 RMSNorm将每个 transformer 子层的输入归一化而 不是归一化输出。
SwiGLU 激活函数将 ReLU 激活函数替换为 SwiGLU 激活函数维度变为 2/3 * 4d 而不是 PaLM 中的 4d。
旋转嵌入将每层的绝对位置嵌入替换为旋转位置嵌入(RoPE)。另外 该模型使用了 AdamW 优化器进行训练。其超参数为 β 1 0.9 β2 0.95。使用余弦学习率调 度 使最终学习率为最大学习率的 10%。权重衰减为 0.1梯度裁剪为 1.0使用了 2000 个预热步骤 而且根据 模型大小调整学习率和批次处理大小。
LLaMA 使用了两种方法提高模型的训练速度。首先是使用 causal 多头注意力来减少内存使用量和运行时 间。这种方法可以通过 xformers 库实现。这种效果是由于它不存储注意力权重以及它不计算被掩盖的 key 和 query 的分数而产生的。接着是通过检查点减少向后传播期间重新计算的激活量。这是通过手动实现transformer 的向后传播函数来实现的。为了充分利用这个优化 需要通过模型和序列并行来减少模型的内存使用。另外 使 用 all_reduce 尽可能地重叠激活函数计算和GPU 之间通过网络的通信。
从结论上来说 LLaMA- 13B 的性能比 GPT-3 更强 但模型大小是其十分之一。而 LLaMA-65B 的表现可以 与 Chinchilla-70B 和 PaLM-540B 竞争。与以前的模型不同 LLaMA 展示了仅使用公共数据集也能达到最先进的性能。
运用
深度学习模型计算可以分为训练和推断前者是用于构建包含大量网络化参数的模型而后者则是利用这个模型对用户输入进行响应并给出答案。模型里包含的网络化参数越多相当于脑细胞越多思维能力越强像 GPT-3 就有 175B1750 亿个网络参数基于 GPT-3 衍生的大模型让人们意识到 AI 具备非常出色的对话能力而且在很多情况下都比人类更出色。
GPT-3 的网络参数规模是 1750 亿执行推断所需要的内存规模会达到百 GiB 级别目前整套东西弄下来的成本达到 100 万元级别且不说你能不能抢到相应的硬件资源光是自己搭配起来也不是一件轻松的事情。 网络参数规模量纲是亿能在手机端部署的 几十亿参数的 LLM能在计算能力更弱的嵌入式设备上运行的就是在10亿以下参数的LLM。 会有这样的描述 在树莓派上运行语音识别和LLama-2 GPT!
类似的模型运行取决于RAM的大小
RAM参数级别2GB及以下无支持的Llama LLM模型-2GB无支持的Llama LLM模型-4GBTinyLlama-1–1B-Chat-v1-0-GGUF10亿级参数1B8GBLlama-2–7b-Chat-GGUF70亿级参数7B16GBLlama-2–7b-Chat-GGUF70亿级参数7B32GBLlama-2–7b-Chat-GGUF70亿级参数7B
模型名字自身大小最小RAM需求最大RAM需求tinyllama-1.1b-chat-xxx.gguf0.48GB~1.17GB2.98GB3.67GBllama-2_7b-chat-xxx.gguf2.83GB~7.16GB5.33GB9.66GB 美好的愿景 根据摩尔定律 5-10 年后相同的模型将轻松运行在 1 美元的芯片上就像现在我们可以运行成熟的 PDP-11 模拟器PDP在80年代的时候价值10 万美元在 5 美元的 ESP32 板上。
另一种MLC-LLM
链接https://www.zhihu.com/question/598610139/answer/3013322834 出于定制化、个性化或者隐私性的目的人们想要自己在各种终端设备中本地运行大语言模型不需要/不希望连接互联网或者依赖于服务器。 尽管现在有云计算、边缘计算等技术对大模型推算的算力支持但是用户的个人数据安全和隐私也是不得不考虑的问题那么模型的本地化部署一定会是一个重要的方向甚至可能会成为刚需。