郑州网站建设公司代运营,wordpress阿里图标库,外贸网站seo教程,如何制作完整网页在xAI发布Grok的权重和架构之后#xff0c;很明显大型语言模型#xff08;LLM#xff09;的时代已经过去#xff0c;现在是巨大型语言模型#xff08;HLM#xff09;的时代。这个混合专家模型发布了3140亿个参数#xff0c;并且在Apache 2.0许可下发布。这个模型没有针对… 在xAI发布Grok的权重和架构之后很明显大型语言模型LLM的时代已经过去现在是巨大型语言模型HLM的时代。这个混合专家模型发布了3140亿个参数并且在Apache 2.0许可下发布。这个模型没有针对任何特定应用进行微调。 The cover image was generated using Midjourney based on the following prompt proposed by Grok: A 3D illustration of a neural network, with transparent nodes and glowing connections, showcasing the varying weights as different thicknesses and colors of the connecting lines.
什么是Grok
Grok-1拥有3140亿个参数是目前为止市场上最大的开源模型。与OpenAI的GPT-3相比Grok的参数大小是GPT-3的三倍多。 Grok 旨在以机智的方式回应并在其回答中加入一些幽默元素。与其他大型语言模型LLMs不同Grok 拥有来自 X 平台的实时世界知识。它还能回答大多数大型语言模型所拒绝的问题。 Grok仍处于测试阶段因为仅训练了2个月。但它的性能将日益提高。 Grok的特性
混合专家MoE架构MoE架构是一种设计神经网络的方法它由多个专门的“专家”组成这些专家结合起来进行预测。在这个案例中Grok有8个专家但同时只有2个是活跃的。这种方法允许模型有效地扩展到大量参数通过在多个专家之间分配工作负载来实现。旋转位置嵌入RoPERoPE是一种技术使模型能够有效地处理序列位置信息。传统的位置嵌入在计算上可能较为昂贵但RoPE旨在更高效地实现位置信息的优点。上下文大小Grok的上下文大小为8192个标记。这指的是模型一次可以处理的标记通常是词或子词的最大数量。更大的上下文大小允许模型处理更长的序列这对于翻译、摘要或其他任何需要远距离上下文的序列基础任务来说是有益的。词汇量Grok的词汇量为131072。这是模型可以表示或预测的独特标记例如词或子词的数量。更大的词汇量允许模型处理更广泛的输入。许可Grok是开源的并遵循Apache 2.0许可。这个许可允许自由使用、修改和分发软件只要对任何派生作品也授予相同的自由。量化权重为了提高存储和计算效率Grok使用了量化权重。量化是一个减少权重精度的过程以减小模型大小和加快推理速度。在将深度学习模型部署到生产环境时这是一种常见的做法因为资源可能受限。训练数据模型在大量文本数据上进行训练但没有针对任何特定任务进行微调。这意味着Grok可能是一个通用的NLP模型能够执行广泛的NLP任务而不需要进行特定任务的调整尽管不进行特定任务的微调可能会导致在没有进一步训练的情况下模型在某些NLP任务上性能不佳。
Grok评测
Grok 的 MMLU 得分为 73%超过了 Llama 2 70B 的 68.9% 和 Mixtral 8x7B 的 70.6%。 Grok安装
有关加载和运行 Grok-1 的说明在此 GitHub GitHub - xai-org/grok-1: Grok open release中进行了解释。将代码隆到本地即可其中包含用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。 确保下载检查点并将 ckpt-0 目录放入checkpoints
测试运行代码
pip install -r requirements.txt
python run.py
该脚本在测试输入上加载模型中的检查点和样本。 由于模型规模较大314B参数需要有足够GPU内存的机器才能使用示例代码测试模型。该存储库中 MoE 层的实现效率不高。选择该实现是为了避免需要自定义内核来验证模型的正确性。
权重下载
1. 可以使用 torrent 客户端和此磁力链接下载权重
magnet:?xturn:btih:5f96d43576e3d386c9ba65b883210a393b68210etrhttps%3A%2F%2Facademictorrents.com%2Fannounce.phptrudp%3A%2F%2Ftracker.coppersurfer.tk%3A6969trudp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce2. 或者从HuggingFace Hub下载
git clone https://github.com/xai-org/grok-1.git cd grok-1
pip install huggingface_hub[hf_transfer]
huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False
模型总结 Grok-1 目前设计有以下规格 参数314B 架构8 名专家的组合 (MoE) 专家利用率每个代币使用 2 名专家 层数64 注意头48 个用于查询8 个用于键/值 嵌入大小6,144 标记化具有 131,072 个标记的 SentencePiece 标记生成器 附加功能 旋转嵌入 (RoPE) 支持激活分片和8位量化 最大序列长度上下文8,192 个标记 参考
论文: Open Release of Grok-1代码: GitHub - xai-org/grok-1: Grok open releasehttps://huggingface.co/xai-org/grok-1https://huggingface.co/Xenova/grok-1-tokenizer