空壳主体接入网站,做ppt的免费软件,seo职业培训学校,2k屏幕的网站怎么做先附上原始论文和效果对比https://arxiv.org/pdf/2412.19437
摘要 (Abstract)
DeepSeek-V3是DeepSeek-AI团队推出的最新力作#xff0c;一个强大的混合专家#xff08;Mixture-of-Experts#xff0c;MoE#xff09;语言模型。它拥有671B的总参数量#xff0c;但每个tok…先附上原始论文和效果对比https://arxiv.org/pdf/2412.19437
摘要 (Abstract)
DeepSeek-V3是DeepSeek-AI团队推出的最新力作一个强大的混合专家Mixture-of-ExpertsMoE语言模型。它拥有671B的总参数量但每个token仅激活37B参数实现了效率和性能的平衡。DeepSeek-V3在架构上采用了多头潜注意力Multi-head Latent Attention, MLA和DeepSeekMoE并在训练策略上进行了创新引入了无辅助损失的负载均衡和多token预测目标。经过14.8万亿token的预训练以及监督微调和强化学习阶段DeepSeek-V3在多项评估中超越了其他开源模型并在某些任务上达到了与领先闭源模型相媲美的水平。更令人印象深刻的是DeepSeek-V3的训练成本极低整个训练过程仅需2.788M H800 GPU小时且训练过程非常稳定。
1. 引言 (Introduction)
大型语言模型LLMs的发展日新月异不断缩小与通用人工智能AGI的差距。DeepSeek-V3的发布进一步推动了开源模型的发展。它不仅在性能上表现出色而且在训练效率和成本控制方面也树立了新的标杆。
本文将深入剖析DeepSeek-V3的各个方面包括模型结构、预训练、后训练和推理部署揭示其创新之处和实现逻辑。
2. 模型结构 (Architecture) DeepSeek-V3的架构设计有两大核心目标
高效推理 (Efficient Inference): 通过多头潜注意力MLA实现。经济训练 (Economical Training): 通过DeepSeekMoE实现。
此外DeepSeek-V3还引入了多token预测 (Multi-Token Prediction, MTP) 训练目标进一步提升模型性能。
2.1 多头潜注意力 (Multi-Head Latent Attention, MLA)
MLA是DeepSeek-V2中首次提出的注意力机制旨在减少推理过程中的KV缓存大小。其核心思想是对Key和Value进行低秩联合压缩。
MLA的计算过程如下 Key和Value的压缩 计算潜向量cKV WDKV * ht (WDKV是降维矩阵ht是输入)计算压缩后的Key[k1; k2; ...; knh] k WUK * cKV计算解耦Key (用于RoPE)k ROPE(WKR * ht)将压缩后的Key和解耦Key拼接: kt,i [k; k]计算压缩后的Value[v1; v2; ...; vnh] v WUV * cKV Query的压缩训练时 计算潜向量c WDQ * ht计算压缩后的Query[q1; q2; ...; qnh] q WUQ * c计算解耦Query (用于RoPE)q ROPE(WQR * c)将解耦Query进行切分: qt,i [q; q] 注意力计算 ot,i Softmax( (qt,i * kTi) / sqrt(dh d) ) * vut W0 * [ot,1; ot,2; ...; ot,nh]
MLA的优势
减少KV缓存 推理时只需缓存压缩后的潜向量cKV和解耦Keyk大大减少了KV缓存的大小。保持性能 在减少KV缓存的同时MLA能够保持与标准多头注意力MHA相当的性能。
2.2 DeepSeekMoE
DeepSeekMoE是DeepSeek团队提出的一种MoE架构相比于传统的MoE架构如GShard它具有以下特点
更细粒度的专家 (Finer-grained Experts): 每个专家负责处理更小的计算量。共享专家 (Shared Experts): 部分专家被所有token共享处理通用知识。无辅助损失的负载均衡 (Auxiliary-Loss-Free Load Balancing): 避免了辅助损失对模型性能的负面影响。
DeepSeekMoE的计算过程如下 FFN输出 h ut Σ FFN(s)(ut) Σ git * FFN(r)(ut) 这里,FFN(s)表示共享专家,FFN(r)表示路由专家(routed experts),git表示路由权重。 路由权重计算 git { sit , sit ∈ Topk({sj,t | 1 ≤ j ≤ Nr}, Kr); 0, otherwise
sit Sigmoid( ut * ei )
其中
* Ns: 共享专家数量
* Nr: 路由专家数量
* Kr: 每个token激活的路由专家数量
* ei: 第i个路由专家的中心向量
* Topk函数选择亲和度(affinity)最高的K个专家。无辅助损失负载均衡: DeepSeek-V3使用了一种创新的无辅助损失负载均衡策略。它为每个专家引入一个偏置项bi,并将其添加到亲和度得分sit中以确定top-K路由 si,t { si,t bi, si,t bi ∈ Topk({sj,t bj | 1 ≤ j ≤ Nr}, Kr); 0, otherwise }在训练过程,会动态调整每个专家偏置b,过载则减小,负载不足则增加。 补充序列级辅助损失: 为了防止单个序列内的极端不平衡DeepSeek-V3还引入了一个非常小的序列级辅助损失。
DeepSeekMoE的优势
高效训练 更细粒度的专家和共享专家机制使得计算更高效。更好的负载均衡 无辅助损失的负载均衡策略避免了性能损失同时实现了更好的负载均衡。
2.3 多token预测 (Multi-Token Prediction, MTP)
DeepSeek-V3采用了MTP训练目标,这受到Gloeckle等人(2024)工作的启发。MTP扩展了预测范围在每个位置预测多个未来的token。
MTP的实现 MTP模块 DeepSeek-V3使用了D个串行的MTP模块来预测D个额外的token。每个MTP模块包含 共享的嵌入层Shared Embedding Layer共享的输出头Shared Output HeadTransformer块投影矩阵 计算过程 对于第i个输入token ti在第k个预测深度 组合表示h Mk * [RMSNorm(h-1); RMSNorm(Emb(tik))]Transformer块h:T-k TRMk(h)预测概率P OutHead(h) MTP训练目标 对于每个预测深度计算交叉熵损失LMTP最终的MTP损失是所有深度损失的加权平均。
MTP的优势
增强信号 MTP提供了更密集的训练信号有助于模型学习。预规划 MTP可能使模型能够预先规划其表示以更好地预测未来的token。推理加速: MTP可用于推测解码,以提升推理速度。
3. 预训练 (Pre-Training)
DeepSeek-V3的预训练过程有以下几个关键点
数据 (Data): 使用了14.8T高质量、多样化的token并优化了数学和编程样本的比例扩展了多语言覆盖。FIM (Fill-in-Middle): 采用了FIM策略提高了模型处理上下文的能力。超参数 (Hyper-Parameters): 采用了AdamW优化器并使用了学习率调度和批大小调度策略。稳定性 (Stability): 预训练过程非常稳定没有出现不可恢复的损失峰值或回滚。长上下文扩展: 采用两阶段上下文长度扩展最终支持128K的上下文长度。
4. 后训练 (Post-Training)
DeepSeek-V3的后训练包括两个阶段 监督微调 (Supervised Fine-Tuning, SFT): 数据 使用了1.5M实例的多领域指令数据集。推理数据生成 采用了从DeepSeek-R1模型中蒸馏推理能力的方法。非推理数据生成 使用DeepSeek-V2.5生成响应并由人工标注者进行验证。 强化学习 (Reinforcement Learning, RL): 奖励模型 (Reward Model, RM): 使用了基于规则的RM和基于模型的RM。优化算法 采用了Group Relative Policy Optimization (GRPO)算法。
5. 推理部署 (Inference and Deployment)
DeepSeek-V3的推理部署策略旨在同时保证在线服务的服务水平目标SLO和高吞吐量。
分离阶段 将推理过程分为预填充Prefilling和解码Decoding两个阶段。预填充 采用4路张量并行TP4和8路数据并行DP8。MoE部分采用32路专家并行EP32。使用冗余专家策略实现负载均衡。同时处理两个微批次以提高吞吐量。 解码 采用TP4和DP80。MoE部分采用EP320。使用直接点对点传输和IBGDA技术来减少延迟。也采用冗余专家策略。
6. 创新点总结
DeepSeek-V3的创新点可以归纳为以下几点
架构创新 MLA 减少推理时的KV缓存。DeepSeekMoE 更细粒度的专家、共享专家和无辅助损失的负载均衡。MTP 多token预测目标增强训练信号。 训练创新 FP8训练 首次在超大规模模型上验证了FP8训练的可行性和有效性。DualPipe 高效的流水线并行算法实现了计算和通信的高度重叠。跨节点All-to-All通信优化 充分利用IB和NVLink带宽减少通信开销。内存优化 通过重计算、CPU中的EMA、共享嵌入和输出头等技术减少内存占用。知识蒸馏: 从DeepSeek-R1中蒸馏长CoT(Chain-of-Thought)推理能力。 推理创新 冗余专家 动态调整专家部署实现负载均衡。分离阶段 将预填充和解码分离优化吞吐量和延迟。
7. 实验结果 (Evaluation Results)
DeepSeek-V3在多个基准测试中都取得了优异的成绩包括
知识 在MMLU、MMLU-Pro、GPQA等教育基准测试中DeepSeek-V3超越了所有其他开源模型并接近领先的闭源模型。代码、数学和推理 在数学和编码基准测试中DeepSeek-V3取得了SOTA性能。长上下文 在长上下文理解任务中DeepSeek-V3表现出色。中文能力 在中文基准测试中DeepSeek-V3表现出强大的竞争力。开放式评估 在Arena-Hard和AlpacaEval 2.0等开放式评估中DeepSeek-V3也取得了优异的成绩。
8. 局限性与未来方向
论文中承认DeepSeek-V3存在一些局限性主要是在部署方面
部署资源要求高 为了保证高效推理DeepSeek-V3的推荐部署单元较大。推理速度仍有提升空间 虽然推理速度已经比DeepSeek-V2快两倍以上但仍有优化潜力。
未来的研究方向包括
进一步优化模型架构 探索更高效的注意力机制和MoE架构。数据扩展 持续迭代训练数据并探索更多样的训练信号来源。深度思考能力 增强模型的推理能力和问题解决能力。更全面的评估方法 探索更全面、多维度的模型评估方法。