当前位置：首页 > news >正文

成都网站推广公司网站忘记备案

news 2025/11/19 6:01:47

成都网站推广公司,网站忘记备案,北京市建设资格注册中心网站,门户网站建设方案ppt 百度文库LLMs基础学习#xff08;七#xff09;DeepSeek专题#xff08;4#xff09; 文章目录 LLMs基础学习#xff08;七#xff09;DeepSeek专题#xff08;4#xff09;DeepSeek-R1 训练过程的四个阶段具体流程小结 “规则化奖励”具体原因小结 “自我认知”#xff08;se…LLMs基础学习七DeepSeek专题4 文章目录 LLMs基础学习七DeepSeek专题4DeepSeek-R1 训练过程的四个阶段具体流程小结 “规则化奖励”具体原因小结 “自我认知”self-cognition数据基本概念小结 RL 训练中过度拟合避免方式小结 DeepSeek 中的蒸馏蒸馏基本流程性能表现小结为何在蒸馏过程中仅使用 SFT 而非 RL蒸馏过程中是否存在知识损失如何量化知识损失的存在性量化方法知识损失的关键因素小结图片和视频链接https://www.bilibili.com/video/BV1gR9gYsEHY?spm_id_from333.788.player.switchvd_source57e4865932ea6c6918a09b65d319a99a DeepSeek-R1 训练过程的四个阶段尽管 DeepSeek-R1-Zero 展示了强大的推理能力并能够自主发展出意想不到且强大的推理行为但它也面临一些问题。例如DeepSeek-R1-Zero 存在可读性差和语言混杂等问题。R1 旨在成为一个更易用的模型。因此R1 并不像 R1-Zero 那样完全依赖于强化学习过程而是通过多个阶段完成。具体流程训练过程分成四个阶段 (SFTSupervised Fine-Tuning监督微调) 冷启动为了避免 RL 训练从基础模型开始的早期不稳定冷启动阶段构建并收集少量长的 CoTChain of Thought思维链数据来微调 DeepSeek-V3-Base 作为 RL 的起点。(RL) 推理导向的强化学习在冷启动数据上微调 DeepSeek-V3-Base 后应用与 DeepSeek-R1-Zero 中相同的 RL 方法训练。本阶段侧重于增强模型的推理能力尤其是在编码、数学、科学和逻辑推理等推理密集型任务中这些任务涉及具有明确解决方案的明确定义的问题。当 RL 提示涉及多种语言时CoT 经常表现出语言混合现象。为了减轻语言混合问题在 RL 训练过程中引入了一种语言一致性奖励。双奖励系统设计了基于规则的奖励机制包括准确性奖励评估答案正确性如数学题答案验证或代码编译测试。格式奖励强制模型将推理过程置于特定标签如和之间提升可读性。 (SFT) 拒绝采样与监督微调当 RL 过程趋于收敛时利用训练出的临时模型生产用于下一轮训练的 SFT 数据60W 推理数据。与冷启动数据区别在于此阶段既包含用于推理能力提升的 60W 数据也包含 20W 推理无关的数据。使用这 80W 样本的精选数据集对 DeepSeek-V3-Base 进行了两个 epoch 的微调。 (RL) 全场景强化学习在微调模型的基础上使用全场景的强化学习数据提升模型回复的有用性和无害性。对于推理数据遵循 DeepSeek-R1-Zero 的方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于通用数据采用基于模型的奖励来捕捉复杂和细微场景中的人类偏好。小结使用 (SFT) 冷启动 --(RL) 推理导向的强化学习 --(SFT) 拒绝采样与监督微调 --(RL) 全场景强化学习四阶段训练R1 模型达到 OpenAI-o1-1217 的水平。 “规则化奖励” 规则化奖励就像 “客观考试评分”—— 答案对错一目了然。而神经奖励模型类似 “老师主观打分”模型可能学会讨好老师却答错题。用规则化奖励更公平、更直接。具体原因在推理任务中强调 “规则化奖励” 而非神经奖励模型的原因如下避免奖励黑客Reward Hacking问题原文指出“神经奖励模型在大规模强化学习过程中可能出现奖励黑客”“neural reward model may suffer from reward hacking in the large-scale reinforcement learning process”章节 2.2.2。神经奖励模型可能被模型通过非预期方式如利用模型漏洞获得高奖励而实际推理能力未真正提升。降低训练复杂性和资源消耗使用神经奖励模型需要额外训练和维护文档提到 “重新训练奖励模型需要额外的训练资源并复杂化整个流程”“retraining the reward model needs additional training resources and it complicates the whole training pipeline”章节 2.2.2。而规则化奖励如准确性验证、格式检查可直接通过预设规则计算奖励无需额外模型支持。奖励信号更清晰可靠规则化奖励基于确定性逻辑如数学答案验证、代码编译测试文档提到 “对于数学问题模型需以指定格式提供最终答案从而通过规则可靠验证正确性”“for math problems with deterministic results, the model is required to provide the final answer in a specified format… enabling reliable rule-based verification”章节 2.2.2。这种奖励机制直接关联任务目标避免了神经奖励模型可能引入的评估偏差。 Reward Modeling奖励是训练信号的来源决定了强化学习RL的优化方向。为训练 DeepSeek-R1-Zero采用基于规则的奖励系统主要由两种奖励组成 Accuracy rewards准确性奖励准确性奖励模型评估响应是否正确。例如对于有确定结果的数学问题模型需以指定格式如在框内提供最终答案以便基于规则可靠验证正确性。类似地对于 LeetCode 问题可使用编译器基于预定义测试用例生成反馈。Format rewards格式奖励除准确性奖励模型外采用格式奖励模型强制模型将其思考过程置于和标签之间。在开发 DeepSeek-R1-Zero 时不应用结果或过程神经奖励模型因为发现神经奖励模型在大规模强化学习过程中可能出现奖励黑客问题且重新训练奖励模型需要额外训练资源并使整个训练流程复杂化。小结为何在推理任务中强调 “规则化奖励” 而非神经奖励模型避免奖励黑客Reward Hacking问题降低训练复杂性和资源消耗奖励信号更清晰可靠 “自我认知”self-cognition数据基本概念根据文档 2.3.3 章节 “Rejection Sampling and Supervised Fine-Tuning” 的描述“自我认知”self-cognition数据具体指用于训练模型理解并回答与自身属性、能力边界相关的查询数据。例如关于模型身份的问答如 “你是什么类型的 AI”能力范围的说明如 “你能处理哪些类型的任务”训练数据相关询问如 “你的知识截止到什么时候”伦理限制声明如 “为什么有些问题不能回答” 这类数据属于非推理类数据Non-Reasoning data与写作、事实问答、翻译等任务并列在监督微调阶段用于塑造模型的自我认知能力。文档特别指出对于这类简单查询如 “hello”模型不需要生成思维链CoT直接给出简洁回应即可。“For simpler queries, such as ‘hello’ we do not provide a CoT in response.”章节 2.3.3 小结 “自我认知”self-cognition数据具体指用于训练模型理解并回答与自身属性、能力边界相关的查询数据。 RL 训练中过度拟合防止模型成为 “考试机器”除模拟考评测任务外还需定期抽查其他科目多样化任务确保全面发展。避免方式采用多样化的训练数据分布混合推理与非推理数据。在监督微调SFT阶段收集涵盖推理任务如数学、编码和通用任务写作、事实问答等的多样化数据结合约 60 万推理相关样本和 20 万非推理样本共约 80 万训练样本。这种数据多样性促使模型适应不同场景降低对单一评测任务的依赖。多阶段训练流程采用 (SFT) 冷启动→(RL) 推理导向的强化学习→(SFT) 拒绝采样与监督微调→(RL) 全场景强化学习四阶段训练。在接近 RL 收敛时通过拒绝采样生成新 SFT 数据结合通用数据重新微调模型最后进行二次 RL 训练。分阶段训练逐步扩展模型能力避免过早过拟合。组合多类型奖励信号将规则化奖励与人类偏好奖励结合。在最终 RL 阶段对推理任务使用规则化奖励如答案准确性、格式要求对通用任务引入人类偏好奖励模型。这种混合奖励机制平衡了任务目标与泛化性。拒绝采样筛选高质量响应过滤低质量与重复内容。在生成 SFT 数据时通过拒绝采样排除语言混杂、冗长或重复的推理过程确保训练数据的多样性和可读性减少模型对噪声或特定模式的依赖。全场景提示分布训练覆盖广泛用户需求场景。在最终 RL 阶段使用涵盖数学、编码、写作、问答等多场景的提示分布。通过多样化数据优化模型防止模型过度适配单一评测任务。小结避免模型在 RL 训练中过度拟合评测任务的方法采用多样化的训练数据分布多阶段训练流程组合多类型奖励信号拒绝采样筛选高质量响应全场景提示分布训练 DeepSeek 中的蒸馏 DeepSeek 团队探索将 R1 的推理能力蒸馏到更小规模模型的潜力利用 DeepSeek - R1 生成的 80W 数据对 Qwen 和 Llama 系列的多个小模型进行微调发布了 DeepSeek - R1 - Distill 系列模型。蒸馏基本流程数据准备DeepSeek - R1 生成 80W 高质量训练数据包含丰富推理链Chain of Thought, CoT和多种任务类型。模型选择选择 Qwen 和 Llama 系列多个小模型作为学生模型参数规模分别为 1.5B、7B、8B、14B、32B 和 70B。蒸馏训练使用 DeepSeek - R1 生成的数据对小模型微调优化蒸馏损失函数使小模型输出接近 DeepSeek - R1 的输出。性能评估对蒸馏后的小模型进行性能评估验证推理能力提升效果。性能表现 ModelAIME 2024MATH-500GPQA DiamondLiveCode BenchCodeForcespass1cons64pass1pass1pass1ratingGPT-4-05139.313.474.649.932.9759Claude-3.5-Sonnet-102216.026.778.365.038.9717OpenAI-o1-mini63.680.090.060.053.81820QwQ-32B-Preview50.060.090.654.541.91316DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691DeepSeek-R1-Distill-Llama-8B50.480.089.149.039.61205DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633 AIME 2024基于 2024 年美国数学邀请赛高中竞赛级别题目集评估大模型多步骤数学推理能力。MATH-500OpenAI 精选 500 道数学题评测集覆盖代数、几何等领域检验模型数学解题能力。GPQA Diamond专家设计 198 道高难度 STEM 领域问题集测试模型专业学科深度推理和抗搜索作弊能力。LiveCodeBench聚焦真实世界代码工程任务评测集基于 GitHub 仓库提炼 500 个 Python 问题评估模型解决实际编程问题能力。CodeForces知名编程竞赛平台动态题库含算法与数据结构等高难度题目衡量模型代码生成和复杂逻辑推理水平根据解题正确性、速度、代码质量等计算用户评分Rating 。小结为使小模型具备 DeepSeek - R1 的推理能力首先通过 DeepSeek - R1 推理得到 800k 个样本。然后对 6 个不同参数量的开源模型进行直接有监督微调即直接的数据蒸馏。为何在蒸馏过程中仅使用 SFT 而非 RL 蒸馏像 “临摹大师画作”直接复现效果RL 像 “自己创作”虽可能更好但费时费力对小模型来说先临摹更划算。主要目标验证蒸馏有效性。在蒸馏过程中仅使用监督微调SFT而非强化学习RL的原因如下成本限制小模型 RL 需大量计算资源而 SFT 仅需单轮微调。知识保留SFT 直接模仿大模型输出避免 RL 探索中的知识遗忘。探索结合 SFT 与轻量 RL如离线 RL是否可能进一步突破蒸馏过程中是否存在知识损失如何量化知识损失像 “压缩图片”大模型高分辨率原图缩成小模型小图后细节模糊主体保留但清晰度下降。知识损失的存在性蒸馏模型性能如 32B 模型 AIME 72.6% 仍明显低于原模型 DeepSeek - R1AIME 79.8% 说明存在知识损失。文档指出蒸馏模型仅 “接近 o1 - mini” 而原模型 “匹配 o1 - 1217”佐证性能差距。量化方法标准基准测试分数对比数学推理AIME 2024 pass1蒸馏 32B72.6% vs 原模型79.8%代码能力Codeforces Rating蒸馏 32B1691 vs 原模型2029综合知识GPQA Diamond蒸馏 32B62.1% vs 原模型71.5% 任务类型敏感性分析需要长链推理的任务如 LiveCodeBench蒸馏模型性能下降更显著57.5% vs 原模型 65.9% 结构化任务如 MATH - 500损失较小94.5% vs 97.3% 。知识损失的关键因素规模效应蒸馏 1.5B 模型 AIME 仅 28.9%32B 模型达 72.6%小模型因容量限制损失更多知识。推理深度依赖深层推理行为如反思、验证难被小模型完全复现导致 Codeforces 等复杂任务评分差距更大。小结蒸馏必然导致知识损失其程度可通过标准基准分数差异量化损失幅度与模型规模成反比、与任务复杂度成正比。文档通过对比蒸馏模型与原模型的 pass1、cons64 评分等指标验证了该现象。

查看全文

http://www.zqtcl.cn/news/401918/