当前位置: 首页 > news >正文

网站开发计什么科目网络空间设计方案

网站开发计什么科目,网络空间设计方案,wordpress栏目设置,网站备案流程1. 背景介绍 这一整个春节#xff0c;被DeepSeek-R1刷屏。各种铺天盖地的新闻以及老板发的相关信息#xff0c;着实感受到DeepSeek-R1在国外出圈的震撼。 DeepSeek推出了新的推理模型#xff1a;DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个在没有经过监督微调…1. 背景介绍 这一整个春节被DeepSeek-R1刷屏。各种铺天盖地的新闻以及老板发的相关信息着实感受到DeepSeek-R1在国外出圈的震撼。 DeepSeek推出了新的推理模型DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个在没有经过监督微调SFT作为预处理步骤的情况下通过大规模强化学习RL训练的模型在推理任务上展现出了卓越的性能。借助强化学习DeepSeek-R1-Zero 涌现出许多强大的推理行为。不过DeepSeek-R1-Zero 也存在一些挑战比如无尽的重复、可读性差以及语言混杂等问题。为了解决这些问题并进一步提升推理能力引入了 DeepSeek-R1在强化学习之前融入了冷启动数据。DeepSeek-R1 在数学、编程和推理任务上的表现可与 OpenAI-o1 相媲美。 这一次DeepSeek的最大轰动其实是把一种接近O1的实现方案给开源了并且采用纯RL训练实现接近O1的能力成本大幅降低。如果没有开源其实可能不太会有这么大的冲击。据我所知12月份智谱也上线了GLM-ZERO-Preview的强化推理版本但没有开源效果也很不错。强化学习我们之前也给出了相关文章进行讨论可以参考《大模型中的强化学习RLHF(PPO)、DPO(Direct Preference Optimization)等概念的理解与解析》。 DeepSeek一口气开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 蒸馏出的六个密集模型。其中DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini刷新了密集模型的最新技术水平。 2. DeepSeek-R1的训练方案 2.1 后训练 DeepSeek为了降低训练成本并没有选择在预训练阶段进行相应的动作而是在基模型上进行大规模强化学习这是否也意味着目前的基模型其实已经具备足够的能力只需要进行多步推导就可以达到相当有效的推理结果值得我们思考。关于这个问题其实DeepSeek也给出了一定程度的回答通过强化学习可以激发出大模型的能力。 DeepSeek直接在基模型上应用强化学习RL而不依赖于监督微调SFT作为前置步骤。这种方法使模型能够探索思维链CoT从而解决复杂问题并最终发展出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展现出了自我验证、反思以及生成长思维链等能力验证了大语言模型LLM的推理能力可以完全通过强化学习激发而无需依赖监督微调。关于思维链可以参考《思维链(Chain Of Thought)、思维树(Tree Of Thought)等概念解析》。 此外开发 DeepSeek-R1 的流程我们将会在系列文章2中进行介绍该流程包括两个强化学习阶段用于发现更优的推理模式并对齐人类偏好同时包含两个监督微调阶段为模型的推理和非推理能力提供基础。 2.2 蒸馏小模型也可以很强大 DeepSeek证明大模型的推理模式可以被蒸馏到小模型中从而使其性能优于通过强化学习RL在小模型上发现的推理模式。利用 DeepSeek-R1 生成的推理数据对广泛使用的多个稠密模型进行了微调。评估结果表明经过蒸馏的小型稠密模型在基准测试中表现非常出色。开源的基于 Qwen2.5 和 Llama3 系列的蒸馏模型检查点包括 1.5B、7B、8B、14B、32B 和 70B 版本。我们曾在《模型蒸馏、大模型变小、移动端小规模大模型SLM、小模型趋势讨论》中讨论了大模型蒸馏的发展趋势DeepSeek证明了这一个猜想的合理性和正确性。并且在《深度学习模型知识蒸馏Torch实践》中给出了相应的模型蒸馏实践。 2.3  基模型DeepSeek-V3 DeepSeek-R1-Zero 和 DeepSeek-R1 是基于 DeepSeek-V3-Base 训练的。 有关DeepSeek-V3模型架构如下本质上还是和主流的大模型架构一致都利用了transformer的基础单元可以参考《通用大模型架构分类及技术统一化》。另外DeepSeek给出了其MoE的结构新增了Shared Expert这个其实也容易理解除了专门的专家还需要有一些通用的专家来捕捉一些跨任务的共享知识学习到一些通用特征增强模型的通用能力同时还可以起到一定的负载均衡、专家数量控制以及兜底策略等功能。关于MoE的探讨可以参考《Mixture of Experts(混合专家模型, MOE)》。其实这种结构的引入也是一种实验性的结果实验证明有效。另外DeepSeek-V3还引入了Multi-Head Latent Attention MLA是用于高效推理的注意力机制。MLA 通过低秩联合压缩技术减少了推理时的键值KV缓存从而在保持性能的同时显著降低内存占用。 3. 评估结果 DeepSeek-R1 评估对于所有模型最大生成长度设置为 32,768 个 token。对于需要采样的基准测试使用温度为 0.6top-p 值为 0.95并为每个查询生成 64 个响应以估计 pass1。可以看到R1相对于o1-mini是有优势但与o1-1217还是存在差距。现在DeepSeek-R1被吹到天上也需要看到差距继续进步。而且openai在一月底二月初推出了o3各方面表现都优于R1。  4. DeepSeek-R1使用 4.1 聊天网站与 API 平台 可以在 DeepSeek 官方网站 chat.deepseek.com 上与 DeepSeek-R1 进行聊天并开启“DeepThink”按钮。         另外也提供了与 OpenAI 兼容的 API 平台platform.deepseek.com不过发现目前API平台在维护中暂时无法使用应该是最近太火可能资源啥的跟不上或者有别的因素考虑暂时做了关闭2月3日。 4.2 如何本地运行 DeepSeek-R1 模型         有关在本地运行 DeepSeek-R1 可以直接参考DeepSeek-V3 仓库。 DeepSeek-V3 可以通过以下硬件和开源社区软件进行本地部署 DeepSeek-Infer Demo我们提供了一个简单轻量级的 FP8 和 BF16 推理演示。 SGLang全面支持 DeepSeek-V3 模型的 BF16 和 FP8 推理模式多 token 预测功能即将推出。 LMDeploy支持高效的 FP8 和 BF16 推理适用于本地和云端部署。 TensorRT-LLM目前支持 BF16 推理和 INT4/8 量化FP8 支持即将推出。 vLLM支持 DeepSeek-V3 模型的 FP8 和 BF16 模式支持张量并行和流水线并行。 AMD GPU通过 SGLang 在 AMD GPU 上以 BF16 和 FP8 模式运行 DeepSeek-V3 模型。 华为昇腾 NPU支持在华为昇腾设备上运行 DeepSeek-V3。 DeepSeek-R1-Distill 模型         DeepSeek-R1-Distill 模型可以像 Qwen 或 Llama 模型一样使用。         例如可以使用 vLLM 启动服务        vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager使用建议         建议在使用 DeepSeek-R1 系列模型包括基准测试时遵循以下配置以达到预期性能 将温度设置在 0.5-0.7 之间推荐 0.6以避免无限重复或不连贯的输出。 避免添加系统提示system prompt所有指令应包含在用户提示中。 对于数学问题建议在提示中加入如下指令“请逐步推理并将最终答案放在 \boxed{} 中。” 在评估模型性能时建议进行多次测试并取平均值。 此外观察到 DeepSeek-R1 系列模型在响应某些查询时可能会跳过思考模式即输出 think\n\n/think这可能会影响模型的性能。为了确保模型进行充分推理建议强制模型在每次输出时以 think\n 开头。因为输出的think同样会作为后续的输入这样才能更好地推理结果。 5. 参考材料 【1】DeepSeek-R1 【2】DeepSeek_V3
http://www.zqtcl.cn/news/129313/

相关文章:

  • 安丘营销型网站建设国外教育网站模板
  • 做网站案例百度小说排行榜前十
  • 东昌网站建设公司上传到网站去的文档乱码
  • 如何制作自己的网站链接教程网络营销seo招聘
  • 网站制作资料收集wordpress资源网模板
  • 随州网站设计开发服务做网站制作步骤
  • 东莞凤岗做网站黄山旅游攻略住宿
  • 网站开发常用插件免费库存管理软件哪个好
  • 河池网站开发工程师招聘网如何做品牌运营与推广
  • 做网站运营难吗零基础网站建设教程
  • 深圳蚂蚁网络网站建设wordpress电影主题
  • 网站域名收费吗搜索引擎不收录网站
  • 海兴网站建设价格wordpress替代软件
  • 做网站哪家服务器好小区物业管理系统
  • 上海推广网站公司网站建设首选
  • 网站建设行业分析报告网站建设视频教程
  • 服装网站建设图企业网站建设开题报告是什么
  • 建设外贸商城网站制作网站建设的中期目标
  • 网站定做地方门户网站带手机版
  • 佛山网站建设哪家评价高系统开发报价清单
  • 东莞道滘网站建设做h游戏视频网站
  • 江西营销网站建设公司网站建设 意义
  • 公司网站怎么自己做织梦品牌集团公司网站模板(精)
  • 西安市高陵区建设局网站产品网站做营销推广
  • 网站开发费是无形资产吗深圳网站建设简介
  • 网站开发架构mvc重庆巫山网站设计哪家专业
  • 广州高档网站建设电子商务网站建设的期中考试
  • 九江建设公司网站新网 网站空间
  • 网站开发时的闭包写法手机网站创建站点成功
  • 中山做网站联系电话可以做全景的网站