当前位置: 首页 > news >正文

网站更新内容怎么做外贸鞋的网站建设

网站更新内容怎么做,外贸鞋的网站建设,asp.net 做g公司网站,中建三局招聘出国务工#x1f525;从 GPT 到 LLaMA#xff1a;解密 LLM 的核心架构——Decoder-Only 模型 “为什么所有大模型#xff08;LLM#xff09;都长一个样#xff1f;” 因为它们都有一个共同的“基因”——Decoder-Only 架构。 在前面两节中#xff0c;我们学习了#xff1a; BER…从 GPT 到 LLaMA解密 LLM 的核心架构——Decoder-Only 模型 “为什么所有大模型LLM都长一个样” 因为它们都有一个共同的“基因”——Decoder-Only 架构。 在前面两节中我们学习了 BERTEncoder-Only擅长“理解语言”T5Encoder-Decoder统一“理解生成” 而今天我们要进入真正引爆 AI 浪潮的主角世界—— Decoder-Only 模型也就是当前所有大语言模型LLM的“母体”。 从 GPT-1 到 ChatGPT从 LLaMA 到 GLM它们虽然名字不同但都基于同一个核心架构仅由 Decoder 堆叠而成的 Transformer。 本文将带你深入理解 Decoder-Only 是什么GPT 系列如何一步步引爆 LLM 时代LLaMA 和 GLM 又做了哪些关键改进 准备好了吗我们出发 一、什么是 Decoder-Only 架构 在原始 Transformer 中Decoder 本是用于“生成目标语言”的部分它包含两个注意力机制 Masked Self-Attention只能看到前面的 token防止“偷看答案”Encoder-Decoder Attention接收 Encoder 的语义信息 上图为Decoder-Only 模型的模型架构图Decoder-Only 模型如 GPT做了一个大胆的决定 ❌ 去掉 Encoder ❌ 去掉 Encoder-Decoder Attention ✅ 只保留 Masked Self-Attention自己理解、自己生成 输入文本 → Tokenizer → Embedding → N 层 Decoder → 输出文本 这种架构天生适合 自回归生成Autoregressive Generation 输入“今天天气”模型预测“好”接着输入“今天天气好”预测下一个词……如此循环生成完整句子。 ✅ 优势简单、高效、可无限生成文本 ❌ 缺点无法双向理解但大模型通过“体量”弥补了这一点 二、GPTDecoder-Only 的开山鼻祖 1. 模型架构Pre-LN Masked Self-Attention GPT 的结构与 BERT 类似但关键区别在于 组件GPT 做法位置编码使用 Transformer 原始的 Sinusoidal 编码非可学习LayerNorm采用 Pre-Norm先归一化再进注意力更稳定注意力机制仅保留 Masked Self-Attention无 Encoder 交互MLP 层早期用卷积后期改用全连接 Pre-Norm 是什么 在残差连接前做 LayerNorm能有效缓解梯度消失适合深层网络。 2. 预训练任务CLM因果语言模型 GPT 使用 CLMCausal Language Modeling也就是 根据前面的词预测下一个词 例如 输入The cat sat on the输出mat 这本质上是 N-gram 的神经网络升级版完全契合人类语言生成习惯。 ✅ 优势 不需要标注数据直接用文本训练与下游生成任务如写作、对话完全一致 3. GPT 系列的“力大砖飞”之路 模型参数量隐藏层层数预训练数据关键突破GPT-10.12B768125GB首提“预训练微调”GPT-21.5B16004840GB支持 zero-shotGPT-3175B1228896570GBfew-shot 涌现能力 GPT-3 的三大革命 参数爆炸1750亿参数首次展现“涌现能力”上下文学习In-context Learning无需微调只需给几个例子few-shot就能学会新任务稀疏注意力应对长文本提升训练效率 举例情感分类的 few-shot prompt 判断情感这真是个绝佳机会 → 正向1 示例你太棒了 → 1太糟糕了 → 0好主意 → 1 问题这真是个绝佳机会 → ? 这种“提示即编程”的方式直接催生了 Prompt Engineering 的兴起。 三、LLaMA开源 LLM 的标杆 如果说 GPT 是闭源王者那 LLaMA 就是开源世界的“平民英雄”。 Meta 从 2023 年起陆续发布 LLaMA-1/2/3成为当前开源 LLM 的事实标准架构。 1. 模型架构GPT 的“优化版” LLaMA 整体沿用 GPT 架构但做了多项关键改进 改进点说明RoPE 位置编码旋转式位置编码支持超长上下文8K~32KRMSNorm替代 LayerNorm训练更稳定SwiGLU 激活函数比 ReLU/GELU 更强的非线性能力GQA分组查询注意力减少 KV Cache提升推理速度 GQA 是什么 将多个注意力头共享 KV 向量平衡 MQA单KV和 MHA全KV的性能与效率。 2. LLaMA 系列发展史 版本参数上下文训练数据亮点LLaMA-17B~65B2K1T token开源引爆社区LLaMA-27B~70B4K2T token支持对话微调LLaMA-38B~70B8K15T token128K词表接近GPT-4 ✅ LLaMA-3 的 128K 词表大幅提升多语言和代码能力。 四、GLM中文 LLM 的独特探索 由智谱 AIZhipu AI开发的 GLM 系列是中国最早开源的大模型之一。 1. 模型架构Post-Norm 简洁设计 GLM 初期尝试了一条不同于 GPT 的路径 特点说明Post-Norm残差连接后归一化增强鲁棒性单层输出头减少参数提升稳定性GELU 激活函数平滑非线性优于 ReLU ⚠️ 注意主流模型多用 Pre-Norm但 GLM 认为 Post-Norm 更稳定。 2. 预训练任务GLM空白填充 GLM 的核心创新是 GLM 预训练任务——结合 MLM 和 CLM 随机遮蔽连续一段文本模型需从上下文预测这段文本并按顺序生成其中每个 token 例如 输入I MASK because you MASK输出love you 和 are a wonderful person ✅ 优势兼顾理解与生成 ❌ 劣势训练复杂大模型时代被 CLM 取代 现状从 ChatGLM2 起GLM 系列也回归 CLM GPT 架构。 3. GLM 家族发展 模型参数上下文关键能力ChatGLM-6B6B2K首个开源中文 LLMChatGLM2-6B6B32K支持长文本ChatGLM3-6B6B32K支持函数调用、代码解释器GLM-4未开源128K英文性能对标 GPT-4GLM-4-9B9B8K开源轻量版支持工具调用 ChatGLM3 开始支持 Agent 开发可调用工具、执行代码迈向 AI 自主行动。 五、三大模型架构对比 模型架构预训练任务是否开源代表能力GPTDecoder-OnlyCLM❌ 闭源通用生成、few-shotLLaMADecoder-OnlyCLM✅ 开源高效、可定制GLMDecoder-OnlyGLM → CLM✅ 开源中文强、支持 Agent 六、Decoder-Only 为何能统治 LLM 时代 尽管 BERT 和 T5 在 NLU 任务上曾领先但 Decoder-Only 最终胜出原因如下 生成即王道 大模型的核心价值是“对话”“写作”“编程”生成能力比理解更重要。 任务统一性 所有任务都可以转化为“输入提示 → 输出答案”无需复杂微调。 涌现能力Emergent Ability 当模型足够大时CLM 训练的模型反而在理解任务上超越 BERT。 工程友好 架构简单易于分布式训练和推理优化。 结语LLM 的未来始于 Decoder-Only 从 GPT-1 的默默无闻到 GPT-3 的横空出世再到 LLaMA 和 GLM 的开源繁荣 Decoder-Only 架构 用十年时间证明了 “简单、专注、规模” 才是通向 AGI 的最短路径。 如今几乎所有主流 LLM包括 Qwen、Baichuan、Yi 等都基于这一架构。 所以要理解大模型你必须先读懂 GPT。 参考资料 《Language Models are Few-Shot Learners》GPT-3《LLaMA: Open and Efficient Foundation Language Models》《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》HuggingFace、Meta AI、Zhipu AI 官方文档https://github.com/datawhalechina/happy-llm
http://www.zqtcl.cn/news/687712/

相关文章:

  • 网站备案授权书wordpress教程 页面
  • 深圳网站开发制作安徽全网优化
  • 陕西建设局网站appcms程序怎么做网站
  • 石家庄城乡建设厅网站牡丹江百度推广
  • 网站建设源代码 费用事件网站推广
  • 购物网站开发文献综述潮汕网站建设
  • 做五金生意什么网站做比较好网站建设市场规模
  • 网站跟app的区别是什么网络搭建结构图
  • 淘宝网站怎么做视频教程山西推广型网站开发
  • 杭州开发网站2018主流网站建设语言
  • 杂志社网站建设方案书响应式网站服务
  • 青岛网站开发建设农村建设有限公司网站
  • 做水晶接单在哪个网站接php做购物网站怎么样
  • 网站内部结构优化网页设计网站搭建
  • 杭州公司建设网站网络营销是一种什么营销
  • 事业单位网站建设费科目定西市小企业网站建设
  • 温州网站推广哪家好网站开发所遵循的
  • 没有网站做APP公司logo设计公司logo设计
  • 网站建设在哪个软件下做中国最大的现货交易平台
  • 西宁做网站公司电话加强局网站建设
  • 佛山做企业网站公司做贸易做个外贸网站有必要吗
  • 南昌制作网站的公司wordpress 分享到插件
  • 大型网站怎样做优化PHP站长工具怎么用
  • 响应式模板网站建设营销型网站建设怎么收费
  • 夺宝网站开发全网seo优化电话
  • 宁夏建设工程招标投标信息管理中心网站广告多的网站
  • c 网站做死循环北京响应式的网站设计
  • 手机门户网站建设莱芜雪野湖国际会议中心酒店
  • 男人女人做那事网站vue加wordpress
  • 古色古香 网站模板西安企业黄页网站