北京网站建设方案书,瑞金建设局网站,小红书推广平台有哪些,acf wordpress自2022年#xff0c;ChatGPT发布之后#xff0c;大语言模型#xff08;Large Language Model#xff09;#xff0c;简称LLM掀起了一波狂潮。作为学习理解LLM的开始#xff0c;先来整体的理解一下大语言模型
一#xff0c;发展历史
大语言模型的发展历史可以追溯到早期…自2022年ChatGPT发布之后大语言模型Large Language Model简称LLM掀起了一波狂潮。作为学习理解LLM的开始先来整体的理解一下大语言模型
一发展历史
大语言模型的发展历史可以追溯到早期的语言模型和机器翻译系统但其真正的起点可以说是随着深度学习技术的兴起而开始。
1.1 统计语言模型
在深度学习技术出现之前语言模型主要基于传统的统计方法也称为统计语言模型SLM 。
SLMs是基于统计语言方法开始基本思想是基于马尔可夫假设建立词预测模型如根据最近的上下文预测下一个词。具有固定上下文长度nnn的SLM也称为n−gramn-gramn−gram语言模型。
然而这些模型虽然简单但在处理长文本序列时存在着词汇稀疏性和上下文理解能力有限等问题。
1.2 神经语言模型
随着神经网络技术的发展Bengio等人于2003年提出了神经语言模型将语言模型建模问题转化为了一个神经网络的学习问题。
循环神经网络RNN和长短期记忆网络LSTM的提出进一步增强了神经语言模型对文本序列的建模能力。这些模型能够捕捉到文本序列中的长程依赖关系从而提高了语言模型的性能
2013年Google提出了Word2Vec模型通过词嵌入Word Embedding的方式将单词映射到连续的向量空间中提高了语言模型对单词语义的理解能力。
2017年谷歌提出了Transformer模型该模型通过自注意力机制Self-Attention实现了并行计算大大提高了模型的训练速度。
1.3 预训练语言模型
2018年OpenAI发布了第一个版本的GPT模型利用Transformer结构进行预训练这是首个成功利用大规模无监督学习方法来预训练通用语言表示的模型。
2018年Google提出了BERT模型与GPT的区别是GPT采用了单向的自回归方式进行预训练而BERT通过MLM和NSP实现双向上下文建模。使得预训练语言模型的性能得到了进一步的提升
随后就激发了后续一系列的预训练模型的发展如XLNet、RoBERTTa、T5、 GPT-2、GPT-3、GPT 3.5、GPT-4 等等
而大语言模型也是在此过程中被定义下来的
二什么是大语言模型
2.1 定义
从大语言模型字面意思来理解“语言”和“模型”很好理解就是代表着在自然语言处理上的AI模型
而这个大指的是神经网络很大包括模型的参数数量、训练数据量、计算资源等
参数数量
大语言模型通常含有数十亿到数千亿个参数使得模型能够有更强的语言理解、推理和生成能力
如果只通过 GPT生成式预训练 Transformer模型的演进规模来看 2018 年发布的 GPT-1 包含 1.17 亿个参数9.85 亿个单词。 2019年发布的GPT-2 包含15亿个参数。 2020年发布的GPT-3 包含1750亿个参数。 ChatGPT 就是基于这个模型。 2023年发布的GPT-4 据爆料它可能包含1.8万亿个参数。 训练数据
训练大语言模型通常需要大规模的文本语料库。这些语料库可以包括来自互联网、书籍、新闻等各种来源的文本数据从而确保模型能够学习到丰富和多样化的语言知识。
一些常用语训练大语言模型的语料库如下 如GPT-3它是在混合数据集上进行训练的PaLM使用了一个有社交媒体对话、过滤后的网页、书籍、Github、多语言维基百科和新闻组成的预训练数据集
计算资源
训练大型语言模型需要大量的计算资源包括高性能的计算机集群、大容量的存储设备以及高速的网络连接。
前一段时间有个特别火的新闻是Sam Altman筹资7万亿美元建芯片帝国 7万亿美元是全球GDP的10%大约是美国GDP的1/4或者2/5个中国的GDP。
另外英伟达价格高昂但依然一卡难求的高性能GPU H100长期霸占着LLM领域的热门话题可以说英伟达垄断了目前的AI算力市场。
马斯克甚至戏言GPU现在比drug还紧俏
2.2 大语言模型训练方式
现有的神经网络在进行训练时一般基于反向传播算法BP算法先对网络中的参数进行随机初始化再利用随机梯度下降SGD等优化算法不断优化模型参数。
大语言模型的训练通常采用两阶段方法预训练pre-training和微调fine-tuning
预训练Pre-training
在预训练阶段模型使用大规模无监督的文本数据进行训练学习文本数据中的语言表示。通常采用自监督学习方法即使用文本数据自身作为标签来训练模型。训练过程中模型通过最小化损失函数来优化参数以使得模型能够更好地表示文本中的语义和语法信息。
微调Fine-tuning
在预训练完成后可以将预训练好的模型参数应用于特定的下游任务如文本生成、文本分类、情感分析等。在微调阶段通常使用带标签的数据集对模型进行进一步训练以适应特定任务的需求。微调可以在预训练模型的顶部添加一个或多个额外的层并使用标签数据对这些层进行训练。微调的目标是调整模型参数使得模型能够更好地适应特定任务的特征和标签从而提高任务性能。
在微调阶段模型在与目标任务或领域相关的更具体、更小的数据集上进一步训练。这有助于模型微调其理解并适应任务的特殊要求。
三预训练
3.1 数据收集及处理
3.1.1 数据来源
无论是怎样的模型数据的质量都是相当重要的。现有的大语言模型主要混合各种公共文本数据集作为预训练语料库。如下为一些代表性模型的预训练数据来源的分布情况 语料库的来源可以广义分为通用文本数据和专用文本数据。通用指的就是如网页、书籍和对话文本等广泛可获取的可以增强模型的泛化能力专用文本数据就是在想让模型更加专注某一专业领域时所用的如科学数据、代码等。
如上图中的模型中就大部分都是使用了通用的预训练数据
3.1.2 数据预处理
收集数据之后由于不确定性所以需要对数据进行预处理尤其是噪声、荣誉、无关或有害的数据。预处理过程如下 1 质量过滤Quality Filtering 删除低质量数据常采用基于分类器和基于启发式两种方法 分类器就是使用用高质量数据训练好的二分类的模型来对数据进行分类不过可能会删除方言、口语和社会语言的高质量文本。 基于启发式就是设计一组精心设计的规则来消除低质量文本如基于语言、生成文本的评估度量、统计特征、关键词等
2去重De-duplication 重复数据会降低语言模型的多样性所以需要进行去重处理。 从数据颗粒上来说可以分为在句子级、文档级和数据集级等进行去重
3隐私去除Privary Reduction 如涉及敏感个人信息的隐私内容也是需要去除的很简单有效的就是用基于如姓名、地址、电话号码等关键词的方法
4分词Tokenization 非常关键的步骤将原始文本分割成词序列在之前的文章中有过相关介绍。在工程领域来说为语料库专门设计一个分词器可能会更有效
3.2 架构
3.2.1 编码器-解码器架构Encoder-Decoder 如传统Transformer 模型就是建立在此结构上。它使用了6层的Encoder和Decoder 3.2.2 因果编码器架构Causal decoder
这时当前主流使用的采用单向注意力掩码以确保每个输入标记只能关注过去的标记和它本身。输入输出标记通过解码器以相同的方式处理
典型的模型有 GPT1/23, OPT, BLOOM, Gopher.
3.2.3 前缀解码器架构Prefix decoder
修正了因果解码器的掩码机制以使其能够对前缀标记执行双向注意力并仅对生成的标记执行单向注意力。 这样与编码器-解码器架构类似前缀解码器可以双向编码前缀序列并自回归地逐个预测输出标记其中在编码和解码过程中共享相同的参数。
总的来说Encoder-Decoder适用于序列到序列的任务Causal Decoder适用于需要生成自回归序列的任务而Prefix Decoder适用于需要根据特定前缀生成序列的任务。
3.3 模型训练
在数据处理好模型搭建好之后就要开始对模型进行训练。
四微调和强化学习
在预训练后大语言模型可以获得解决各种任务的通用能力。然而还可以通过特定目标进一步调整也就是微调Instruction Tuning
4.1 指令微调
通过在特定的指令性任务数据集上进行训练提高模型对于指令类输入的理解和响应。
指令的意思举个例子对聊天机器人的指令需要包括如“今天天气如何”和对应的回答供模型学习
也就是说需要包含明确指令的数据集一个指令需要包括一个任务描述、一个输入输出对以及少量实例可选。
常用的指令实例格式化方法有格式化已有的数据集还有格式化人类需求
指令微调对模型的性能改进和任务泛化能够起到很好的作用
4.2 对齐微调
大语言模型有时可能表现出意外的行为例如制造虚假信息、追求不准确的目标以及产生有害的、误导性的和偏见性的表达。为了避免这些意外行为研究提出了人类 对齐使大语言模型行为能够符合人类的期望也就是对齐微调。
在预训练阶段使用的训练语料库是没有对模型的主观定性评估的。所以可以在使用人类反馈的数据进行微调这个过程称为强化学习
五应用
大语言模型作为具有广泛应用的变革工具而受到重视。
文本生成这些模型具有理解上下文、含义和语言的微妙复杂性的固有能力。因此他们可以生成连贯且上下文相关的文本。问答与信息检索大语言模型在问答和信息检索领域正在快速发展。他们理解人类语言的卓越能力使他们能够从庞大的数据存储库中提取相关细节。情感分析与意见挖掘了解人类的情感和观点在不同的环境中都具有巨大的意义从塑造品牌认知到进行市场分析。像在社交媒体监控和品牌认知分析领域的应用辅助代码生成如GitHub Copilot、通义灵码
如何学习大模型 AI
由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。
但是具体到个人只能说是
“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。
这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。
我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
有需要的小伙伴可以点击下方链接免费领取或者V扫描下方二维码免费领取
第一阶段10天初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。
大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…
第二阶段30天高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。
为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…
第三阶段30天模型训练
恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。
到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗
为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…
第四阶段20天商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。
硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…
学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。
如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
有需要的小伙伴可以点击下方链接免费领取或者V扫描下方二维码免费领取