网站开发主管待遇,专业高端网站建设服务公司,电商运营包括哪些,岳麓区做网站文章目录 1.1 LLM 概述1.1.1 语言模型和NLP基础1.1.2 Transformer及在LLM中的作用1.1.3 解密 GPT 模型的标记化和预测步骤 1.2 GPT 模型简史#xff1a;从 GPT-1 到 GPT-41.2.1 GPT11.2.2 GPT21.2.3 GPT-31.2.4 从 GPT-3 到 InstructGPT1.2.5 GPT-3.5、Codex 和 ChatGPT1.2.6 … 文章目录 1.1 LLM 概述1.1.1 语言模型和NLP基础1.1.2 Transformer及在LLM中的作用1.1.3 解密 GPT 模型的标记化和预测步骤 1.2 GPT 模型简史从 GPT-1 到 GPT-41.2.1 GPT11.2.2 GPT21.2.3 GPT-31.2.4 从 GPT-3 到 InstructGPT1.2.5 GPT-3.5、Codex 和 ChatGPT1.2.6 GPT-4 1.3 LLM 用例和示例产品1.3.1 Be My Eyes1.3.2 摩根士丹利1.3.3 可汗学院1.3.4 多邻国1.3.5 Yabble1.3.6 Waymark1.3.7 Inworld AI 1.4 警惕 AI 幻觉限制与考虑1.5 使用插件和微调优化 GPT 模型1.6 小结 1.1 LLM 概述
1.1.1 语言模型和NLP基础
GPT-4 和其他 GPT 模型是基于大量数据训练而成的大语言模型 large language modelLLM它们能够以非常高的准确性识别和生成人类可读的文本。
GPT-4 和 ChatGPT 基于一种特定的神经网络架构即 Transformer。 Transformer 就像阅读机一样它关注句子或段落的不同部分以理解其上下文并产生连贯的回答。此外它还可以理解句子中的单词顺序和上下 文意思。这使 Transformer 在语言翻译、问题回答和文本生成等任务中非 常有效。 NLP 是 AI 的一个子领域专注于使计算机能够处理、解释和生成人类语言。现代 NLP 解决方案基于 ML 算法。NLP 的目标是让计算机能够处理自然语言文本。这个目标涉及诸多任务
文本分类自动翻译问题回答文本生成给定输入文本prompt提示词生成连贯且相关的输出文本
LLM 是试图完成文本生成任务的一类 ML 模型。LLM 使计算机 能够处理、解释和生成人类语言从而提高人机交互效率。为了做到这一 点LLM 会分析大量文本数据或基于这些数据进行训练从而学习句子中 各词之间的模式和关系。
数据源
维基百科Reddit成千上万本书甚至互联网本身
在给定输入文本的情况下这个学习过程使得 LLM 能够预测最有可能出现的后续单词从而生成对输入文本有意义的回应。
早期发展
始于简单的语言模型如 n-gram 模 型。n-gram 模型通过使用词频来根据前面的词预测句子中的下一个词其 预测结果是在训练文本中紧随前面的词出现的频率最高的词。虽然这种方 法提供了不错的着手点但是 n-gram 模型在理解上下文和语法方面仍需 改进因为它有时会生成不连贯的文本。
为了提高 n-gram 模型的性能人们引入了更先进的学习算法包括循环神经网络recurrent neural networkRNN和长短期记忆long short-term memoryLSTM网络。这些模型能够学习更长的序列并且能够更好地分析上下文但它们在处理大量数据时的效率仍然欠佳。
1.1.2 Transformer及在LLM中的作用
Transformer 架构彻底改变了 NLP 领域这主要是因为它能够有效地解决之前的 NLP 模型如 RNN存在的一个关键问题很难处理长文本序列并记住其上下文。换句话说RNN 在处理长文本序列时容易忘记上下文也就是臭名昭著的“灾难性遗忘问题”Transformer 则具备高效处理和编码上下文的能力。
这场革命的核心支柱是注意力机制这是一个简单而又强大的机制。模型不再将文本序列中的所有词视为同等重要而是在任务的每个步骤中关注最相关的词。交叉注意力和自注意力是基于注意力机制的两个架构模块它们经常出现在 LLM 中。Transformer 架构广泛使用了交叉注意力模块和自注意力模块
交叉注意力有助于模型确定输入文本的不同部分与输出文本中下一个词的相关性。 自注意力机制是指模型能够关注其输入文本的不同部分。具体到 NLP 领域自注意力机制使模型能够评估句子中的每个词相比于其他词的重要性。这使得模型能够更好地理解各词之间的关系并根据输入文本中的多个词构建新概念。 与 RNN 不同Transformer 架构具有易于并行化的优势。这意味着Transformer 架构可以同时处理输入文本的多个部分而无须顺序处理。这样做可以提高计算速度和训练速度。
Transformer 架构由来自谷歌公司的 Ashish Vaswani 等人在 2017 年的论文“Attention Is All You Need”中提出最初用于序列到序列的任务如机器翻译任务。标准的 Transformer 架构有两个主要组件编码器和解码器两者都十分依赖注意力机制。
编码器的任务是处理输入文本识别有价值的特征并生成有意义的文本表示称为嵌入embedding。
解码器使用这个嵌入来生成一个输出比如翻译结果或摘要文本。这个输出有效地解释了编码信息。
生成式预训练 TransformerGenerative Pre-trained TransformerGPT是一类基于 Transformer 架构的模型专门利用原始架构中的解码器部分。
在 GPT 中不存在编码器因此无须通过交叉注意力机制来整合编码器产生的嵌入GPT 仅依赖解码器内部的自注意力机制来生成上下文感知的表示和预测结果。 1.1.3 解密 GPT 模型的标记化和预测步骤
GPT 模型接收一段提示词作为输入然后生成一段文本作为输出这个过程被称为文本补全这主要是一个概率问题。
当 GPT 模型收到一段提示词之后它首先将输入拆分成标记token。这些标记代表单词、单词的一部分、空格或标点符号。比如在前面的例子中提示词可以被拆分成The, wea, ther, is, nice, today, so,I, de, ci, ded, to。几乎每个语言模型都配有自己的分词器。
理解标记与词长的一条经验法则是对于英语文本100 个标记大约等于 75 个单词。
为了生成新的句子LLM 根据提示词的上下文预测最有可能出现的下一个标记。OpenAI 开发了两个版本的 GPT-4上下文窗口大小分别为 8192 个标记和 32 768 个标记。
带有注意力机制的Transformer 架构使得 LLM 能够将上下文作为一个整体来考虑。基于这个上下文**模型为每个潜在的后续标记分配一个概率分数然后选择概率最高的标记作为序列中的下一个标记。**在前面的例子中“今天天气很好所以我决定”之后下一个最佳标记可能是“去”。
接下来重复此过程但现在上下文变为“今天天气很好所以我决定去”之前预测的标记“去”被添加到原始提示词中。这个过程会一直重复直到形成一个完整的句子“今天天气很好所以我决定去散步。”这个过程依赖于 LLM 学习从大量文本数据中预测下一个最有可能出现的单词的能力。 1.2 GPT 模型简史从 GPT-1 到 GPT-4
1.2.1 GPT1
2018 Improving Language Understanding by Generative Pre-Training
早期需要有大量标记良好的监督数据。这一需求限制了监督学习的性能因为要生成这样的数据集难度很大且成本高昂。
在论文中GPT-1 的作者提出了一种新的学习过程其中引入了无监督的预训练步骤。这个预训练步骤不需要标记数据。相反他们训练模型来预测下一个标记。
对于预训练GPT-1 模型使用了 BookCorpus 数据集。该数据集包含约 11 000 本未出版图书的文本。BookCorpus 最初由Yukun Zhu 等人在 2015 年的论文“Aligning Books and Movies:Towards Story-like Visual Explanations by Watching Movies andReading Books”中给出并通过多伦多大学的网页提供。然而原始数据集的正式版本如今已不能公开访问。
人们发现GPT-1 在各种基本的文本补全任务中是有效的。在无监督学习阶段该模型学习 BookCorpus 数据集并预测文本中的下一个词。**然而GPT-1 是小模型它无法在不经过微调的情况下执行复杂任务。因此人们将微调作为第二个监督学习步骤让模型在一小部分手动标记的数据上进行微调从而适应特定的目标任务。**比如在情感分析等分类任务中可能需要在一小部分手动标记的文本示例上重新训练模型以使其达到不错的准确度。
尽管规模相对较小但 GPT-1 在仅用少量手动标记的数据进行微调后能够出色地完成多个 NLP 任务。GPT-1 的架构包括一个解码器与原始Transformer 架构中的解码器类似具有 1.17 亿个参数。作为首个GPT 模型它为更强大的模型铺平了道路。
1.2.2 GPT2
2019 OpenAI 提出了 GPT-2。
这是 GPT-1 的一个扩展版本其参数量和训练数据集的规模大约是 GPT-1 的 10 倍。这个新版本的参数量为15 亿训练文本为 40 GB。GPT-2 表明使用更大的数据集训练更大的语言模型可以提高语言模型的任务处理能力并使其在许多任务中超越已有模型。它还表明更大的语言模型能够更好地处理自然语言。
1.2.3 GPT-3
2020 年 6 月OpenAI 发布了 GPT-3。
GPT-2 和 GPT-3 之间的主要区别在于模型的大小和用于训练的数据量。GPT-3 比 GPT-2 大得多它有1750 亿个参数这使其能够捕捉更复杂的模式。
GPT3的数据集
Common Crawl它就像互联网档案馆其中包含来自数十亿个网页的文本维基百科网站、书籍和文章的内容
能力 它在文本生成方面还展示出更强的连贯性和创造力。 它甚至能够编写代码片段如 SQL 查询并执行其他智能任务。 GPT-3 取消了微调步骤而这在之前的 GPT 模型中是必需的。
问题
GPT-3 存在一个问题即最终用户提供的任务与模型在训练过程中所见到的任务不一致训练过程不一定与最终用户希望模型执行的任务一 致增大语言模型的规模并不能从根本上使其更好地遵循用户的意图或指令用于训练模型的数据仍然可能包含虚假信息或有问题的文本比如涉及种族歧视、性别歧模型有时可能说错话甚至说出有害的话
2021年OpenAI 发布了 GPT-3 模型的新版本并取名为 InstructGPT。
与原始的 GPT-3 基础模型不同InstructGPT 模型通过强化学习和人类反馈进行优化。这意味着 InstructGPT 模型利用反馈来学习和不断改进。这使得模型能够从人类指令中学习同时使其真实性更大、伤害性更小。
使用标准的 GPT-3模型也能够得到所需的回答但需要应用特定的提示词设计和优化技术。这种技术被称为提示工程prompt engineering
1.2.4 从 GPT-3 到 InstructGPT
instructGPT Training Language Models to Follow Instructions with Human Feedback
从 GPT-3 模型到 InstructGPT 模型的训练过程主要有两个阶段
监督微调supervised fine-tuningSFT通过人类反馈进行强化学习reinforcement learning from human feedbackRLHF
每个阶段都会针对前一阶段的结果进行微调SFT 阶段接收 GPT-3 模型并返回一个新模型。RLHF 阶段接收该模型并返回 InstructGPT 版本。
在 SFT 阶段中原始的 GPT-3 模型通过监督学习进行微调。OpenAI 拥有一系列由最终用户创建的提示词。
首先从可用的提示词数据集中随机抽样然后要求一个人称为标注员编写一个示例来演示理想的回答。重复这个过程数千次以获得一个由提示词和相应的理想回答组成的监督训练数据集。最后使用该数据集微调 GPT-3 模型以针对用户的提问提供更一致的回答。此时得到的模型称为 SFT 模型 图 1-6获取 InstructGPT 模型的步骤
RLHF 阶段分为两个子步骤 首先训练奖励模型 奖励模型的目标是自动为回答给出分数。 当回答与提示词中的内容匹配时奖励分数应该很高当回答与提示词中的内容不匹配时奖励分数应该很低 OpenAI 首先随机选择一个问题并使用 SFT模型生成几个可能的答案。通过一个叫作温度temperature的参数可以针对同一输入生成许多回答。要求标注员根据与提示词的匹配程度和有害程度等标准给这些回答排序。在多次重复此过程后使用数据集微调 SFT 模型以进行评分。 然后使用奖励模型进行强化学习 迭代的过程。它从一个初始的生成式模型开始比如 SFT 模型根据得到的奖励分数相应地更新生成式模型。这个过程可以在无须人工干预的情况下重复无数次从而自动、高效地提高模型的性能
1.2.5 GPT-3.5、Codex 和 ChatGPT
2022 年 3 月OpenAI 发布了 GPT-3 的新版本。新模型可以编辑文本或向文本中插入内容。训练数据截至 2021 年 6 月。2022 年 11 月底OpenAI 正式称这些模型为GPT-3.5 模型。
OpenAI 还提出了 Codex 模型这是一个在数十亿行代码上进行了微调的GPT-3 模型。Codex 模型在 2023 年 3 月被OpenAI 弃用。GitHub 发布了基于 GPT-4 的 Copilot X 版本功能比之前的版本多得多。
可以说ChatGPT 是由 LLM 驱动的应用程序而不是真正的LLM。ChatGPT 背后的 LLM 是 GPT-3.5 Turbo。然而OpenAI 在发布说明中将 ChatGPT 称为“模型”。
ChatGPT 是由 LLM 驱动的应用程序而不是真正的LLM。ChatGPT 背后的 LLM 是 GPT-3.5 Turbo。然而OpenAI 在发布说明中将 ChatGPT 称为“模型”。
1.2.6 GPT-4
2023 年 3 月OpenAI 发布了 GPT-4。与 OpenAI GPT 家族中的其他模型不同GPT-4 是第一个能够同时接收文本和图像的多模态模型。这意味着 GPT-4 在生成输出句子时会考虑图像和文本的上下文。 1.3 LLM 用例和示例产品
1.3.1 Be My Eyes
自 2012 年起Be My Eyes 已通过技术为数百万视障人士提供了帮助。它的应用程序是志愿者与需要帮助的视障人士之间的纽带使视障人士在日常生活中得到帮助比如识别产品或在机场导航。只需在应用程序中点击一次需要帮助的视障人士即可联系到一位志愿者后者通过视频和麦克风提供帮助。GPT-4 的多模态能力使得它能够处理文本和图像。Be My Eyes 开始基于GPT-4 开发新的虚拟志愿者。这个虚拟志愿者旨在达到与人类志愿者相当的理解水平和帮助能力。
1.3.2 摩根士丹利
作为财富管理领域的领头羊摩根士丹利拥有数十万页的知识和见解内容库涵盖投资策略、市场研究与评论以及分析师意见。这些海量信息分散在多个内部网站上其文件格式主要是 PDF。这意味着顾问必须搜索大量文档才能找到他们想要的答案。可以想象搜索过程既漫长又乏味。
由公司内部开发的模型将驱动一个聊天机器人对财富管理内容进行全面搜索并高效地解锁摩根士丹利积累的知识。通过这种方式GPT-4 提供了一种更易使用的格式来分析所有相关信息。
1.3.3 可汗学院
Khanmigo 是由 GPT-4 驱动的新型 AI 助手。Khanmigo 可以为学生做很多事情比如引导和鼓励他们提问并帮助他们准备考试。Khanmigo 旨在成为对用户友好的聊天机器人帮助学生完成课堂作业。它不会直接给出答案而会引导学生进行学习。除了帮助学生Khanmigo 还可以帮助教师准备教案、完成行政任务和制作教材等。
1.3.4 多邻国
多邻国已经使用 GPT-4 为其产品添加了两个新功能“角色扮演”和“解释我的答案”。这两个功能在名为 Duolingo Max 的新订阅级别中可用。借助这两个功能多邻国填补了理论知识和语言应用之间的鸿沟。多亏了LLM多邻国让语言学习者能够沉浸在真实世界的场景中。
“角色扮演”功能模拟与母语人士的对话让用户能够在各种场景中练习语言技能。“解释我的答案”功能针对语法错误提供个性化反馈帮助用户更深入地理解语言结构。
1.3.5 Yabble
Yabble 是一家市场研究公司它利用 AI 技术分析消费者数据为企业提供可用的见解。Yabble 的平台将原始的非结构化数据转化为可视化形式使企业能够根据客户需求做出明智的决策。
1.3.6 Waymark
Waymark 提供了一个创作视频广告的平台。该平台利用 AI 技术帮助企业轻松创作高质量的视频无须技术知识或昂贵的设备。
显著地改进了平台用户的脚本编写过程。这种由 GPT 驱动的增强功能使得平台能够在几秒内为用户生成定制脚本。用户能够更专注于他们的主要目标因为他们无须花费太多时间编辑脚本从而有更多的时间来创作视频广告
1.3.7 Inworld AI
Inworld AI 为开发人员提供了一个平台用于创建具有独特个性、多模态表达能力和上下文意识的 AI 角色。Inworld AI 平台的主要应用领域之一是视频游戏。
将GPT 与其他 ML 模型结合该平台可以为 AI 角色生成独特的个性、情感、记忆和行为。这个过程使游戏开发人员能够专注于叙事和其他主题而无须花费大量时间从头开始创建语言模型。
1.4 警惕 AI 幻觉限制与考虑
LLM 根据给定的输入提示词逐个预测下一个词也就是标记从而生成回答。在大多数情况下模型的输出是与提问相关的并且完全可用但是在使用语言模型时需要小心因为它们给出的回答可能不准确。这种回答通常被称为 AI 幻觉即 AI 自信地给出一个回答但是这个回答是错误的或者涉及虚构的信息。 当要求它进行检查并重新计算时它仍然给出了一个错误的答案 强烈推荐在创意型应用程序中使用纯 GPT 解决方案而不是在医疗咨询工具等真相至关重要的问答类应用程序中使用。对于这类用例插件可能是理想的解决方案。 1.5 使用插件和微调优化 GPT 模型
除了简单的文本补全功能还可以使用更高级的技术来进一步利用 GPT 模型的能力:
插件微调
局限性
GPT 模型有一定的局限性例如其计算能力有限。正如你所见GPT 模型可以正确回答简单的数学问题如 2 2 等于多少但在面对更复杂的计算时可能会遇到困难如 3695 × 123 548。此外它没有直接访问互联网的权限这意味着 GPT 模型无法获取新信息其知识仅限于训练数据。对于 GPT-4最后一次知识更新是在 2021 年 9 月。截至 2023 年 11 月下旬GPT-4 的训练知识已更新至 2023 年 4 月。
**OpenAI 提供的插件服务允许该模型与可能由第三方开发的应用程序连接。**这些插件使模型能够与开发人员定义的应用程序接口application program interfaceAPI进行交互。这个过程可以极大地增强 GPT 模型的能力因为它们可以通过各种操作访问外部世界。
在其网站上OpenAI 表示可以通过插件让 ChatGPT 执行以下操作
检索实时信息如体育赛事比分、股票价格、最新资讯等检索基于知识的信息如公司文档、个人笔记等代表用户执行操作如预订航班、订购食品等准确地执行数学运算。
微调过程涉及使用特定的一组新数据重新训练现有的GPT 模型。新模型专为特定任务而设计这个额外的训练过程让模型能够调节其内部参数以适应给定的任务。经过微调的模型应该在该任务上表现得更好。比如采用金融文本数据进行微调的模型应该能够更好地回应针对该领域的查询并生成相关性更强的内容。
1.6 小结
从简单的 n-gram 模型发展到 RNN、LSTM再到先进的 Transformer 架构LLM 已经取得了长足的进步。LLM 是可以处理和生成人类语言的计算机程序它利用 ML 技术来分析大量的文本数据。通过使用自注意力机制和交叉注意力机制Transformer 极大地增强了模型的语言理解能力。