当前位置：首页 > news >正文

济宁医院网站建设网站建设方案范文2000字

news 2025/11/14 13:15:10

济宁医院网站建设,网站建设方案范文2000字,wordpress怎么社交分享插件,英文网站建设怎么收费关注微信公众号掌握更多技术动态 --------------------------------------------------------------- 一、AIGC简介 1.AIGC基础 (1)AIGC是什么 AIGC是人工智能图形计算的缩写#xff0c;是一种基于图形处理器#xff08;GPU#xff09;的计算技术#xff0c;可以加速各种…关注微信公众号掌握更多技术动态 --------------------------------------------------------------- 一、AIGC简介 1.AIGC基础 (1)AIGC是什么 AIGC是人工智能图形计算的缩写是一种基于图形处理器GPU的计算技术可以加速各种计算任务包括机器学习、深度学习、计算机视觉等。 AIGC是一种基于GPU的计算技术它利用GPU的并行计算能力来加速各种计算任务。GPU是一种专门设计用于图形处理的处理器它可以同时处理大量的数据因此被广泛应用于游戏、视频处理等领域。而AIGC则是将GPU的并行计算能力应用于人工智能领域可以加速各种计算任务包括机器学习、深度学习、计算机视觉等。 AIGC的优势在于它可以大幅提高计算速度使得原本需要数小时甚至数天才能完成的计算任务现在只需要几分钟或几秒钟就能完成。这对于研究人员和开发者来说是非常有价值的因为它可以大幅提高他们的工作效率同时也可以让他们更快地得到结果。 AI生成内容AIGC人工智能生成内容是一种新型的内容创作方式它继承了专业生产内容PGCProfessional-generated Content和用户生成内容UGCUser-generated Content的优点并充分发挥技术优势打造了全新的数字内容生成与交互形态。随着科技的不断发展AI写作、AI配乐、AI视频生成、AI语音合成以及最近非常热门的AI绘画等技术在创作领域引起了广泛讨论。 (2)AGI 是Artificial General Intelligence的缩写中文应该是“通用人工智能”是指一种能够像人类一样思考、学习和执行多种任务的人工智能系统。 (3)模型分类 2.基础概念 (1)in-context learning上下文学习(从类比中学习) ①什么是in-context learning In-context learning的核心在于从任务相关的类比样本中学习ICL要求若干示例以特定形式进行演示然后将当前输入x跟上述示例通过prompt拼接到一起作为语言模型的输入。本质上它利用训练有素的语言模型根据演示的示例来估计候选答案的可能性。简单理解就是通过若干个完整的示例让语言模型更好地理解当前的任务从而做出更加准确的预测。 ②In-context learning能做什么在许多NLP基准测试中in-context learning与使用更多标记数据训练的模型相比具有相当的性能并且在LAMBADA常识句子完成和 TriviaQA问答上是最出色的。更令人兴奋的是in-context learning使人们能够在短短几个小时内启动一系列应用程序包括根据自然语言描述编写代码、帮助设计应用程序模型以及概括电子表格功能等。 In-context learning允许用户为新用例快速构建模型而无需为每个任务微调和存储新参数。它通常只需要很少的训练示例就可以使模型正常工作而且即使对于非专家来说也可以通过直观的自然语言来进行交互。 (2)什么是预训练模型给出一段文本OpenAI 就能返回给你一个 Embedding 向量这是因为它的背后是 GPT-3 这个超大规模的预训练模型Pre-trained Model。事实上GPT 的英文全称翻译过来就是“生成式预训练 TransformerGenerative Pre-trained Transformer”。谓预训练模型就是虽然我们没有看过你想要解决的问题比如这里我们在情感分析里看到的用户评论和评分。但是我可以拿很多我能找到的文本比如网页文章、维基百科里的文章各种书籍的电子版等等作为理解文本内容的一个学习资料。我们不需要对这些数据进行人工标注只根据这些文本前后的内容来习得文本之间内在的关联。比如网上的资料里会有很多“小猫很可爱”、“小狗很可爱”这样的文本。小猫和小狗后面都会跟着“很可爱”那么我们就会知道小猫和小狗应该是相似的词都是宠物。同时一般我们对于它们的情感也是正面的。这些隐含的内在信息在我们做情感分析的时候就带来了少量用户评论和评分数据里缺少的“常识”这些“常识”也有助于我们更好地预测。比如文本里有“白日依山尽”那么模型就知道后面应该跟“黄河入海流”。文本前面是“今天天气真”后面跟着的大概率是“不错”小概率是“糟糕”。这些文本关系最后以一堆参数的形式体现出来。对于你输入的文本它可以根据这些参数计算出一个向量然后根据这个向量来推算这个文本后面的内容。用来训练的语料文本越丰富模型中可以放的参数越多那模型能够学到的关系也就越多。类似的情况在文本里出现得越多那么将来模型猜得也就越准。预训练模型在自然语言处理领域并不是 OpenAI 的专利。早在 2013 年就有一篇叫做 Word2Vec 的经典论文谈到过。它能够通过预训练根据同一个句子里一个单词前后出现的单词来得到每个单词的向量。而在 2018 年Google 关于 BERT 的论文发表之后整个业界也都会使用 BERT 这样的预训练模型把一段文本变成向量用来解决自己的自然语言处理任务。在 GPT-3 论文发表之前大家普遍的结论是BERT 作为预训练的模型效果也是优于 GPT 的。 3.模型基础概念 (1)Prompts 设计提示本质上是您“编程”模型的方式通常是通过提供一些说明或一些示例。这不同于为单一任务设计的大多数其他 NLP 服务例如情感分类或命名实体识别。相反完成和聊天完成端点可用于几乎任何任务包括内容或代码生成、摘要、扩展、对话、创意写作、风格转换等。 (2)Tokens 我们的模型通过将文本分解为标记来理解和处理文本。标记可以是单词或只是字符块。例如单词“hamburger”被分解为标记“ham”、“bur”和“ger”而像“pear”这样的短而常见的单词是一个标记。许多标记以空格开头例如“hello”和“bye”。在给定的 API 请求中处理的令牌数量取决于输入和输出的长度。根据粗略的经验法则对于英文文本1 个标记大约为 4 个字符或 0.75 个单词。要记住的一个限制是您的文本提示和生成的完成组合不能超过模型的最大上下文长度对于大多数模型这是 2048 个标记或大约 1500 个单词。查看我们的分词器工具了解有关文本如何转换为分词的更多信息。语言模型以称为标记的块形式读取文本。在英语中token 可以短到一个字符也可以长到一个单词例如 a 或 apple在某些语言中token 甚至可以短于一个字符甚至长于一个单词。例如字符串“ChatGPT 很棒”被编码为六个标记[Chat, G, PT, is, great, !]。 API 调用中的令牌总数会影响您为每个令牌支付的 API 调用费用是多少您的 API 调用需要多长时间因为写入更多令牌需要更多时间您的 API 调用是否有效因为令牌总数必须低于模型的最大限制gpt-3.5-turbo-0301 为 4096 个令牌输入和输出令牌都计入这些数量。例如如果您的 API 调用在消息输入中使用了 10 个令牌而您在消息输出中收到了 20 个令牌则您需要支付 30 个令牌的费用。要查看 API 调用使用了多少令牌请检查 API 响应中的使用字段例如response[usage][total_tokens]。gpt-3.5-turbo 和 gpt-4 等聊天模型使用令牌的方式与其他模型相同但由于它们基于消息的格式因此更难计算对话将使用多少令牌。 (3)Models API 由一组具有不同功能和价位的模型提供支持。GPT-4 是我们最新、最强大的模型。GPT-3.5-Turbo 是为 ChatGPT 提供支持的模型并针对对话格式进行了优化。 (4)参数量 10b、13b、70b等术语通常指的是大型神经网络模型的参数数量。其中的 b 代表 billion也就是十亿。表示模型中的参数量每个参数用来存储模型的权重和偏差等信息。例如 10b 意味着模型有大约 100 亿个参数。 13b 意味着模型有大约 130 亿个参数。 70b 意味着模型有大约 700 亿个参数。 (5)模型参数精度模型参数的精度通常指的是参数的数据类型它决定了模型在内存中存储和计算参数时所使用的位数。以下是一些常见的模型参数精度及其含义以及它们在内存中所占用的字节数单精度浮点数 (32位) - float32: 含义单精度浮点数用于表示实数具有较高的精度适用于大多数深度学习应用。字节数4字节32位半精度浮点数 (16位) - float16: 含义半精度浮点数用于表示实数但相对于单精度浮点数它的位数较少因此精度稍低。然而它可以在某些情况下显著减少内存占用并加速计算。字节数2字节16位双精度浮点数 (64位) - float64: 含义双精度浮点数提供更高的精度适用于需要更高数值精度的应用但会占用更多的内存。字节数8字节64位整数 (通常为32位或64位) - int32, int64: 含义整数用于表示离散的数值可以是有符号或无符号的。在某些情况下例如分类问题中的标签可以使用整数数据类型来表示类别。字节数通常为4字节32位或8字节64位注意模型参数精度的选择往往是一种权衡。使用更高精度的数据类型可以提供更高的数值精度但会占用更多的内存并可能导致计算速度变慢。相反使用较低精度的数据类型可以节省内存并加速计算但可能会导致数值精度损失。在实际应用中选择模型参数的精度需要根据具体任务、硬件设备和性能要求进行权衡考虑。 (6)推理显存计算模型推理inference是指在已经训练好的模型上对新的数据进行预测或分类。推理阶段通常比训练阶段要求更低的显存因为不涉及梯度计算和参数更新等大量计算。以下是计算模型推理时所需显存的一些关键因素模型结构模型的结构包括层数、每层的神经元数量、卷积核大小等。较深的模型通常需要更多的显存因为每一层都会产生中间计算结果。输入数据推理时所需的显存与输入数据的尺寸有关。更大尺寸的输入数据会占用更多的显存。批处理大小BatchSize批处理大小是指一次推理中处理的样本数量。较大的批处理大小可能会增加显存使用因为需要同时存储多个样本的计算结果。数据类型DType使用的数据类型如单精度浮点数、半精度浮点数也会影响显存需求。较低精度的数据类型通常会减少显存需求。中间计算在模型的推理过程中可能会产生一些中间计算结果这些中间结果也会占用一定的显存。要估算模型推理时所需的显存可以按照以下步骤模型加载计算模型中所有参数的大小包括权重和偏差。确定输入数据尺寸根据模型结构和输入数据大小计算推理过程中每个中间计算结果的大小。选择批次大小考虑批处理大小和数据类型对显存的影响。计算显存大小将模型参数大小、中间计算结果大小和额外内存需求相加以得出总显存需求或者使用合适的库或工具计算出推理过程中所需的显存。通常情况下现代深度学习框架如TensorFlow、PyTorch等提供了用于推理的工具和函数可以帮助您估算和管理模型推理时的显存需求。以 Llama-2-7b-hf 为例因为全精度模型参数是float32类型, 占用4个字节粗略计算1b(10亿)个模型参数约占用4G显存(实际大小10^9 * 4 / 1024^3 ~ 3.725 GB)那么LLaMA的参数量为7b那么加载模型参数需要的显存为3.725 * 7 ~ 26.075 GB 如果您的显存不足32GB那么可以设置半精度的FP16/BF16来加载每个参数只占2个字节所需显存就直接减半只需要约13GB。虽然模型效果会因精度损失而略微降低但一般在可接受范围。如果您的显存不足16GB那么可以采用int8量化后显存再减半只需要约6.5GB但是模型效果会更差一些。如果您的显存不足8GB那么只能采用int4量化显存再减半只需要约3.26GB。 (7)训练显存计算模型训练train是指在给定训练数据集的基础上通过优化算法调整模型的参数使其能够更好地适应训练数据并在未见过的数据上表现出良好的泛化能力。训练阶段通常比推理阶段要求更多的显存因为涉及梯度计算和参数更新等大量计算。以下是计算模型推理时所需显存的一些关键因素模型权重。模型权重是模型参数中的一部分通常是指神经网络中连接权重weights。这些权重决定了输入特征与网络层之间的连接强度以及在前向传播过程中特征的传递方式。所以模型梯度。在训练过程中计算梯度用于更新模型参数。梯度与模型参数的维度相同。优化器参数。一些优化算法如带有动量的优化器需要保存一些状态信息以便在每次更新时进行调整。这些状态信息也会占用一定的显存。比如采用 AdamW 优化器每个参数占用8个字节需要维护两个状态。意味着优化器所使用的显存量是模型权重的 2 倍采用经过 bitsandbytes 优化的 AdamW 优化器每个参数占用2个字节相当于权重的一半采用 SGD 优化器占用显存和模型权重一样。输入数据和标签。训练模型需要将输入数据和相应的标签加载到显存中。这些数据的大小取决于每个批次的样本数量以及每个样本的维度。中间计算。在前向传播和反向传播过程中可能需要存储一些中间计算结果例如激活函数的输出、损失值等。临时缓冲区。在计算过程中可能需要一些临时缓冲区来存储临时数据例如中间梯度计算结果等。减少中间变量也可以节省显存这就体现出函数式编程语言的优势了。硬件和依赖库的开销。显卡或其他硬件设备以及使用的深度学习框架在进行计算时也会占用一些显存。以 Llama-2-7b-hf 为例数据类型Int8 模型参数: 7B * 1 bytes 7GB 梯度同上7GB 优化器参数: AdamW 2倍模型参数 7GB * 2 14GB LLaMA的架构(hidden_size 4096, intermediate_size11008, num_hidden_lavers 32, context.length 2048)所以每个样本大小(4096 11008) * 2048 * 32 * 1byte 990MB A100 (80GB RAM)大概可以在int8精度下BatchSize设置为50 综上总现存大小7GB 7GB 14GB 990M * 50 ~ 77GB Llama-2-7b-hf模型Int8推理由上个章节可得出现存大小6.5GB 由此可见模型训练需要的显存是至少推理的十几倍。备注模型训练所需GPU显存是本地笔记本所不能完成的但是我们一般正常使用模型的预测推理服务还是没多大问题的显存的总占用可以通过将上述各部分的大小相加来计算。在实际应用中需要根据模型结构、数据批次大小、优化算法等因素来估计和管理显存的使用以防止内存不足导致训练过程中断。使用一些工具和库如TensorFlow、PyTorch等可以帮助您监控和管理显存的使用情况。实际影响显存占用的因素还有很多所以只能粗略估计个数量级。监听显卡每 1 秒刷新一次watch -n -1 -d nvidia-smi 4.大语言模型是怎么工作的训练LLM的主要工具是监督学习在监督学习中计算机使用带有标签的训练数据来学习输入输出或X和Y的映射关系。在监督学习中的流程通常是获取标记数据然后在数据上训练一个模型训练完成后部署和调用该模型并给它一个新的输入希望它输出一个结果。 (1)LLM Large Language ModelLLM也称为大型语言模型是一种基于机器学习和自然语言处理技术的模型它通过对大量的文本数据进行训练来学习服务人类语言理解和生成的能力。 LLM的核心思想是通过大规模的无监督训练来学习自然语言的模式和语言结构这在一定程度上能够模拟人类的语言认知和生成过程。与传统的NLP模型相比LLM能够更好地理解和生成自然文本同时还能够表现出一定的逻辑思维和推理能力 (2)两种大语言模型 ①Base LLM 从互联网直接抓取了大量文本数据进行训练可以回答一下基础的问题可以根据已知的信息为了回答或是续写后面的内容例如你问“法国的首都是什么” 它会回答“巴黎” 这种信息都可以从互联网中搜集得到。但其也有可能回答错误或是不知道。 ②Instruction Tuned LLM(经过指令调整后的LLM) 其根据用户输入的指令以及回答的反馈进行优化也就是被称为RLHF(人类反馈强化学习技术)进一步进行细化更加符合具体的场景还可以考虑到安全回答的无害性这种LLM将来更符合生产或是使用场景。 ③如何训练Instruction Tuned LLM 千亿单词在大型计算机花费数月通过在一个较小的示例集上对其进行微调来进一步训练模型使其输出符合输入的指令 (3)大语言问题可能无法正确分词我们可以使用符号帮助正确分词 40-90%在提示词中加入“Be Concise”节约的成本使用LLM是按照回复的token数量付费的因此让LLM的回答简明扼要可以节约成本。在提示词中加入“Be Concise”答案简明些可以节约40-90%的成本。每个单词的平均token数 LLM是对token进行操作的token可能包含完整单词或其中的一部分。如“eating”是由“eat”和后缀“ing”两个token组成。一篇750词的英文文章中大约含有1000个token。而对于其他语言每个词所含的token数量可能更多。 (4)大语言优势传统机器学习可能需要通过几个月训练才能正常进行工作有了大语言模型后可能几天后就可以进行工作。 5.大模型能力大模型除了开放世界的理解能力之外还具有很多其他能力特性在领域应用中尤为值得关注 (1)组合创新能力通过在训练阶段引导大模型学习多个不同任务从而可以让大模型组合创造出解决更多复合任务的能力。例如我们可以让大模型根据李清照的诗词风格写一个Python代码的注释这要求它既具备写诗的能力又具备编写代码的能力。大模型通过对指令学习的结果进行组合泛化模拟了人类举一反三的能力从而让机器能够胜任一些从未学习过的新任务。 (2)评估评价能力通用大模型具有出色的。具有一定规模的大模型特别是百亿以上的大模型在常见的文本任务结果评估方面具有优良性能。传统的文本任务其结果评估工作往往需要人工参与耗费昂贵的人力成本。而现在我们可以利用大模型进行很多评估任务。例如我们可以让大模型扮演一个翻译专家的角色对翻译质量进行评估。通过设计合理的评价标准、给出有效的评分示例、给出翻译专家评价过程思维链巨型大模型比如GPT4是能够出色的完成诸如习语翻译这类非常专业的评价工作。大模型的评价能力能够显著领域任务中的人工评价的成本从而显著降低领域智能化解决的方案的落地成本。 (3)复杂指令理解及其执行能力复杂指令理解及其执行能力是大模型的核心特点之一。只需给予大模型详细的指令清晰表达任务约束或规范超大模型就能够按指令要求地完成任务。这种忠实于指令要求的能力与大模型的情境化生成能力高度相关。给定合理提示且提示越是丰富、细致大模型往往越能生成高质量内容。大模型的情景化生成能力刷新了我们对智能本质的认识传统关联认为智能是人类的知识发现和应用能力。这类定义是从人类视角出发知识是人类认知世界的产物。而从大模型的角度来看只要在给予的情境提示做出合理生成就是一种智能。这种情景化生成能力本质上体现了一种建模世界的能力且无关于人类对于世界的认知方式。 (4)复杂任务的分解能力和规划能力复杂任务的分解能力和规划能力是大模型的另一项优势。它可以将复杂任务分解为多个步骤并合理规划任务的执行顺序。这为垂域应用提供了重要的机会使得大模型能够与传统信息系统协同工作将传统IT系统中数据库、知识库、办公自动化系统、代码库等众多系统高效协同完成以往传统智能系统难以胜任的复杂决策任务从而提升整个信息系统的智能水平。 (5)符号推理能力此外大模型还具备符号推理能力可以进行常识推理、以及一定程度的逻辑推理、数值推理。虽然这些推理能力在面对复杂的领域文本任务时仍需进一步提升其专业水平。此外价值观对齐能力也是大模型落地的重要特性以确保大模型的输出与我们人类的伦理道德、意识形态、价值观念相一致。二、ChatGPT基础 1.ChatGPT简介 (1)ChatGPT历程 ChatGPT是一个经过长期技术储备、通过大量资源投入、带有一定成功偶然性的人工智能“核爆点”。ChatGPT的发展经历了3个阶段如下图所示前期GPT-12018年、GPT-22019年、GPT-32020年等版本已经投入了大量资源包括购买高性能芯片、雇佣数据标注人员、占用计算资源等效果并不理想后期在采用“基于强化学习的人类反馈学习”技术后发生“蝶变”迅速成为爆款应用。 ChatGPT关键在于“三大支撑”。一是“大模型”。全称是“大语言模型”Large Language Model指参数量庞大目前规模达千亿级、使用大规模语料库进行训练的自然语言处理模型是ChatGPT的“灵魂”。二是“大数据”。GPT-1使用了约7000本书籍训练语言模型。GPT-2收集了Reddit平台美国第五大网站功能类似于国内的百度贴吧800多万个文档的40GB文本数据。GPT-3使用维基百科等众多资料库的高质量文本数据数据量达到45TB是GPT-2的1150倍。三是“大算力”。以GPT-3为例其参数量达1750亿采用1万颗英伟达V100 GPU组成的高性能网络集群单次训练用时14.8天总算力消耗约为3640PF-days假如每秒进行一千万亿次计算需要3640天。ChatGPT标志着里程碑式的技术进步。一是在最具挑战性的自然语言处理领域实现了革命性突破。相比视频、图像、语音等自然语言的语法、语义、逻辑复杂存在多样性、多义性、歧义性等特点。文本数据稀缺通常表现为非结构化的低质量数据。自然语言处理任务种类繁多包括语言翻译、问答系统、文本生成、情感分析等。因此长期以来自然语言处理被认为是人工智能最具挑战性的领域。ChatGPT不仅实现了高质量的自然语言理解和生成并且能够进行零样本学习和多语言处理为自然语言处理领域带来了前所未有的突破。二是标志着通用人工智能的起点。在此之前人工智能在不同场景应用需要训练不同模型。而ChatGPT利用单一大模型即可完成人机对话、机器翻译、编码测试等多种任务已经具备通用人工智能的一些核心技术和特征能够自动化地学习各种知识、信息不断自我优化充分理解和流畅表达人类语言逻辑推理强实现了具备一般人类智慧的机器智能拥有一定的自适应和迁移学习能力可以适用于多种应用场景和任务。三是代表着强人工智能的拐点。ChatGPT证明了大模型的学习和进化能力将推动强人工智能机器拥有知觉和意识有真正的推理和解决问题的能力加速演进。目前大模型智能程度已接近人类水平甚至一些业界人士认为将来会逐渐产生自我认知和感知进而出现意识并且超越人类。 (2)大语言模型发展中的关键技术突破 (3)ChatGPT是范式突破过往ML需要“喂”之后“模仿”基于的是“对应关系” ChatGPT需要“教”之后“懂”基于的是“内在逻辑” ①过往机器学习的范式 -- 鹦鹉学舌机器学习包括深度学习所遵循的范式是“data fitting”即找到数据中的“对应关系”并应用。具体来说就是Yf(X)给定一些优化目标机器学习寻找X和Y的对应关系来优化一个特定的方程。对应关系找得好让我们在见到一个未知的X‘的时候也能根据规律总结出Y‘是什么能最好达到设定的目标。从信息论的角度这样的范式所能总结的规律应该是在“已有X所包含信息的范畴之内”。换句话说遇到一个新的X‘虽然没见过但是应该和过去的X长得差不多。用图像识别举例如果模型只在小狗小猫的数据上训练过是无法区分马车和汽车的。由此可见。过往AI应用的拓展主要是来自几点高质量的数据模型的发展算力的提升让模型越来越准、快、和发现更多更深的“对应关系”能进行更好的优化更好地把商业问题转化为优化问题和其他能力的深度结合但是这些都是基于“鹦鹉学舌”这一范式的。过往的NLPnatural language processing自然语言处理就是一个很好的例子。发展了那么多年语音助手能根据指令来达成一些目标但是从来都没有真的“懂”那些指令。过往的NLP只能做“填表”必须背后有一个人设定好具体的任务规划好如何把语音或者文字形成固定的function该function如何调用相应的能力。如果没有人提前规划那模型就无法实现。亚马逊Alexa的思路和大多数商业语音助手的思路就是招一群程序员来写if then高情商说法是针对具体使用场景做深度优化。这里有总结。[9] 谷歌的思路是用一个大模型做底座一堆小模型做输入另一堆小模型做输出。这条路也遇到明显瓶颈。归根结底离开了“懂”的能力鹦鹉的设计师是很难穷尽世界上所有的语言应用组合的。说这么多是为了告诉大家“懂”这件事是过往AI梦寐以求都想突破的瓶颈。 “懂”字如果深究的话会发现大家对它的定义其实存在很大分歧。我如果让狗狗伸手狗狗伸手了是“懂”吗过去NLP的懂和ChatGPT的懂又有什么区别呢同样的问题存在其他词汇中比如理解、推理、演绎、创新等等。所以想要真的抓住ChatGPT新能力的本质描述就要更加精确和具体。 ②ChatGPT可能的新范式 -- 乌鸦总结一下城市中的乌鸦通过观察自主串通了汽车能压碎坚果红绿灯能控制汽车车能撞死我这三件事情从而利用红绿灯和汽车来帮自己达到“安全打开坚果”这一任务结果。如果类比成机器学习模型过往“鹦鹉学舌”范式的解法是要求所有乌鸦可以共享一个大脑它们有很清晰的优化目标即“保住性命的前提下打开坚果”。它们的方式是随机尝试所有事件的组合并向着最优解的方向不断演化。但现实世界的乌鸦无法共享大脑也不能去冒着死亡风险去尝试所有可能。乌鸦只有一次机会把观测到的两个现象产生了一个新的可能性并应用在一个全新的场景下。这里最接近的词汇可能是“inference”是“基于证据和逻辑推演得到结论”的过程有的时候还要加入很多猜测、抽象、泛化。举个例子这篇文章把朱教授对于乌鸦的比喻跟ChatGPT最本质的能力联系起来就是在做inferencing这件事。但很明显inferencing不是乌鸦智能的全部。而且在机器学习领域里inferencing特指使用训练好的深度学习模型来预测新的数据这一件事会产生误解。其他词汇也有类似问题所以我们在自己文章里会直接使用“乌鸦能力”来指代ChatGPT的新能力。在对外交流时我们没办法每次都把乌鸦能力是什么解释一遍所以我们会用“理解”能力来进行指代。从“乌鸦”到“理解”当然是一个信息量损失很大的过度概括。但是好处是可以把ChatGPT的本质能力凸显出来。过往互联网的两次能力跃进一次来自于搜索一次来自于推荐现在ChatGPT带来了“理解”也非常有结构感。 ③ChatGPT看似拥有乌鸦能力的证据之所以说“看似”是因为我们并不知道乌鸦为什么会有和鹦鹉不一样的能力我们也不完全知道LLM为什么会有“乌鸦”的能力。甚至朱教授本人在AAAI 2023上明确说了不认为LLM/ChatGPT具备乌鸦能力而是一只巨鹦鹉。 ChatGPT从表现上来看具备了一定程度但远超过往ML范式的智能我们注意到这个智能的局限性但也应该在没有搞清楚原理的情况下积极探索这个智能的应用可能性。接下来的这几点感受让我很明显感觉到了ChatGPT的“乌鸦”能力 ChatGPT拥有in-context correction的能力即如果说错了给出矫正ChatGPT能“听懂”错在哪儿了并向正确的方向修正。in-context correction要比in-context learning难了太多描述越详细清楚ChatGPT回答得越好。要知道越详细的描述在预训练的文本里越难匹配到能通过Winograd测试在询问ChatGPT互联网上并不存在内容的时候能给出较好答案案例我用ChatGPT学UE5 ChatGPT能通过信息猜你心中的想法案例跟ChatGPT玩20 questions 你可以制定一个全新的游戏规则让ChatGPT和你玩ChatGPT可以理解 ④ChatGPT已经接近于目前“人类调用算力”的究极界面算力和存储能力的进步以摩尔定律为代表。在云之后更让个人可以调用的算力几乎无上限对数据的生产、总结和使用比如App上记录了很多用户行为才能做更好的推荐 “调用算力与数据手段”的抽象与进化从机器语言、汇编语言、高级语言到虚拟机对硬件的抽象、云服务对API的抽象 2.ChatGPT的交互 “交互” 这个特性是 ChatGPT 之后NLP 最为主流的技术发展路径之一作者们的论文首次定义并系统解构了 “交互式 NLP”并主要基于交互对象的维度尽可能全面地讨论了各种技术方案的优劣以及应用上的考虑包括 LM 与人类交互以更好地理解和满足用户需求个性化回应与人类价值观对齐 (alignment)并改善整体用户体验 LM 与知识库交互以丰富语言表达的事实知识增强回应的知识背景相关性并动态利用外部信息生成更准确的回应 LM 与模型和工具交互以有效分解和解决复杂推理任务利用特定知识处理特定子任务并促进智能体社会行为的涌现 LM 与环境交互以学习基于语言的实体表征language grounding并有效地处理类似推理、规划和决策等与环境观察相关的具身任务embodied tasks。因此在交互的框架下语言模型不再是语言模型本身而是一个可以 “看”(observe)、可以 “动作”(act)、可以 “获取反馈”(feedback) 的基于语言的智能体。与某个对象进行交互作者们称之为 “XXX-in-the-loop”, 表示这个对象参与了语言模型训练或者推理的过程并且是以一种级联、循环、反馈、或者迭代的形式参与其中的。 (1)与人交互 ①使用提示进行交流 “使用提示进行交流” 主要着重于交互的实时性和持续性也就是强调连续性质的多轮对话。这一点和 Conversational AI [8] 的思想是一脉相承的。也就是通过多轮对话的方式让用户连续地问下去让语言模型的响应在对话中慢慢地对齐于用户偏好。这种方式通常在交互中不需要模型参数的调整。 ②使用反馈进行学习 “使用反馈进行学习” 是当前进行 alignment 的主要方式也就是让用户给语言模型的响应一个反馈这种反馈可以是描述偏好的 “好 / 坏” 的标注也可以是自然语言形式的更为详细的反馈。模型需要被训练以让这些反馈尽可能地高。比较典型的例子就是 InstructGPT 所使用的 RLHF [7]首先使用用户标注的对模型响应的偏好反馈数据训练奖励模型然后使用这个奖励模型以某种 RL 算法训练语言模型以最大化奖励如下图。 ③使用配置进行调节 “使用配置进行调节” 是一种比较特殊的交互方式允许用户直接调整语言模型的超参数比如 temperature、或者语言模型的级联方式等。典型的例子比如谷歌的 AI Chains [9], 带有不同预设 prompt 的语言模型互相连接构成了一个用于处理流程化任务的推理链条用户可以通过一个 UI 拖拽调整这个链条的节点连接方式。 “从人类模拟中学习” 可以促进上述三种方式的规模化部署因为尤其在训练过程使用真实的用户是不现实的。比如 RLHF 通常需要使用一个 reward model 来模拟用户的偏好。另一个例子是微软研究院的 ITG [10], 通过一个 oracle model 来模拟用户的编辑行为。 (2)与知识库交互总的来说与知识库进行交互可以减轻语言模型的 “幻觉” 现象 (hallucination), 即提升其输出的事实性、准确性等还能帮助改善语言模型的时效性问题帮助补充语言模型的知识能力 ①确定补充知识的来源Knowledge Source “Knowledge Source” 分为两种一种是封闭的语料知识 (Corpus Knowledge), 如 WikiText 等 [15]另一种是开放的网络知识 (Internet Knowledge), 比如使用搜索引擎可以得到的知识 ②检索知识Knowledge Retrieval 基于语言的稀疏表示以及 lexical matching 的稀疏检索 (sparse retrieval)如 n-gram 匹配BM25 等。基于语言的稠密表示以及 semantic matching 的稠密检索 (dense retrieval)如使用单塔或者双塔模型作为检索器等。基于生成式检索器属于比较新的方式代表工作是谷歌 Tay Yi 等人的 Differentiable Search Index [12], 将知识都保存在语言模型的参数当中给一个 query 后直接输出对应知识的 doc id 或者 doc content. 因为语言模型就是知识库 [13] 基于强化学习也是比较前沿的方式代表工作比如 OpenAI 的 WebGPT [14]使用 human feedback 训练模型以进行正确知识的检索。 (3)与模型或者工具交互语言模型与模型或者工具交互主要的目的是进行复杂任务的分解比如将复杂的推理任务分解为若干子任务这也是 Chain of Thought [17] 的核心思想。不同的子任务可以使用具有不同能力的模型或者工具解决比如计算任务可以使用计算器解决检索任务可以使用检索模型解决。因此这种类型的交互不仅可以提升语言模型的推理 (reasoning)、规划 (planning)、决策 (decision making) 能力还能减轻语言模型的 “幻觉” (hallucination)、不准确输出等局限。特别地当使用工具执行某种特定的子任务时可能会对外部世界产生一定影响另外有时候显式地分解一个复杂的任务是很困难的这种时候可以为不同的语言模型赋予不同的角色或者技能然后让这些语言模型在互相协作、沟通的过程当中隐式、自动地形成某种分工方案 (division of labor)进行任务的分解。这种类型的交互不仅仅可以简化复杂任务的解决流程还可以对人类社会进行模拟构造某种形式的智能体社会。 ①Thinking: 模型与自己本身进行交互进行任务的分解以及推理等 Thinking 主要论及的是 “多阶段思维链” (Multi-Stage Chain-of-Thought)即不同的推理步骤。首先将一个复杂问题分解为若干简单的模块子问题然后迭代式地调用语言模型逐个击破。 ②Acting模型调用其他的模型或者外部工具等帮助进行推理或者对外部世界产生实际作用将语言模型的预训练语料处理成了带有 tool-use prompt 的形式因此经过训练后的语言模型可以在生成文本的时候自动地在正确的时机调用正确的外部工具如搜索引擎、翻译工具、时间工具、计算器等解决特定的子问题。 ③Collaborating: 多个语言模型智能体互相沟通、协作完成特定的任务或者模拟人类的社会行为。闭环交互比如 Socratic Models [23] 等通过大型语言模型、视觉语言模型、音频语言模型的闭环交互完成特定于视觉环境的某些复杂 QA 任务。心智理论 (Theory of Mind): 旨在让一个智能体能够理解并预测另一个智能体的状态以促进彼此的高效交互。例如 EMNLP 2021 的 Outstanding Paper, MindCraft [24], 给两个不同的语言模型赋予了不同但互补的技能让他们在交流的过程中协作完成 MineCraft 世界中的特定任务。著名教授 Graham Neubig 最近也非常关注这一条研究方向如 [25]. 沟通式代理 (Communicative Agents): 旨在让多个智能体能够进行彼此交流协作。最为典型的例子就是斯坦福大学最近震惊世界的 Generative Agents [26]搭建一个沙盒环境让好多个由大模型注入 “灵魂” 的智能体在其中自由活动它们竟然可以自发地呈现一些类人的社会行为比如聊天打招呼等颇有一种 “西部世界” 的味道如下图。除此之外比较出名的工作还有 DeepGCN 作者的新工作 CAMEL [27]让两个大模型赋能的智能体在彼此沟通的过程当中开发游戏甚至炒股而不需要人类的过多干预。作者在文章中明确提出了 “大模型社会” (LLM Society) 的概念。 (4)与环境交互语言模型和环境属于两个不同的象限语言模型建立在抽象的文字符号之上擅长 high-level 的推理、规划、决策等任务而环境建立在具体的感知信号之上如视觉信息、听觉信息等模拟或者自然发生一些 low-level 的任务如提供观察 (observation)、反馈 (feedback)、状态更新 (state transition) 等如现实世界中一个苹果落到了地上模拟引擎中一个 “苦力怕” 出现在了你的面前。因此要让语言模型能够有效且高效地与环境进行交互主要包括了两个方面的努力 Modality Grounding: 让语言模型可以处理图像、音频等多模态信息 Affordance Grounding: 让语言模型在环境具体场景的尺度下对可能的、恰当的对象执行可能的、恰当的动作。 (5)用什么交互交互接口自然语言如 few-shot example, task instruction, role assignment 甚至结构化的自然语言等。主要讨论了其在泛化性、表达性上的特点及作用等。形式语言如代码、语法、数学公式等。主要讨论了其在可解析性、推理能力上的特点及作用等。机器语言如 soft prompts, 离散化的视觉 token 等。主要讨论了其在泛化性、信息瓶颈理论、交互效率上的特点及作用等。编辑主要包括了对文本进行的删除、插入、替换、保留等操作。讨论了它的原理、历史、优势以及目前存在的局限。共享记忆主要包括了 hard memory 和 soft memory. 前者将历史状态记录在一个 log 里面作为记忆后者使用一个可读可写的记忆外置模块保存张量。论文讨论了两者的特点、作用以及存在的局限等。 (6)怎么交互交互方法 Prompting: 不调整模型参数仅仅通过 prompt engineering 的方式调用语言模型涵盖了上下文学习In-Context Learning、思维链提示 (Chain of Thought)、工具使用提示 (Tool-use)、级联推理链 (Prompt Chaining) 等多种方法详细讨论了各种 Prompting 技巧的原理、作用、各种 trick 和局限等比如在可控性和鲁棒性上的考虑等。 Fine-Tuning: 进行模型参数的调整以让模型从交互信息中进行学习更新。本节涵盖了监督指令精调 (Supervised Instruction Tuning)、参数高效精调 (Parameter-Efficient Fine-Tuning)、持续学习 (Continual Learning)、半监督学习 (Semi-Supervised Fine-Tuning) 等方法。详细讨论了这些方法的原理、作用、优势、在具体使用时的考虑、及其局限。其中还包括了部分 Knowledge Editing 的内容即编辑模型内部的知识。 Active Learning: 交互式的主动学习算法框架。 Reinforcement Learning: 交互式的强化学习算法框架讨论了在线强化学习框架、离线强化学习框架、从人类反馈中学习RLHF、从环境反馈中学习RLEF、从 AI 反馈中学习 (RLAIF) 等多种方法。 Imitation Learning: 交互式的模仿学习算法框架讨论了在线模仿学习、离线模仿学习等。 Interaction Message Fusion: 为上述所有交互方法提供了一个统一的框架同时在这个框架中向外扩展讨论了不同的知识、信息融合方案比如跨注意力融合方案 (cross-attention)、约束解码融合方案 (constrained decoding) 等。 3.NLP 研究范式的转换 (1)范式转换 1.0: 从深度学习到两阶段预训练模型这个范式转换所涵盖的时间范围大致在深度学习引入 NLP 领域2013 年左右到 GPT 3.0 出现之前2020 年 5 月左右。在 Bert 和 GPT 模型出现之前NLP 领域流行的技术是深度学习模型,NLP 领域深度学习的主要研究目标如果归纳一下是如何有效增加模型层深或模型参数容量。就是说怎么才能往 encoder 和 decoder 里不断叠加更深的 LSTM 或 CNN 层来达成增加层深和模型容量的目标。这种努力尽管确实不断增加了模型层深但是从解决具体任务的效果角度看总体而言不算很成功或者说和非深度学习方法相对带来的优势不算大。深度学习之所以不够成功我认为主要原因来自于两个方面一方面是某个具体任务有限的训练数据总量。随着模型容量的增加需要靠更大量的训练数据来支撑否则即使你能把深度做起来任务效果也做不上去。而在预训练模型出现之前很明显这是 NLP 研究领域一个严重问题另外一个方面是 LSTMCNN 特征抽取器表达能力不够强。意思是就算给你再多的数据也没用因为你不能有效地吸收数据里蕴含的知识。主要应该是这两个原因阻碍了深度学习在 NLP 领域的成功突围。 Bert/GPT 这两个预训练模型的出现无论在学术研究角度看还是工业应用角度来看都代表了 NLP 领域的一个技术飞跃并带来了整个领域研究范式的转换。这种范式转换带来的影响体现在两个方面首先是部分 NLP 研究子领域的衰退乃至逐步消亡其次NLP 不同子领域的技术方法和技术框架日趋统一在 Bert 出现后一年左右技术栈基本收敛到两种技术模式中 ①影响一中间任务的消亡 NLP 是一个宏观研究领域的统称里面有五花八门具体的子领域与子方向如果仔细分析从任务的性质角度可以把这些任务分成两大类一类可以叫做 “中间任务”一类可以称为 “最终任务”。典型的中间任务包括中文分词、词性标注、NER、句法分析、指代消解、语义 Parser 等这类任务一般并不解决应用中的实际需求大多数是作为那些解决实际需求任务的中间阶段或者辅助阶段存在的比如几乎没有需求说我要一个句法 Parser把这个句子的句法分析树给用户看看用户不需要看到这些 NLP 的中间阶段处理结果他只关心某个具体任务你有没有干好。“最终任务” 包括比如文本分类、文本相似性计算、机器翻译、文本摘要等等有很多。这类任务的特点是每个子领域都解决某个实际需求任务结果基本能直接呈现给用户比如用户确实存在给你一句英文告诉他中文是什么的需求。按理说“中间任务” 就不应该出现而之所以会存在这是 NLP 技术发展水平不够高的一种体现。在技术发展早期阶段因为当时的技术相对落后很难一步做好有难度的最终任务。比如机器翻译早期技术要做好机器翻译是很困难的于是科研人员就把难题分而治之分解成分词、词性标注、句法分析等各种中间阶段先把每个中间阶段做好然后再拼起来完成最终任务这也是没办法的事情。但是自从 BertGPT 出现之后其实就没有必要做这些中间任务了因为通过大量数据的预训练BertGPT 已经把这些中间任务作为语言学特征吸收到了 Transformer 的参数里此时我们完全可以端到端地直接解决那些最终任务而无须对这种中间过程专门建模。这里可能争议最大的是中文分词其实道理也是一样的哪些字应该组成一个词这个其实你不用管让 LLM 自己当特征去学就行了只要对于解决任务有帮助它自然会去学该学的合理分词方式也未必一定要和我们人类理解的分词规则相同。 ②影响二不同研究方向技术路线的统一在说明具体影响前我们先讨论下另外一种 NLP 任务划分方式这对于理解后面内容有帮助。如果对 “最终任务” 进一步进行分类又大致可以分为两大不同类型的任务自然语言理解类任务和自然语言生成类任务。如果排除掉 “中间任务” 的话典型的自然语言理解类任务包括文本分类、句子关系判断、情感倾向判断等这种任务本质上都是分类任务就是说输入一个句子文章或者两个句子模型参考所有输入内容最后给出属于哪个类别的判断。自然语言生成也包含很多 NLP 研究子方向比如聊天机器人、机器翻译、文本摘要、问答系统等。生成类任务的特点是给定输入文本对应地模型要生成一串输出文本。这两者的差异主要体现在输入输出形式上其次大多数 NLP 子领域的研发模式切换到了两阶段模式模型预训练阶段应用微调Fine-tuning或应用 ZeroFew Shot Prompt 模式。更准确地说NLP 各种任务其实收敛到了两个不同的预训练模型框架里对于自然语言理解类任务其技术体系统一到了以 Bert 为代表的 “双向语言模型预训练应用 Fine-tuning” 模式而对于自然语言生成类任务其技术体系则统一到了以 GPT 2.0 为代表的 “自回归语言模型即从左到右单向语言模型Zero /Few Shot Prompt” 模式。 (2)范式转换 2.0: 从预训练模型走向通用人工智能 AGIArtificial General Intelligence ChatGPT 是触发这次范型转换的关键节点但是在 InstructGPT 出现之前其实 LLM 处于这次范式转换前的一个过渡期。过渡期以 GPT 3.0 为代表的 “自回归语言模型 Prompting” 模式占据统治地位在预训练模型发展的早期技术框架收敛到了 Bert 模式和 GPT 模式这两种不同的技术范型而且人们普遍更看好 Bert 模式一些相当多数的后续技术改进都是沿着 Bert 那条路走的。但是随着技术的继续发展你会发现目前规模最大的 LLM 模型几乎清一色都是类似 GPT 3.0 这种 “自回归语言模型 Prompting” 模式的比如 GPT 3、PaLM、GLaM、Gopher、Chinchilla、MT-NLG、LaMDA 等没有例外。为什么会这样呢背后一定有其必然性我认为可能主要源于两个原因。首先Google 的 T5 模型在形式上统一了自然语言理解和自然语言生成任务的外在表现形式。如上图所示标为红色的是个文本分类问题黄色的是判断句子相似性的回归或分类问题这都是典型的自然语言理解问题。在 T5 模型里这些自然语言理解问题在输入输出形式上和生成问题保持了一致也就是说可以把分类问题转换成让 LLM 模型生成对应类别的字符串这样理解和生成任务在表现形式就实现了完全的统一。这说明自然语言生成任务在表现形式上可以兼容自然语言理解任务若反过来则很难做到这一点。这样的好处是同一个 LLM 生成模型可以解决几乎所有 NLP 问题。而如果仍然采取 Bert 模式则这个 LLM 模型无法很好处理生成任务。既然这样我们当然倾向于使用生成模型这是一个原因。第二个原因如果想要以零示例提示语zero shot prompting或少数示例提示语few shot prompting的方式做好任务则必须要采取 GPT 模式。现在已有研究参考On the Role of Bidirectionality in Language Model Pre-Training证明如果是以 fine-tuning 方式解决下游任务Bert 模式的效果优于 GPT 模式若是以 zero shot/few shot prompting 这种模式解决下游任务则 GPT 模式效果要优于 Bert 模式。这说明了生成模型更容易做好 zero shot/few shot prompting 方式的任务而 Bert 模式以这种方式做任务是天然有劣势的。这是第二个原因。为什么我们要追求 zero shot/few shot prompting 这种方式来做任务呢首先LLM 应该具备强大的自主学习能力。假设我们把世界上能获得的所有文本或者图片等不同类型的数据喂给它它应该能够自动从中学习到里面包含的所有知识点学习过程不需要人的介入并且能灵活应用所学知识来解决实际问题。因为数据是海量的要吸收所有知识就要非常多的模型参数来存储知识所以这个模型必然会是一个巨无霸模型。其次LLM 应该能解决 NLP 任何子领域的问题而不仅支持有限领域甚至它应该可以响应 NLP 之外其它领域的问题最好是任意领域的问题都能得到很好地回答。再者当我们使用 LLM 解决某个具体领域问题的时候应该用我们人类习惯的表达方式就是说 LLM 应该理解人类的命令。这体现出让 LLM 适配人而不是反过来让人去适配 LLM 模型。人适配 LLM 的典型例子比如绞尽脑汁去尝试各种不同的 prompt以试图找到好的提示语才能很好地解决手头问题。关于这点上图在人类和 LLM 交互的接口层举了几个例子说明什么是好的人使用 LLM 模型的接口形式。看完这个理想中的 LLM我们再回头解释上面遗留的问题为什么我们要追求 zero shot/few shot prompting 这种方式来做任务呢有两个原因。第一这个 LLM 模型规模必然非常巨大有能力作出这个模型或改动这个模型参数的机构必然很少。而任务需求方是千千万万的中小机构甚至是个人就算你把模型开源出来他们也无力部署这个模型更不用说再用 Fine-tuning 这种模式去修改模型参数了。所以我们应该追求不修正模型参数就能让任务需求方完成任务的方式也就是应该采取 prompt 模式完成任务而非 Fine-tuning 模式由此可看出soft prompting 技术方向是违背这个发展趋势的。模型制作方则将 LLM 作成公用服务以 LLM as Service 的模式运行。作为服务支持方考虑到千变万化的用户需求所以 LLM 模型制作方更要追求让 LLM 能完成尽可能多类型的任务这是附带的影响也是为何超级大模型一定会追求走向 AGI 的现实因素。第二zero shot prompting 也好few shot prompting 也好甚至促进 LLM 推理能力的思维链CoT,Chain of ThoughtPrompting 也好就是上图中接口层中的现有技术。具体而言zero shot prompting 的初衷其实就是人类和 LLM 的理想接口直接用人类所习惯的任务表述方式让 LLM 做事情但是发现 LLM 并不能很好地理解效果也不好。经过继续研究转而发现对于某项任务如果给 LLM 几个示例用这些示例来代表任务描述效果会比 zero shot prompting 好于是大家都去研究更好的 few shot prompting 技术。可以理解为本来我们希望 LLM 能够用人类常用的命令方式来执行某个任务但是目前技术还做不到所以退而求其次用这些替代技术来表达人类的任务需求。如果理解了上述逻辑很容易得出如下结论few shot prompting也被称为 In Context Learning只是一种过渡时期的技术。如果我们能够更自然地去描述一个任务而且 LLM 可以理解那么我们肯定会毫不犹豫地抛弃这些过渡期的技术原因很明显用这些方法来描述任务需求并不符合人类的使用习惯。 ①影响一让 LLM 适配人的新型交互接口如果归纳下 ChatGPT 最突出特点的话我会用下面八个字“能力强大善解人意”。 “能力强大” 这一点 ChatGPT 尽管加入了人工标注数据但是量级只有数万这个规模的数据量和训练 GPT 3.5 模型使用的几千亿 token 级别的数据量相比包含的世界知识数据中包含的事实与常识可谓沧海一粟所以它的强大功能应该主要来自于隐藏在背后的 GPT 3.5。GPT 3.5 对标理想 LLM 模型中的那个巨无霸模型。那么ChatGPT 向 GPT 3.5 模型注入新知识了吗应该是注入了这些知识就包含在几万人工标注数据里不过注入的不是世界知识而是人类偏好知识。所谓 “人类偏好”包含几方面的含义首先是人类表达一个任务的习惯说法。比如人习惯说“把下面句子从中文翻译成英文”以此表达一个 “机器翻译” 的需求但是 LLM 又不是人它怎么会理解这句话到底是什么意思呢你得想办法让 LLM 理解这句命令的含义并正确执行。所以ChatGPT 通过人工标注数据向 GPT 3.5 注入了这类知识方便 LLM 理解人的命令这是它 “善解人意” 的关键。其次对于什么是好的回答什么是不好的回答人类有自己的标准例如比较详细的回答是好的带有歧视内容的回答是不好的诸如此类。这是人类自身对回答质量好坏的偏好。人通过 Reward Model 反馈给 LLM 的数据里包含这类信息。总体而言ChatGPT 把人类偏好知识注入 GPT 3.5以此来获得一个听得懂人话、也比较礼貌的 LLM。可以看出ChatGPT 的最大贡献在于基本实现了理想 LLM 的接口层让 LLM 适配人的习惯命令表达方式而不是反过来让人去适配 LLM绞尽脑汁地想出一个能 Work 的命令这就是 instruct 技术出来之前prompt 技术在做的事情而这增加了 LLM 的易用性和用户体验。是 InstructGPT/ChatGPT 首先意识到这个问题并给出了很好的解决方案这也是它最大的技术贡献。相对之前的 few shot prompting它是一种更符合人类表达习惯的人和 LLM 进行交互的人机接口技术。 ②影响二很多 NLP 子领域不再具备独立研究价值就 NLP 领域而言这次范式转换意味着很多目前独立存在的 NLP 研究领域将被纳入 LLM 的技术体系进而不再独立存在逐步消失。经过第一次范式转换尽管 NLP 中很多 “中间任务”继续作为独立研究领域存在不再必要但是大多数 “最终任务”仍然是以独立研究领域存在的只是切换成在 “预训练 fine-tuning” 框架下面对领域独有问题陆续提出新的改进方案。目前研究表明很多 NLP 任务随着 LLM 模型规模增长效果会大幅提升。据此我觉得可得到如下推论大多数某领域所谓 “独有” 的问题大概率只是缺乏领域知识导致的一种外在表象只要领域知识足够多这个所谓领域独有的问题就可以被很好地解决掉其实并不需要专门针对某个具体领域问题冥思苦想去提出专用解决方案。也许 AGI 的真相超乎意料地简单你只要把这个领域更多的数据交给 LLM让它自己学习更多知识即可。在这个背景下同时ChatGPT 证明了我们现在是可以直接去追求理想 LLM 模型的那么未来的技术发展趋势应该是追求规模越来越大的 LLM 模型通过增加预训练数据的多样性来涵盖越来越多的领域LLM 自主从领域数据中通过预训练过程学习领域知识随着模型规模不断增大很多问题随之得到解决。研究重心会投入到如何构建这个理想 LLM 模型而非去解决某个领域的具体问题。这样越来越多 NLP 的子领域会被纳入 LLM 的技术体系进而逐步消失。判断某个具体领域是否该立即停止独立研究其判断标准可采取以下两种方法占其一即可第一判断某个任务是否 LLM 的研究效果超过人类表现对于那些 LLM 效果超过人类的研究领域已无独立研究的必要。举个例子GLUE 与 SuperGLUE 测试集合里的很多任务目前 LLM 效果已超过人类表现与这个数据集合密切相关的研究领域其实就没有继续独立存在的必要。第二对比两种模式的任务效果第一种模式是用较大的领域专用数据进行 Fine-tuning第二种是 few-shot prompting 或 instruct-based 方法。如果第二种方法效果达到或超过第一种方法则意味着这个领域没有继续独立存在的必要性。如果用这个标准来看其实很多研究领域目前 fine-tuning 效果还是占优的因为这种模式领域训练数据量大看似还可独立存在。但是考虑到很多任务随着模型规模增大few shot prompting 效果持续增长随着更大模型的出现这个拐点很可能短期就会达到。 ③影响三更多 NLP 之外的研究领域将被纳入 LLM 技术体系 ChatGPT 除了展示出以流畅的对话形式解决各种 NLP 任务外也具备强大的代码能力。很自然的之后越来越多其它的研究领域也会被逐步纳入 LLM 体系中成为通用人工智能的一部分。 LLM 从 NLP 向外进行领域拓展一个自然的选择就是图像处理及多模态相关任务。目前已经有些工作在尝试把多模态融入让 LLM 成为一个支持多模态输入输出的通用人机接口典型的例子包括 DeepMind 的 Flamingo 和微软的 “Language Models are General-Purpose Interfaces”上图展示了这种方式的概念结构。 LLM从NLP向外进行领域拓展一个自然的选择就是图像处理及多模态相关任务。目前已经有些工作在尝试把多模态融入让LLM成为一个支持多模态

查看全文

http://www.zqtcl.cn/news/794743/