当前位置：首页 > news >正文

湖南+网站建设开发公司和物业公司签协议

news 2025/11/15 1:00:47

湖南+网站建设,开发公司和物业公司签协议,软件开发分类,北京网站建设第一品牌上一篇讲了transformer的原理#xff0c;接下来#xff0c;看看它的衍生物们。 Transformer基本架构 Transformer模型主要由两部分组成#xff1a;编码器#xff08;Encoder#xff09;和解码器#xff08;Decoder#xff09;。编码器负责处理输入序列#xff0c;将其…上一篇讲了transformer的原理接下来看看它的衍生物们。 Transformer基本架构 Transformer模型主要由两部分组成编码器Encoder和解码器Decoder。编码器负责处理输入序列将其转换为一系列内部表示解码器则根据这些内部表示生成输出序列。编码器和解码器都由多个相同的层堆叠而成每层包括自注意力机制和全连接前馈网络两个子层子层之间采用残差连接和层归一化技术。自注意力机制是Transformer的核心所在它通过计算输入序列中每个位置上的向量表示之间的相似度为每个位置生成一个权重向量。这样模型就能够在处理每个位置上的向量时考虑到其他所有位置上的信息从而实现对全局信息的捕捉。全连接前馈网络则负责进一步处理自注意力机制的输出提取更高级的特征表示。随着研究的深入Transformer模型也涌现出了许多变种。这些变种模型在保持基本架构不变的基础上对某些组件进行了改进或添加新的组件以提高模型的性能或适应不同的任务需求。 1.bertBidirectional Encoder Representations from Transformers 前面有一些bert原理相关的博客这里主要讲下主要区别不对原理深究。 BERT是Transformer的一个重要变种它采用全连接的双向Transformer编码器结构通过预训练的方式学习通用的语言表示。BERT在预训练时采用了两种任务遮盖语言建模Masked Language Modeling和下一句预测Next Sentence Prediction。这两种任务使得BERT能够捕获到丰富的上下文信息从而在下游任务中取得良好的表现。 BERT的双向表示前先回顾一下常见的双向表示网络结构的双向首先区别于biLSTM那种双向那种是在网络结构上的双层例如 biLSTM来进行一个单词的双向上下文表示如图所示单层的BiLSTM是由两个LSTM组合而成一个是正向去处理输入序列另一个反向处理序列处理完成后将两个LSTM的输出拼接起来。在上图中只有所有的时间步计算完成后才能得到最终的BiLSTM的输出结果。正向的LSTM经过6个时间步得到一个结果向量反向的LSTM同样经过6个时间步后得到另一个结果将这两个结果向量拼接起来得到最终的BiLSTM输出结果。请注意BERT并没有说讲一个序列反向输入到网络中所以BERT并不属于这种。用Bi-RNN或Bi-LSTM来“同时从左到右、从右到左扫描序列数据”。Bi-RNN是一种双向语言模型刻画了正反两个方向上序列数据中的时空依赖信息。双向语言模型相比RNN等单向模型可以提取更多的信息模型潜力也更大。 Transformer也可以用来构建双向语言模型。最粗暴的方式就是Bi-Transformer即让2个Transformer分别从左到右和从右到左扫描输入序列。当然这样做的话模型参数太多训练和推断阶段耗时会比较大。 BERT没有在Transformer的结构上费工夫而是采用特别的训练策略迫使模型像双向模型一样思考。这种训练策略就是随机遮蔽词语预测。BERT会对一个句子的token序列的一部分(15%)进行处理1以80%的概率遮蔽掉2以10%的概率替换为其他任意一个token3以10%的概率保持。预训练任务是一个mask LM 通过随机的把句子中的单词替换成mask标签然后对单词进行预测。这里注意到对于模型输入的是一个被挖了空的句子而由于Transformer的特性通过上下文来分析句子类似完型填空它是会注意到所有的单词的这就导致模型会根据挖空的上下文来进行预测这就实现了双向表示说明BERT是一个双向的语言模型。如我们所见ELMo对上下文进行双向编码但使用特定于任务的架构而GPT是任务无关的但是从左到右编码上下文。BERT来自Transformers的双向编码器表示结合了这两个方面的优点。它对上下文进行双向编码并且对于大多数的自然语言处理任务 (Devlin et al., 2018)只需要最少的架构改变。通过使用预训练的Transformer编码器BERT能够基于其双向上下文表示任何词元。在下游任务的监督学习过程中BERT在两个方面与GPT相似。首先BERT表示将被输入到一个添加的输出层中根据任务的性质对模型架构进行最小的更改例如预测每个词元与预测整个序列。其次对预训练Transformer编码器的所有参数进行微调而额外的输出层将从头开始训练。描述了ELMo、GPT和BERT之间的差异。 2.gpt GPTGenerative Pre Training生成式预训练模型为上下文的敏感表示设计了通用的任务无关模型 (Radford et al., 2018)。GPT建立在Transformer解码器的基础上预训练了一个用于表示文本序列的语言模型。当将GPT应用于下游任务时语言模型的输出将被送到一个附加的线性输出层以预测任务的标签。与ELMo冻结预训练模型的参数不同GPT在下游任务的监督学习过程中对预训练Transformer解码器中的所有参数进行微调。GPT在自然语言推断、问答、句子相似性和分类等12项任务上进行了评估并在对模型架构进行最小更改的情况下改善了其中9项任务的最新水平。然而由于语言模型的自回归特性GPT只能向前看从左到右这是将masked self-attention的原因每个位置的词都看不到后面的词。在“i went to the bank to deposit cash”我去银行存现金和“i went to the bank to sit down”我去河岸边坐下的上下文中由于“bank”对其左边的上下文敏感GPT将返回“bank”的相同表示尽管它有不同的含义。 3.Transformer-XL Transformer-XL旨在解决Transformer在处理长序列时遇到的问题。它通过引入分段循环机制和相对位置编码使得Transformer能够处理更长的序列。此外Transformer-XL还采用了分段注意力机制以减少计算量和内存消耗。 4.gpt2 GPT和GPT-2都是由OpenAI开发的自然语言处理模型基于一种被称为transformer的架构。下面是它们的主要区别在模型结构上调整了每个block Layer Normalization的位置。将layer normalization放到每个sub-block之前并在最后一个块后再增加一个layer normalization 模型大小GPT-2模型比GPT更大。GPT的参数数量是1.17亿而GPT-2的参数数量大约为15亿。这意味着GPT-2在模型大小和理解能力上都超过了GPT。transformer堆叠增加到48层隐层维度1600 训练数据尽管两个模型都是在互联网文本上进行训练的但GPT-2使用了更多的训练数据因此它对更多的主题和上下文具有更深的理解。800w文本40gwebtext数据。性能和生成能力由于模型大小和训练数据的增加GPT-2在许多自然语言处理任务上的性能都超过了GPT。GPT-2在生成连贯、逼真的文本方面也有很大的改进。未监督学习GPT-2是完全通过未监督学习训练的这意味着它没有使用人工标记的数据。这与GPT的训练方法相同但由于其更大的模型大小和更多的训练数据GPT-2在未监督学习的效果上更加出色。引发的关注由于GPT-2的强大能力它引发了人们对AI生成假新闻和虚假信息的担忧。这导致OpenAI在一开始时没有完全发布GPT-2模型而是选择逐步发布。 GPT-2pre-training方法与gpt1一致但在做下游任务时不再进行微调只进行简单的Zero-Shot就能与同时期微调后的模型性能相差不大。总的来说GPT-2是GPT的一个升级版它在模型大小、训练数据量以及生成能力等方面都有所提升。 5.gpt3 GPT3 可以理解为 GPT2 的升级版使用了 45TB 的训练数据拥有 175B 的参数量 GPT3 主要提出了两个概念情景in-context学习在被给定的几个任务示例或一个任务说明的情况下模型应该能通过简单预测来补全任务中的其他示例。即情境学习要求预训练模型要对任务本身进行理解。情境学习就是对模型进行引导教会它应当输出什么内容比如翻译任务可以采用输入请把以下英文翻译为中文Today is a good day。情境学习分为三类Zero-shot, one-shot and few-shot。GPT3 打出的口号就是“告别微调的 GPT3”它可以通过不使用一条样例的 Zero-shot、仅使用一条样例的 One-shot 和使用少量样例的 Few-shot 来完成推理任务。下面是对比微调模型和 GPT3 三种不同的样本推理形式图。下游任务本文聚焦于系统分析同一下游任务不同设置下模型情境学习能力的差异 Fine-tuning(FT) 利用成千上万的下游任务标注数据来更新预训练模型中的权重。缺点每个新的下游任务都需要大量的标注预料模型不能在样本外推预测时具有好效果说明FT导致模型的泛化性降低。 Few-ShotFS模型在测试阶段可以得到少量的下游任务示例作为限制条件但是不允许更新预训练模型中的权重。FS的主要优点是并不需要大量的下游任务数据。FS的主要缺点是不仅与fine-tune的SOTA模型性能差距较大且仍需要少量的下游任务数据。 One-Shot1S这种方式与人类沟通的方式最相似。 Zero-Shot0S0S的方式是非常具有挑战的即使是人类有时候也难以仅依赖任务描述而没有示例的情况下理解一个任务。但0S设置下的性能是最与人类的水平具有可比性的。 6.chatgpt ChatGPT是一个基于GPT3的聊天机器人它利用了OpenAI的最新技术来模拟人类的对话。ChatGPT不仅可以回答问题还可以进行闲聊和撰写文本具有广泛的应用前景。 ChatGPT 与 GPT-3 的比较 1. 两个模型之间的相似之处 ChatGPT 和 GPT-3 都是 OpenAI 开发的语言模型它们在来自各种来源的大量文本数据上进行训练。两种模型都能够对文本输入产生类似人类的响应并且都适用于聊天机器人和对话式 AI 系统等任务。 2. 两个模型之间的差异 ChatGPT 和 GPT-3 之间有几个关键区别。首先ChatGPT 是专门为会话任务设计的而 GPT-3 是一种更通用的模型可用于广泛的语言相关任务。其次与 GPT-3 相比ChatGPT 使用的数据量较少这可能会影响其生成多样化和细微响应的能力。最后GPT-3 比 ChatGPT 更大更强大有 1750 亿个参数而 ChatGPT 只有 15 亿个参数。 ChatGPT 是一种最先进的会话语言模型已经过来自各种来源的大量文本数据的训练包括社交媒体、书籍和新闻文章。该模型能够对文本输入生成类似人类的响应使其适用于聊天机器人和对话式人工智能系统等任务。另一方面GPT-3 是一种大规模语言模型它已经在来自各种来源的大量文本数据上进行了训练。它能够产生类似人类的反应可用于广泛的与语言相关的任务。就相似性而言ChatGPT 和 GPT-3 都在大量文本数据上进行训练使它们能够对文本输入生成类似人类的响应。它们也都由 OpenAI 开发被认为是最先进的语言模型。但是这两种模型之间也存在一些关键差异。ChatGPT 专为会话任务而设计而 GPT-3 更通用可用于更广泛的语言相关任务。此外ChatGPT 接受了多种语言模式和风格的训练与 GPT-3 相比它更能够生成多样化和细微的响应。就何时使用每种模型而言ChatGPT 最适合需要自然、类人对话的任务例如聊天机器人和对话式 AI 系统。另一方面GPT-3 最适合需要通用语言模型的任务例如文本生成和翻译。 7.大模型大模型的基座是transformer在这个基础上增加一些变种修改下结构或者增加数据量。其它 transformer 编码器可以用来做分类任务解码器可以用来做语言建模。应用到各大主流模型中会有意想不到的效果最近看的论文中大多从transformer中摘取一些结构用在业务场景模型中。参考1.双向lstm 2.bert 3.变体概要

查看全文

http://www.zqtcl.cn/news/860075/