网页传奇网站,网络营销考试题及答案,网站建设翻译谁提供,网站未来发展规划我们可以把语言模型分为两类#xff1a;
自动回归式语言模型#xff1a;自动回归式语言模型在本质上是单向的#xff0c;也就是说#xff0c;它只沿着一个方向阅读句子。正向#xff08;从左到右#xff09;预测#xff1b;反向#xff08;从右到左#xff09;预测。… 我们可以把语言模型分为两类
自动回归式语言模型自动回归式语言模型在本质上是单向的也就是说它只沿着一个方向阅读句子。正向从左到右预测反向从右到左预测。自动编码式语言模型自动编码式语言模型同时利用了正向预测和反向预测的优势。在进行预测时它会同时从两个方向阅读句子所以自动编码式语言模型是双向的。 本文将结合具体模型和论文探讨这两种模型的损失函数。
一、自动编码式语言模型 提到自动编码式语言模型那最经典的非BERT莫属了。
1.1 BERT BERTBidirectional Encoder Representations from Transformers是一种基于Transformer架构的自然语言处理模型。它由Google于2018年提出以解决语境相关性和双向理解的问题。BERT采用双向训练方式能够同时考虑文本左右两侧的上下文信息有效捕获语境含义。 BERT的损失函数由两部分组成第一部分是来自 Mask-LM 的单词级别分类任务另一部分是句子级别的分类任务。通过这两个任务的联合学习可以使得 BERT 学习到的表征既有 token 级别信息同时也包含了句子级别的语义信息。 在第一部分的损失函数中如果被 mask 的词集合为 M即计算BERT的MLM loss时会忽略没被mask的token因为它是一个词典大小 |V| 上的多分类问题那么具体说来有 在句子预测任务中也是一个分类问题的损失函数 这两个损失函数也很容易理解
多分类问题类别的数量等于词表的大小第个词被正确预测的概率越大相应的损失越小二分类问题第个句子的类别被正确预测的概率越大相应的损失越小 因此两个任务联合学习的损失函数是 二、自动回归式语言模型 BERT一度引领了NLP领域。但是随着OpenAI-GPT系列模型的爆火自回归式模型被更为广泛的采用。本章详细解析GLM大模型、LoRA微调方法、Prefix tuning这三篇论文中的损失函数。以期找到这些损失函数的共性。
2.1 GLM系列大模型 清华大学提出的GLM大模型预训练框架采用了自回归的空白填充方法在自然语言理解、无条件生成、有条件生成等NLP任务上取得了显著成果。其中GLM-130B是最大的模型拥有1300亿参数支持中英文双语旨在训练出开源开放的高精度千亿中英双语语言模型。该模型采用了量化技术可在4块309024G或8块2080Ti11G上推理。 输入向量为抽样出文本段每个文本段都代表了一系列连续的token吗可以写做每个文本段都用[MASK]代表从而形成了。表示抽样文本段的数量表示每个抽样文本段的长度。预训练目标可以用下式表示 需要对所有的抽样文本段进行随机打乱 是被打乱后所有可能性的集合又可以写作。在预测缺失的文本段时每个都包含多个单词所以需要用集合S表示作为下标模型可以访问到被破坏的文本以及前面所有的抽样文本段。 那每个中token的预测概率应该如何表示呢如下 很简单把所有token的概率乘起来就可以了。 需要注意的是这边要弄清楚和的区别
代表第个文本段由于有很多种打乱方式表示其中某一个打乱方式的第个抽样文本段。
2.2 LoRA 以上是针对GLM这系列特殊的模型。那么对于一般的自回归式模型有没有更普遍的一种表达方式呢我们以LoRA这篇文章为例。 每一个下游任务都能用 内容-目标对来表示和都是token序列。例如在自然语言-sql语句任务中是自然语言查询是其相应的SQL命令。对于概括任务而言是文章的内容是其相应的概述内容。预训练的自回归语言模型可以用来表示。那么微调就是要找到一组参数使得下式最大 即用前的所有样本来预测第个样本。
三、参考文献
[1] Devlin J , Chang M W , Lee K ,et al.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. 2018.
[2] Du Z , Qian Y , Liu X ,et al.GLM: General Language Model Pretraining with Autoregressive Blank Infilling[J]. 2021.DOI:10.48550/arXiv.2103.10360.
[3] Zeng, Aohan, et al. Glm-130b: An open bilingual pre-trained model. arXiv preprint arXiv:2210.02414 (2022).
[4] Hu E J , Shen Y , Wallis P ,et al.LoRA: Low-Rank Adaptation of Large Language Models[J]. 2021.DOI:10.48550/arXiv.2106.09685.