国外网站需要备案,电商平台运营,什么是网站和网页,缪斯国际设计摘要
在将数据集表述为指令的形式上进行语言模型微调#xff0c;已被证明能够提升模型性能及其对未见任务的泛化能力。本文探讨了指令微调#xff0c;特别关注以下三个方面#xff1a;(1) 任务数量的扩展#xff0c;(2) 模型规模的扩展#xff0c;以及 (3) 基于链式思维已被证明能够提升模型性能及其对未见任务的泛化能力。本文探讨了指令微调特别关注以下三个方面(1) 任务数量的扩展(2) 模型规模的扩展以及 (3) 基于链式思维chain-of-thought数据的微调。我们发现结合上述方面的指令微调显著提升了多种模型类别如PaLM、T5、U-PaLM、提示设置如零样本、少样本、链式思维以及评估基准如MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts的性能。例如在1.8K个任务上进行指令微调的Flan-PaLM 540B模型其性能大幅超越了原始PaLM 540B模型平均提升9.4%。Flan-PaLM 540B在多个基准测试中达到了最先进的性能例如在五样本MMLU测试中达到了75.2%的准确率。我们还公开发布了Flan-T5的检查点这些检查点即使与更大的模型如PaLM 62B相比也表现出强大的少样本性能。总体而言指令微调是一种提升预训练语言模型性能和可用性的通用方法。
1 引言
人工智能的一个重要目标是开发能够泛化到未见任务的模型。在自然语言处理NLP领域预训练语言模型在这一目标上取得了显著进展因为它们能够根据自然语言描述执行任务Brown 等2020及其他。通过在以指令形式表述的任务集合上对语言模型进行微调进一步推动了这一进展这使得模型能够更好地响应指令并减少对少样本示例的需求Ouyang 等2022Wei 等2021Sanh 等2021及其他。
本文从多个方面推进了指令微调的研究。首先我们研究了扩展对指令微调的影响。实验表明指令微调在任务数量和模型规模方面具有良好的扩展性。它们的扩展行为表明未来的研究应进一步扩大任务数量和模型规模。其次我们研究了微调对模型执行推理任务能力的影响。实验表明虽然之前的指令微调方法未包含链式思维CoTWei 等2022b会严重降低在CoT评估中的性能但在微调混合数据中仅加入九个CoT数据集即可在所有评估中实现更好的性能。
基于这些发现我们训练了Flan-PaLM模型使用了一个5400亿参数的模型将微调任务数量增加到1.8K并包含CoT数据。Flan-PaLM在多个基准测试中超越了PaLM达到了新的最先进水平。例如Flan-PaLM改进的推理能力使其能够利用CoT和自一致性Wang 等2022c在Massive Multi-task Language UnderstandingMMLUHendrycks 等2020上达到75.2%的准确率。与PaLM相比Flan-PaLM还提升了多语言能力例如在单样本TyDiQAClark 等2020上绝对提升了14.9%在低资源语言的算术推理Shi 等2022上提升了8.1%。在人类评估中Flan-PaLM在一组具有挑战性的开放式生成问题上显著优于PaLM表明其可用性得到了提升。此外我们还发现指令微调在多个负责任的人工智能评估基准上也能提升性能。
此外我们还对Flan-T5模型80M到11B进行了指令微调。这些检查点具有强大的零样本、少样本和CoT能力优于之前的公开检查点如T5Raffel 等2020。例如Flan-T5 11B在某些具有挑战性的BIG-Bench任务Srivastava 等2022上相比T5 11B实现了两位数的性能提升甚至超越了PaLM 62B。总体而言我们的结果强调了指令微调如何在一系列模型、提示设置和评估任务中提升性能。 2 Flan微调
我们在多种数据源图2上使用多种指令模板类型图3进行指令微调。我们将这种微调过程称为FlanFinetuning language modelsWei 等2021并在微调后的模型名称前加上“Flan”例如Flan-PaLM。我们展示了Flan在多种模型规模和架构上的有效性表2。
2.1 微调数据
任务混合。先前的研究表明增加指令微调中的任务数量可以提高对未见任务的泛化能力Wei 等2021Sanh 等2021及其他。在本文中我们通过结合来自先前工作的四个任务混合集Muffin、T0-SF、NIV2和CoT将微调任务数量扩展到1,836个如图2所示。Muffin80个任务包括来自Wei等2021的62个任务以及我们在本工作中新增的26个任务涵盖对话数据Byrne 等2019Anantha 等2021Dai 等2022和程序合成数据Yasunaga 和 Liang2020Li 等2022。T0-SF193个任务包括来自T0Sanh 等2021的任务这些任务与Muffin中使用的数据不重叠SF表示“sans Flan”。NIV21554个任务包括来自Wang等2022c的任务。 链式思维CoT微调混合数据。第四种微调数据混合集推理涉及CoT注释我们用它来探索在CoT注释上进行微调是否能提高对未见推理任务的性能。我们从先前的工作中创建了一个包含九个数据集的新混合集这些数据集的训练语料库由人工评分者手动编写了CoT注释。这九个数据集包括算术推理Cobbe 等2021、多跳推理Geva 等2021和自然语言推理Camburu 等2020等任务。我们为每个任务手动编写了十个指令模板。数据卡片见附录F。
模板和格式化。对于Muffin、T0-SF和NIV2我们使用任务创建者提供的指令模板。对于CoT我们为九个数据集中的每一个手动编写了大约十个指令模板。为了创建少样本模板我们编写了多种示例分隔符例如“Q:”/“A:”并在示例级别随机应用它们。图3展示了带有和不带有示例、以及带有和不带有CoT的格式化示例。
2.2 微调过程
在本文中我们在多种模型系列上应用指令微调包括T5Raffel 等2020、PaLMChowdhery 等2022和U-PaLMTay 等2022b。这些模型系列涵盖了从Flan-T5-small8000万参数到PaLM和U-PaLM5400亿参数的不同规模。对于每个模型我们采用相同的训练过程除了少数超参数学习率、批量大小、dropout和微调步数。我们使用恒定学习率调度并使用Adafactor优化器Shazeer 和 Stern2018进行微调。我们使用打包Raffel 等2020将多个训练示例组合成一个序列使用序列结束标记将输入与目标分开。应用掩码以防止标记跨越打包示例边界相互关注。每个模型的微调步数、学习率、批量大小和dropout值见附录E。对于每个模型我们使用单个检查点进行所有评估最佳步数是基于对保留任务的定期评估每2k到10k步取决于模型规模选择的并且在给定模型的所有消融运行中使用相同的检查点步数。值得注意的是微调使用的计算量相对于训练计算量仅占很小一部分如表2所示。例如我们仅使用0.2%的预训练计算量来对Flan-PaLM 540B进行指令微调约512个v4 TPU芯片运行37小时。我们使用基于JAX的T5X框架Bradbury 等2018Roberts 等2022。 2.3 评估协议
评估基准。我们重点关注未包含在微调数据中的保留任务的性能。我们对Flan-PaLM在世界知识和推理任务上的整体能力感兴趣。因此我们在多种不同的基准上评估模型包括多语言基准。我们没有使用Brown等2020的评估集因为几乎所有那些任务的训练集都包含在我们的微调混合数据中。相反我们使用以下具有挑战性的基准当前的语言模型在这些基准上的表现仍远低于人类专家评分者。1MMLUHendrycks等2020包括来自57个任务的考试问题如数学、历史、法律和医学。2BBH包括来自BIG-BenchSrivastava等2022的23个具有挑战性的任务PaLM在这些任务上的表现低于人类评分者的平均水平Suzgun等2022。3TyDiQAClark等2020是一个涵盖8种类型多样语言的问答基准。4MGSMShi等2022是一个多语言数学应用题基准数据来自Cobbe等2021并手动翻译成10种语言。这些基准也在PaLM论文Chowdhery等2022中使用该论文未发现与预训练数据存在任何有意义的数据污染这与之前工作中的数据污染分析一致Brown等2020Wei等2021Du等2022。负责任的人工智能评估在附录C中讨论。
评估方法和指标。对于MMLU和BBH我们评估了通过直接提示模型直接给出答案Brown等2020Srivastava等2022和链式思维CoT提示模型在给出最终答案前必须提供推理链Wei等2022b的能力。对于TyDiQA我们仅测量直接提示的精确匹配分数因为突出显示包含正确答案的段落部分可能不需要复杂的推理。对于MGSM我们仅测量CoT提示的准确性因为直接提示的性能非常低。对于所有基准我们使用给定的少样本示例示例数量遵循先前的工作MMLU为五样本BBH为三样本TyDiQA为单样本MGSM为八样本。对于给定模型我们还报告了一个“归一化平均值”指标遵循BIG-Bench中的“归一化优选指标”Srivastava等2022。我们的归一化平均值指标是六个归一化分数的宏观平均值MMLU-直接、MMLU-CoT、BBH-直接、BBH-CoT、TyDiQA-直接和MGSM-CoT。每个基准中所有任务的结果见附录D。一些负责任的人工智能基准使用附录C中描述的生成任务的额外方法。
3 扩展到5400亿参数和1.8K任务
我们首先研究了在1模型规模和2微调任务数量方面的扩展对保留任务性能的影响。我们通过在三种PaLM模型规模8B、62B和540B上进行实验来扩展模型规模。为了扩展任务数量我们依次添加任务混合集从任务最少的混合集开始逐步增加到任务最多的混合集CoT、Muffin、T0-SF和NIV2。
图4展示了这两个变量的扩展对保留基准归一化平均值的联合影响。各个基准的结果见表3。首先我们可以看到对于所有三种模型规模多任务指令微调相比未微调的模型显著提升了性能性能提升范围在9.4%到15.5%之间。
其次增加微调任务数量可以提高性能尽管大部分改进来自于使用最多282个任务。对于超过282个任务后性能提升较小的现象有两种可能的解释。一种解释是额外的任务多样性不足因此未能为模型提供新的知识。另一种解释是多任务指令微调的大部分收益来自于模型学习更好地表达其从预训练中已经掌握的知识而超过282个任务并没有带来太多帮助。第二种解释可能更合理因为预训练数据包含7800亿个token而指令微调仅使用了14亿个token占预训练token的0.2%。
最后我们发现将模型规模扩大一个数量级即从8B到62B或从62B到540B显著提升了微调和未微调模型的性能。需要注意的是确定指令微调对小模型还是大模型的改进更大与未微调的基线相比可能较为复杂。例如尽管8B模型的绝对增益大于540B模型8B为15.5%540B为9.4%但540B模型的错误率相对减少幅度更大540B为18.4%8B为16.6%。
绘制这些扩展曲线为我们提供了关于进一步扩展模型规模和任务数量如何提升性能的洞察。将模型规模再扩大一个数量级尽管具有挑战性预计会带来显著的性能提升。扩展微调任务数量也应能提高性能尽管可能只是逐步的改进。总体而言绘制的扩展曲线表明未来的工作应继续扩展指令微调。 4 使用链式思维注释进行微调
Flan微调的目标是生成一个在多种评估中表现更好的检查点这包括多步推理能力以及传统的NLP任务。在本节中我们探讨了在指令微调混合数据中包含链式思维CoT数据的效果。首先我们展示了Flan-PaLM在多个基准测试中超越先前模型的改进推理能力。然后我们通过消融实验分析了CoT微调数据结果表明没有CoT的指令微调实际上会降低推理能力而仅包含九个CoT数据集即可在所有评估中提升性能。最后我们展示了CoT微调通过在具有挑战性的BIG-Bench任务中使用“让我们逐步思考”来实现零样本推理的能力。
4.1 使用链式思维微调提高了对保留任务的推理能力
我们首先展示了在微调混合数据中包含九个带有链式思维CoT注释的数据集可以提高推理能力。表4显示Flan-PaLM在四个保留评估基准上的CoT提示能力优于PaLM。对于BBH我们遵循Suzgun等2022的协议将任务分为NLP任务和算法任务。
表4还展示了如何将CoT提示与自一致性SCWang等2022b结合以在多个基准测试中实现新的最先进性能。例如在MMLU基准测试Hendrycks等2020中Flan-PaLM 540B达到了75.2%。这显著优于之前的模型PaLM 69.3%code-davinci-002 68.3%Chinchilla 67.6%。在多语言数学问题基准MGSM上使用CoT SC的Flan-PaLM显著提升了SOTA性能即使在低资源语言上也表现出色例如在孟加拉语上达到69.6%。相比之下使用CoT SC的PaLM在法语和德语等高资源语言上仅分别达到63.6%和61.2%。最后在GSM8KCobbe等2021表中未显示上使用CoT SC的Flan-PaLM实现了新的SOTA达到83.9%但需要注意的是GSM8K的训练数据集包含在指令微调混合数据中。 我们还注意到Flan-PaLM在某些专门模型上并未达到SOTA最先进水平。例如在BBH-algo包含仅需要符号操作的任务例如保持一组乱序对象的顺序、按字母顺序对单词列表进行排序上即使使用CoT SCFlan-PaLM也未能超越code-davinci-002。此外尽管Flan-PaLM在单样本TyDiQA上比PaLM提升了14.9%但仍未达到在TyDiQA训练集上微调的ByT5的水平Xue等2022。
4.2 需要一些链式思维数据以保持推理能力
接下来我们通过消融实验分析了在指令微调中仅包含九个CoT数据集的效果。我们将评估分为保留的CoT基准MMLU、BBH和MGSM和保留的非CoT基准MMLU、BBH和TyDiQA并分别计算CoT和非CoT的归一化平均值。在图5-左中结合非CoT和CoT微调在保留的CoT基准上的性能优于仅使用CoT微调。图5-右证实正如预期的那样与非CoT微调相比结合CoT和非CoT微调不会影响非CoT任务的性能。
一个重要的问题是图5-左还表明为了保持这种推理能力微调一些CoT示例是至关重要的因为仅对非CoT数据进行微调会显著降低CoT任务的性能如绿线所示。这种性能下降可能令人惊讶因为之前的多项研究发现指令微调可以提高对未见任务的性能Wei等2021Sanh等2021Wang等2019aMin等2022及其他。然而之前的工作仅评估了保留的NLP任务例如微调除情感分析之外的所有任务然后在情感分析基准上进行评估而且之前的模型通常规模较小无法成功进行CoT推理。综合来看这一消融实验可以解释为当未见任务与微调任务处于相同的提示范式即非CoT或CoT时指令微调可以提高对未见任务的性能。因此需要同时包含非CoT和CoT数据以提升模型在所有评估中的能力。
4.3 解锁零样本推理
在CoT数据上进行指令微调的另一个最终好处是无论是否使用示例生成的模型都能够在零样本设置中执行CoT推理。这种零样本设置很重要因为它测试了模型在没有少样本CoT示例的情况下生成自身推理技能的能力而这通常需要大量的提示工程来正确构建。
图6显示在包含23个未见挑战性BIG-Bench任务的BBH基准测试中Flan-PaLM模型通过利用“让我们逐步思考”这一短语激活的CoT推理Kojima等2022能够实现性能提升。相比之下未经微调的PaLM无法生成能够解决这些问题的CoT。图7展示了PaLM和Flan-PaLM在零样本CoT中的三个示例。
尽管PaLM在零样本CoT上的负面结果可能与Kojima等2022的研究结果看似矛盾但仔细比较后发现它们并不矛盾。该论文中大多数成功的零样本CoT实验实际上利用了InstructGPTOuyang等2022而InstructGPT经过了指令微调我们假设这种指令微调包含了一些类似CoT的数据。在未经微调的PaLM上成功进行的零样本CoT实验仅针对数学应用题这与BBH中的问题类型有显著不同。 温馨提示 阅读全文请访问AI深语解构 FLAN-T5规模化指令微调的语言模型