2018网站开发最流行的语言,域名有了怎么建网站,做定制网站怎么样,一个人在线观看免费中文接下来这篇是谷歌的FLAN#xff0c;提出了指令微调这一新范式#xff0c;在2022年发表。 这篇论文指出GPT3的zero-shot性能相比few-shot性能差太多了。他们发现如果对预训练模型进行指令微调能使zero-shot性能显著提升#xff0c;下面右图显示指令微调后zero-shot比GPT3 few…
接下来这篇是谷歌的FLAN提出了指令微调这一新范式在2022年发表。 这篇论文指出GPT3的zero-shot性能相比few-shot性能差太多了。他们发现如果对预训练模型进行指令微调能使zero-shot性能显著提升下面右图显示指令微调后zero-shot比GPT3 few-shot性能都要强。 左图解释了指令微调就是把输入转化为指令的格式然后再去不相关的任务上做微调最后却能提升没见过任务的性能。 指令微调是将前两种范式进行了结合提升了语言模型在推理时的交互响应。 第一种范式就是预训练微调范式针对特定任务需要特定数据集来微调。 第二种范式是gpt3提出的prompting范式把任务相关的示例输入给模型利用模型上下文学习能力来得到想要的输出。 第三种就是本文提出的指令微调范式可以显著提升模型的zero-shot能力。 微调一共使用了62个文本数据集每个数据集又属于不同任务按照任务分类可以分为12类。为了测试模型的zero-shot能力他这里定义了一下没见过的任务他认为只有任务类中所有数据集都没见过那这个任务才算是没见过的任务。以自然语言推理任务为例使用剩余11个任务类中数据集进行微调然后自然语言推理任务中的数据集作为测试集进行测试。 对于每一个数据集作者又定义了10个不同的输入模板这是为了防止模型对某一特定输入过拟合。但后续实验证明效果不明显。 模型使用的是LaMDA的预训练版本然后对其进行指令微调。下图是FLAN的zero-shot性能虽然模型不如GPT3大但是性能却比GPT3要好。 作者做了三个消融实验第一个是考虑参与微调的任务类数量如图中所示随着微调的其他任务增多模型平均性能持续上升。第二个消融是考虑模型大小对于大模型指令微调才有性能提升的作用对于小模型反而性能变差了对于这点可能的解释是对小模型微调会挤占参数空间造成预训练的通用知识遗忘。 最后一个消融是考虑指令格式的作用因为性能提升也可能单纯因为进行了微调扩大了参与训练的语料。以翻译任务为例作者将模型输入分为了三种格式第一种就是简单输入待翻译句子第二种先输入任务名再输入数据集名最后是句子第三种就是指令格式。可以看到还是使用指令格式的输入性能最好也就是说模型提升纯粹是因为指令这种格式。