企业网站推广的重要性,钢丝网片每平米价格,自己制作app需要什么,仿土巴兔网站建设本文解析 OpenAI 2019 年发布的里程碑式论文#xff0c;该论文首次提出了 GPT-2 模型#xff0c;揭示了语言模型作为无监督多任务学习器的革命性潜力。文章的核心观点是#xff1a;语言模型在无监督训练过程中#xff0c;可以隐式地学习多种任务#xff0c;无需特定任务微…本文解析 OpenAI 2019 年发布的里程碑式论文该论文首次提出了 GPT-2 模型揭示了语言模型作为无监督多任务学习器的革命性潜力。文章的核心观点是语言模型在无监督训练过程中可以隐式地学习多种任务无需特定任务微调或监督信号。
文章链接Language Models are Unsupervised Multitask Learnershttps://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
Abstract摘要
自然语言处理任务如问答、机器翻译、阅读理解、摘要生成通常通过在特定任务的数据集上进行监督学习来解决。我们证明当在一个包含数百万网页、名为WebText的新数据集上训练时语言模型开始在没有显式监督的情况下学习这些任务。当给定一个文档加上问题时语言模型生成的答案在CoQA数据集上达到55 F1分——在不使用超过127,000个训练示例的情况下匹配或超过了4个基线系统中的3个。语言模型的容量对于零样本任务迁移的成功至关重要增加容量以对数线性方式跨任务提升性能。我们最大的模型GPT-2是一个拥有15亿参数的Transformer在零样本设置下在8个测试语言建模数据集中的7个上取得了最先进的结果但仍然对WebText欠拟合。模型的采样结果反映了这些改进并包含连贯的文本段落。这些发现为构建通过自然发生演示学习执行任务的语言处理系统指明了一条有希望的道路。
1. Introduction介绍
机器学习系统现在在期望上擅长于通过结合大型数据集、高容量模型和监督学习来完成它们被训练的任务(Krizhevsky et al.,2012)(Sutskever et al.,2014)(Amodei et al.,2016)。然而这些系统很脆弱对数据分布(Recht et al., 2018)和任务规范(Kirkpatrick et al.,2017)的微小变化很敏感。当前的系统更像是狭窄的专家而非有能力的通才。我们希望朝着更通用的系统迈进这些系统可以执行许多任务——最终无需为每个任务手动创建和标注训练数据集。
创建机器学习系统的主要方法是收集一个展示期望任务正确行为的训练示例数据集训练一个系统来模仿这些行为然后在独立同分布IID的保留示例上测试其性能。这对于发展狭窄专家效果很好。但是图说模型(Lake et al.,2017)、阅读理解系统(Jia Liang,2017)和图像分类器(Alcorn et al., 2018)在多样化和各种可能输入上表现出的经常不稳定的行为突显了这种方法的一些缺点。
我们怀疑在单一领域数据集上进行的单任务训练的普遍性是导致当前系统缺乏泛化能力的主要原因。利用当前架构向鲁棒系统取得进展很可能需要在广泛的领域和任务上进行训练和性能测量。最近提出了几个基准如GLUE(Wang et al., 2018) 和 decaNLP(McCann et al., 2018)以开始研究这个问题。
多任务学习(Caruana, 1997)是提高通用性能的一个有前景的框架。然而自然语言处理中的多任务训练仍处于早期阶段。最近的工作报告了适度的性能改进(Yogatama et al.,2019)迄今为止最雄心勃勃的两项努力分别训练了总共10对和17对数据集目标(McCann et al., 2018)(Bowman et al.,2018)。从元学习的角度来看每对数据集目标都是从数据集和目标分布中采样的单个训练示例。当前的机器学习系统需要成百上千个示例来归纳泛化良好的函数。这表明利用当前方法实现多任务训练的承诺可能需要同样多的有效训练对。继续将数据集的创建和目标的设计扩展到当前技术可能需要的程度以“暴力”突破brute force our way there将非常困难。这促使我们探索执行多任务学习的额外设置。 图1. WebText语言模型在不同NLP任务上的零样本任务性能作为模型规模的函数。 阅读理解结果基于CoQA(Reddy et al., 2018)翻译结果基于WMT-14 Fr-En(Artetxe et al., 2017)摘要结果基于CNN and Daily Mail(See et al., 2017)问答结果基于Natural Questions(Kwiatkowski et al., 2019)。第3章节包含每个结果的详述。
当前在语言任务上表现最佳的系统利用预训练和监督微调的组合。这种方法由来已久并呈现出向更灵活迁移形式发展的趋势。首先学习词向量并将其用作任务特定架构的输入(Mikolov et al., 2013)(Collobert et al., 2011)然后迁移循环网络的上下文表示(Dai Le, 2015)(Peters et al., 2018)最近的研究表明任务特定架构不再必要迁移多个自注意力块就足够了(Radford et al., 2018)(Devlin et al., 2018)。
这些方法仍然需要监督训练来执行任务。当只有极少或没有监督数据可用时另一项工作展示了语言模型执行特定任务的潜力例如常识推理(Schwartz et al., 2017)和情感分析(Radford et al., 2017)。
在本文中我们将这两条工作线联系起来并延续更通用的迁移方法的趋势。我们证明语言模型可以在零样本设置下执行下游任务——无需任何参数或架构修改。我们通过强调语言模型在零样本设置下执行广泛任务的能力来证明这种方法具有潜力。根据任务的不同我们取得了有希望的、有竞争力的和最先进的结果。
2. Approach方法
我们方法的核心是语言建模。语言建模通常被构架为从一组示例中进行无监督分布估计每个示例由可变长度的符号序列组成。由于语言具有自然的顺序性通常将符号上的联合概率分解为条件概率的乘积(Jelinek Mercer, 1980)(Bengio et al., 2003) 这种方法允许从 以及任何形式为 的条件分布中进行可处理的采样和估计。近年来在计算这些条件概率的模型表达能力方面取得了显著改进例如像Transformer(Vaswani et al.,2017)这样的自注意力架构。
学习执行单个任务可以在概率框架中表示为估计一个条件分布 。由于一个通用系统应该能够执行许多不同的任务即使对于相同的输入它也不应仅以输入为条件还应以要执行的任务为条件。也就是说它应该建模 。这在多任务和元学习设置中已被各种形式化。任务条件设定通常在架构层面实现例如(Kaiser et al., 2017)中的任务特定编码器和解码器或在算法层面实现例如MAML(Finn et al., 2017)的内外环优化框架。但正如McCann et al.(2018)所例证的那样语言提供了一种灵活的方式来将任务、输入和输出全部指定为符号序列。例如一个翻译训练示例可以写成序列(translate to french, english text, french text)。同样一个阅读理解训练示例可以写成(answer the question, document, question, answer)。McCann et al.(2018)证明了可以训练一个单一模型即MQAN在这种格式的示例上推断和执行许多不同的任务。
原则上语言建模也能够学习McCann et al.(2018)的任务而无需明确监督哪些符号是要预测的输出。由于监督目标与无监督目标相同但仅评估序列的一个子集无监督目标的全局最小值也是监督目标的全局最小值。在这个稍微理想化的设置中回避了(Sutskever et al.,2015)中讨论的将密度估计作为原则性训练目标的担忧。问题反而变成了我们是否能够在实践中优化无监督目标直至收敛。初步实验证实足够大的语言模型能够在这个类玩具的设置中进行多任务学习但学习速度比显式监督方法慢得多。
虽然从上述定义良好的设置到“野外语言”的混乱性是一个巨大的跨越但Weston(2016)在对话的背景下主张有必要开发能够直接从自然语言中学习的系统并通过前向预测教师的输出来演示了一个概念证明——在没有奖励信号的情况下学习问答任务。虽然对话是一种有吸引力的方法但我们担心它过于受限。互联网包含大量被动可用的信息无需交互式通信。我们的推测是具有足够容量的语言模型将开始学习推断和执行自然语言序列中演示的任务以便更好地预测它们无论其获取方法如何。如果语言模型能够做到这一点那么实际上它就是在执行无监督多任务学习。我们通过分析语言模型在零样本设置下在各种任务上的表现来测试这一点是否成立。
2.1. Training Dataset训练集
大多数先前的工作在单一文本领域训练语言模型例如新闻文章(Jozefowicz et al.,2016)、维基百科(Merity et al., 2016)或小说(Kiros et al., 2015)。我们的方法激励构建尽可能大且多样化的数据集以便在不同领域和上下文中尽可能多地收集任务的自然语言演示。
一个充满希望且几乎无限的多样化文本来源是网络抓取数据例如Common Crawl。虽然这些存档比当前的语言建模数据集大好几个数量级但它们存在严重的数据质量问题。Trinh Le(2018)在他们关于常识推理的工作中使用了Common Crawl但注意到大量文档“其内容大多难以理解”。我们在最初使用Common Crawl的实验中观察到了类似的数据问题 “Im not the cleverest man in the world, but like they say in French: Je ne suis pas un imbecile[Im not a fool]. In a now-deleted post from Aug. 16, Soheil Eid, Tory candidate in the riding of Joliette, wrote in French:Mentez mentez,il en restera toujours quelque chose, which translates as,Lie lie and something will always remain. “I hate the word‘perfume,” Burr says.‘It’s somewhat better in French:‘parfum.’ If listened carefully at 29:55, a conversation can be heard between two guys in French:“-Comment on fait pour aller de lautre cote?-Quel autre cote?, which means“- How do you get to the other side?- What side? If this sounds like a bit of a stretch, consider this ques-tion in French: As-tu aller au cinéma?, or Did you go to the movies?, which literally translates as Have-you to go to movies/theater? “Brevet Sans Garantie Du Gouvernement”, translated to English:“Patented without government warranty”.
表 1. 在WebText训练集中各处发现的英法互译自然发生演示示例。
Trinh Le(2018)的最佳结果是使用Common Crawl的一个小子样本实现的该子样本仅包含与其目标数据集Winograd Schema Challenge最相似的文档。虽然这是提高特定任务性能的实用方法但我们希望避免事先对要执行的任务做出假设。
相反我们创建了一个新的网络抓取数据集强调文档质量。为此我们仅抓取经过人工筛选/过滤的网页。手动过滤整个网络抓取数据会异常昂贵因此作为一个起点我们抓取了Reddit一个社交媒体平台上所有获得至少3个karma的外链。这可以被视为一种启发式指标用于判断其他用户是否认为该链接有趣、有教育意义或只是好笑。
所得的数据集WebText包含了来自这4500万个链接的文本子集。为了从HTML响应中提取文本我们结合使用了Dragnet(PetersLecocq, 2013)和Newspaper内容提取器。本文呈现的所有结果均使用了WebText的一个初步版本该版本未包含2017年12月之后创建的链接并且在去重和一些基于启发式的清理之后包含略超过800万个文档总计40GB文本。我们从WebText中移除了所有维基百科文档因为它是其他数据集的常见来源并且由于与测试评估任务存在重叠的训练数据可能会使分析复杂化。
2.2. Input Representation输入表示
一个通用的语言模型LM应该能够计算并生成任何字符串的概率。当前的大规模LM包括预处理步骤例如小写转换、分词和词汇表外out-of-vocabulary词符这些步骤限制了可建模字符串的空间。虽然像Gillick et al.(2015)等工作所例示的那样将Unicode字符串作为UTF-8字节序列处理可以优雅地满足这一要求但当前的字节级LM在大型数据集如One Billion Word Benchmark(Al-Rfou et al., 2018)上无法与词级LM竞争。我们在尝试在WebText上训练标准字节级LM时也观察到了类似的性能差距。
字节对编码BPE(Sennrich et al., 2015)是字符级和词级语言建模之间的一种实用折中方案它有效地在频繁符号序列的词级输入和不频繁符号序列的字符级输入之间进行插值。尽管其名称如此参考的BPE实现通常操作在Unicode码点code point上而非字节序列。这些实现需要包含完整的Unicode符号空间才能建模所有Unicode字符串。这会导致在添加任何多符号词符之前基础词汇表就超过130,000个。这相比于BPE通常使用的32,000到64,000个词符的词汇表来说是大得无法接受的。相比之下字节级的BPE版本仅需要大小为256的基础词汇表。然而直接将BPE应用于字节序列会导致次优的合并因为BPE使用基于频率的贪婪启发式方法来构建词符词汇表。我们观察到BPE包含了常见单词如“dog”的许多变体因为它们以多种形式出现例如“dog.”、“dog!”、“dog?”。这导致了对有限词汇表槽位和模型容量的次优分配。为了避免这种情况我们阻止BPE跨任何字节序列的字符类别进行合并。我们为空格添加了一个例外这显著提高了压缩效率同时仅对跨多个词汇表词符的单词添加了最小的碎片化。
这种输入表示使我们能够结合词级LM的经验优势与字节级方法的通用性。由于我们的方法可以为任何Unicode字符串分配概率这使我们能够评估我们的LM在任何数据集上而无论其预处理、分词或词汇表大小如何。
2.3. Model模型
我们使用基于Transformer(Vaswani et al., 2017)的架构作为我们的LM。该模型在很大程度上遵循了OpenAI GPT模型(Radford et al., 2018)的细节并做了一些修改。层归一化(Ba et al., 2016)被移到每个子块的输入处类似于预激活残差网络(He et al., 2016)并且在最终的自注意力块之后添加了一个额外的层归一化。使用了一种修改后的初始化方法该方法考虑了模型深度在残差路径上的累积。我们在初始化时将残差层的权重按 的比例缩放其中 N 是残差层的数量。词汇表扩展到50,257。我们还将上下文大小从512个词符增加到1024个词符并使用更大的批大小为512。
参数数量层数d_model117M12768345M241024762M3612801542M481600
表 2. 4种模型规模的架构超参数。
3. Experiments实验
我们训练并评估了四个大小近似对数均匀分布的语言模型LM。架构总结在表2中。最小的模型等同于原始GPT第二小的模型等同于BERT(Devlin et al., 2018)中最大的模型。我们最大的模型称为GPT-2其参数数量比GPT多一个数量级。每个模型的学习率均在WebText的5%保留样本上手动调整以获得最佳困惑度perplexity。所有模型仍然对WebText欠拟合并且随着训练时间增加保留困惑度仍在持续改善。
3.1. Language Modeling语言建模
作为迈向零样本任务迁移的第一步我们感兴趣的是了解WebText LM在其主要训练任务——语言建模上在零样本领域迁移中的表现如何。由于我们的模型在字节级别运行不需要有损的预处理或分词我们可以在任何语言模型基准上评估它。语言建模数据集的结果通常以一种经过缩放或指数化的量来报告该量表示每个规范预测单位通常是一个字符、一个字节或一个词的平均负对数概率。我们通过根据WebText LM计算数据集的概率对数然后除以规范单位的数量来评估相同的量。对于其中许多数据集WebText LM将面临显著分布外out-of-distribution的测试必须预测经过激进标准化的文本、分词伪影如断开的标点和缩略词、打乱的句子甚至是字符串UNK这在WebText中极为罕见——在400亿字节中仅出现26次。我们使用可逆的反分词器de-tokenizers来去除尽可能多的这些分词化/预处理伪影在表3中报告了我们的主要结果。由于这些反分词器是可逆的我们仍然可以计算数据集的概率对数并且可以将它们视为领域适应的简单形式。我们观察到使用这些反分词器GPT-2的困惑度提高了2.5到5。
WebText LM在跨领域和数据集上迁移良好在零样本设置下在8个数据集中的7个上提高了技术水平。在仅包含100万到200万训练词符的小型数据集上观察到了巨大的改进例如Penn Treebank和WikiText-2。在为测量长期依赖关系而创建的数据集上也观察到了巨大的改进例如LAMBADA(Paperno et al., 2016)和儿童图书测试(Childrens Book Test)(Hill et al., 2015)。我们的模型在One Billion Word Benchmark(Chelba et al., 2013)上仍然显著差于先前的工作。这很可能是由于它既是最大的数据集又进行了最具破坏性的预处理——1BW的句子级打乱移除了所有长期结构。
LAMBADA (PPL)LAMBADA (ACC)CBT-CN (ACC)CBT-NE (ACC)WikiText2 (PPL)PTB (PPL)enwik8 (BPB)text8 (BPC)WikiText103 (PPL)1BW (PPL)SOTA99.859.2385.782.339.1446.540.991.0818.321.8117M35.1345.9987.6583.429.4165.851.161.1737.5075.20345M15.6055.4892.3587.122.7647.331.011.0626.3755.72762M10.8760.1293.4588.019.9340.310.971.0222.0544.5751542M8.6363.2493.3089.0518.3435.760.930.9817.4842.16
表 3. 在许多数据集上的零样本结果。 这些结果均未进行任何训练或微调。PTB和WikiText-2结果来自(Gong et al., 2018)。CBT结果来自(Bajgar et al., 2016)。LAMBADA准确率结果来自(Hoang et al., 2018)LAMBADA困惑度结果来自(Grave et al., 2016)。其他结果来自(Dai et al., 2019)。
3.2. Childrens Book Test儿童图书测试 图2. 儿童图书测试Childrens Book Test上的性能表现作为模型容量的函数。 人类表现数据来自 Bajgar et al. (2016)替代了原始论文中低得多的估值。
儿童图书测试(CBT)(Hill et al., 2015)是为了检验LM在不同类别词上的表现而创建的命名实体、名词、动词和介词。该测试不是报告困惑度作为评估指标而是报告在一个自动构建的完形填空测试cloze test上的准确率其中任务是从10个可能的选项中预测哪个词是省略词的正确选择。遵循原始论文中介绍的LM方法我们计算每个选项以及根据LM在该选项条件下的句子其余部分的概率并预测具有最高概率的选项。如图2所示随着模型规模的增大性能稳步提升并缩小了与人类在该测试上表现的大部分差距。数据重叠分析显示CBT测试集中的一本书Rudyard Kipling的《The Jungle Book》存在于WebText中因此我们报告在验证集上的结果该验证集没有显著重叠。GPT-2在常见名词上达到了新的最先进结果93.3%在命名实体上达到89.1%。应用了反分词器以去除CBT中的PTB风格分词伪影。
3.3. LAMBADA
LAMBADA数据集(Paperno et al., 2016)测试系统对文本中长期依赖关系建模的能力。任务是预测句子的最后一个词该句子需要至少50个词符的上下文才能使人类成功预测。GPT-2将最先进水平从99.8(Grave et al.,2016)提升到8.6困惑度并将LM在此测试上的准确率从19%(Dehghani et al.,2018)提高到52.66%。对GPT-2错误的调查显示大多数预测是句子的有效延续但不是有效的结尾词。这表明LM没有利用额外的有用约束即该词必须是句子的结尾。添加停用词过滤器stop-word filter作为该约束的近似进一步将准确率提高到63.24%将该任务的整体最先进水平提高了4%。先前的最先进水平(Hoang et al., 2018)使用了不同的受限预测设置其中模型的输出被限制为仅出现在上下文中的词。对于GPT-2这种限制是有害的而非有益的因为19%的答案不在上下文中。我们使用了该数据集的一个未经预处理的版本。
3.4. Winograd Schema ChallengeWinograd模式挑战 图3. Winograd模式挑战Winograd Schema Challenge上的性能表现作为模型容量的函数。
Winograd模式挑战(Levesque et al., 2012)旨在通过测量系统解决文本中歧义的能力来衡量其执行常识推理的能力。最近Trinh Le(2018)证明了使用LM在该挑战上取得的显著进展通过以更高的概率预测歧义的解决方案。我们遵循他们的问题公式化方法并在图3中使用完整和部分评分技术可视化我们模型的性能。GPT-2将最先进准确率提高了7%达到70.70%。该数据集非常小只有273个示例因此我们建议阅读Trichelair et al.(2018)以帮助理解此结果。
3.5. Reading Comprehension阅读理解
对话问答数据集(CoQA)(Reddy et al., 2018)包含来自7个不同领域的文档与提问者和回答者关于文档的自然语言对话配对。CoQA测试阅读理解能力以及模型回答依赖于对话历史的问题例如“Why?”的能力。
当以文档、相关对话历史以及最终词符“A:”为条件时GPT-2的贪婪解码在开发集上达到55 F1分。这匹配或超过了4个基线系统中的3个而不使用这些基线训练所需的超过127,000个人工收集的问题-答案对。监督的最先进水平一个基于BERT的系统(Devlin et al., 2018)接近人类89 F1的性能。虽然GPT-2在没有任何监督训练的情况下的性能令人兴奋但对其答案和错误的一些检查表明GPT-2经常使用简单的基于检索的启发式方法例如在回答“who”问题时使用文档中的一个名字。
3.6. Summarization总结
我们在CNN和Daily Mail数据集(Nallapati et al., 2016)上测试了GPT-2执行摘要生成的能力。为了诱导摘要行为我们在文章后添加文本“TL;DR:”并使用 k2 的Top-k随机采样(Fan et al., 2018)生成100个词符这减少了重复并鼓励比贪婪解码更具抽象性的摘要。我们使用这100个词符中的前3个生成句子作为摘要。虽然定性地看生成结果类似于摘要如表14所示注原文表14未提供此处指代模型生成示例但它们通常关注文章中最近的内容或者混淆了具体细节例如在一次车祸中涉及了多少辆汽车或者标志是在帽子还是衬衫上。在通常报告的ROUGE 1,2,L指标上生成的摘要仅开始接近经典神经基线的性能并且仅略优于从文章中随机选择3个句子。当移除任务提示时GPT-2的性能在聚合指标上下降了6.4分这证明了用自然语言在语言模型中调用任务特定行为的能力。
R-1R-2R-LR-AVGBottom-Up Sum41.2218.6838.3432.75Lede-340.3817.6636.6231.55Seq2SeqAttn31.3311.8128.8323.99GPT-2 TL;DR:29.348.2726.5821.40Random-328.788.6325.5220.98GPT-2 no hint21.584.0319.4715.03
表 4. 在CNN和Daily Mail数据集上以ROUGE F1指标衡量的摘要性能。 Bottom-Up Sum是来自(Gehrmann et al., 2018)的最先进模型。
3.7. Translation翻译
我们测试GPT-2是否已经开始学习如何将一种语言翻译成另一种语言。为了帮助它推断这是期望的任务我们将语言模型以“english sentence french sentence”格式的示例对上下文为条件然后在最后的提示“english sentence ”之后我们使用贪婪解码从模型中采样并使用第一个生成的句子作为翻译。在WMT-14英法测试集上GPT-2得到5 BLEU分这略差于使用先前无监督词翻译工作中推断的双语词典进行的逐词替换(Conneau et al.,2017b)。在WMT-14法英测试集上GPT-2能够利用其非常强大的英语语言模型表现明显更好达到11.5 BLEU分。这优于(Artetxe et al., 2017)和(Lample et al.,2017)中的几个无监督机器翻译基线但仍然远差于当前最佳无监督机器翻译方法(Artetxe et al., 2019)的33.5 BLEU分。此任务的性能令我们惊讶因为我们有意将非英语网页从WebText中移除作为过滤步骤。为了确认这一点我们在WebText上运行了一个字节级语言检测器仅检测到10MB的法语数据这大约是先前无监督机器翻译研究中常见的单语法语语料库的500倍小。
3.8. Question Answering问题回答
测试语言模型内部包含哪些信息的一个潜在方法是评估它生成事实型问题正确答案的频率。之前在诸如A Neural Conversational Model(Vinyals Le, 2015)等所有信息存储在参数中的神经系统中展示这种行为时由于缺乏高质量评估数据集而报告了定性结果。最近引入的Natural Questions数据集(Kwiatkowski et al., 2019)是更定量地测试这一点的一个有希望的资源。与翻译类似语言模型的上下文以示例问题-答案对为种子这有助于模型推断数据集的简短答案风格。当使用在SQUAD等阅读理解数据集上常用的精确匹配指标评估时GPT-2正确回答了4.1%的问题。作为一个比较点最小的模型没有超过一个极其简单的基线的1.0%准确率该基线为每个问题类型who, what, where等返回最常见的答案。GPT-2正确回答的问题数量是其5.3倍这表明模型容量迄今为止是神经系统在此类任务上表现不佳的主要因素。GPT-2分配给其生成答案的概率校准良好在最自信的1%问题上GPT-2的准确率为63.1%。表5显示了GPT-2在开发集问题上最自信的30个答案。GPT-2的性能仍然远低于将信息检索与抽取式文档问答相结合的开放领域问答系统所达到的30%到50%的范围(Alberti et al., 2019)。
QuestionGenerated AnswerCorrectProbabilityWho wrote the book the origin of species?Charles Darwin83.4%Who is the founder of the ubuntu project?Mark Shuttleworth82.0%Who is the quarterback for the green bay packers?Aaron Rodgers81.1%Panda is a national animal of which country?China√76.8%Who came up with the theory of relativity?Albert Einstein76.4%When was the first star wars film released?197771.4%What is the most common blood type in sweden?A70.6%Who is regarded as the founder of psychoanalysis?Sigmund Freud69.3%Who took the first steps on the moon in 1969?Neil Armstrong66.8%Who is the largest supermarket chain in the uk?Tesco65.3%What is the meaning of shalom in english?peace64.0%Who was the author of the art of war?Sun Tzu59.6%Largest state in the us by land mass?California59.2%Green algae is an example of which type of reproduction?parthenogenesis56.5%Vikram samvat calender is official in which country?India55.6%Who is mostly responsible for writing the declaration of independence?Thomas Jefferson√53.3%What us state forms the western boundary of montana?Montana52.3%Who plays ser davos in game of thrones?Peter DinklageX52.1%Who appoints the chair of the federal reserve system?Janet YellenX51.5%State the process that divides one nucleus into two genetically identical nuclei?mitosis50.7%Who won the most mvp awards in the nba?Michael Jordanx50.2%What river is associated with the city of rome?the Tiber√48.6%Who is the first president to be impeached?Andrew Johnson48.3%Who is the head of the department of homeland security 2017?John Kelly√47.0%What is the name given to the common currency to the european union?Euro√46.8%What was the emperor name in star wars?Palpatine√46.5%Do you have to have a gun permit to shoot at a range?No√46.4%Who proposed evolution in 1859 as the basis of biological development?Charles Darwin45.7%Nuclear power plant that blew up in russia?Chernobyl√45.7%Who played john connor in the original terminator?Arnold Schwarzenegger45.2%
表 5. GPT-2在Natural Questions开发集上生成的最自信的30个答案按其由GPT-2分配的概率排序。 根据第4章节描述的程序这些问题均未出现在WebText中。
4. Generalization vs Memorization泛化与记忆
计算机视觉的最新研究表明常见的图像数据集包含相当数量的近似重复图像。例如CIFAR-10在训练图像和测试图像之间有3.3%的重叠(Barz Denzler, 2019)。这导致机器学习系统的泛化性能被过度报告。随着数据集规模的增加发生类似现象的可能性也随之增加这表明在WebText上可能也发生着类似的情况。因此分析有多少测试数据也出现在训练数据中是很重要的。
为了研究这一点我们创建了包含WebText训练集词符的8-gramn元组的布隆过滤器Bloom filters。为了提高召回率字符串被归一化为仅包含小写字母数字单词并以单个空格作为分隔符。布隆过滤器的构造使得误报率false positive rate的上限为 1081。我们通过生成100万个字符串进一步验证了较低的误报率其中零个被过滤器找到。
这些布隆过滤器使我们能够计算给定一个数据集该数据集中也存在于WebText训练集中的8-gram的百分比。表6显示了针对常见LM基准测试集的重叠分析。常见LM数据集的测试集与WebText训练集有1-6%的重叠平均重叠率为3.2%。有些令人惊讶的是许多数据集与其自身的训练分割有更大的重叠平均重叠率为5.9%。
我们的方法优化了召回率recall虽然对重叠的手动检查显示了许多常见短语但也有许多较长的匹配是由于重复数据造成的。这并非WebText独有。例如我们发现WikiText-103的测试集中有一篇文章也在训练数据集中。由于测试集中只有60篇文章因此至少有1.6%的重叠。可能更令人担忧的是根据我们的程序1BW与其自身的训练集有近13.2%的重叠。
对于Winograd模式挑战我们只发现10个模式与WebText训练集有任何8-gram重叠。其中2个是虚假匹配。在剩余的8个中只有一个模式出现在任何会泄露答案的上下文中。
对于CoQA新闻领域约15%的文档已在WebText中模型在这些文档上的表现大约好3 F1分。CoQA的开发集指标报告了五个不同领域的平均性能我们测量到由于不同领域的重叠导致的性能提升约为0.5-1.0 F1。然而由于CoQA是在WebText链接截止日期之后发布的WebText中并未包含实际的训练问题或答案。
在LAMBADA上平均重叠率为1.2%。对于重叠率大于15%的示例GPT-2的表现大约好2个困惑度。当排除所有有任何重叠的示例重新计算指标时结果从8.6困惑度变为8.7困惑度准确率从63.2%降至62.9%。这种整体结果的微小变化很可能是由于只有1/200的示例具有显著重叠。
总体而言我们的分析表明WebText训练数据与特定评估数据集之间的数据重叠为报告的结果提供了虽小但一致的益处。然而对于大多数数据集我们注意到的重叠并不比标准训练集和测试集之间已经存在的重叠显著更大如表6所强调的那样。
理解并量化高度相似的文本如何影响性能是一个重要的研究问题。更好的去重技术如可扩展的模糊匹配fuzzy matching也可能有助于更好地回答这些问题。目前我们建议在创建新的NLP数据集的训练和测试分割时使用基于n-gram重叠的去重作为一个重要的验证步骤和健全性检查sanity check。
确定WebText LM的性能是否归因于记忆memorization的另一种潜在方法是检查它们在自己保留集held-out set上的表现。如图4所示在WebText的训练集和测试集上的表现是相似的并且随着模型规模的增大而共同提升。这表明即使是GPT-2在许多方面仍然对WebText欠拟合。
GPT-2还能够撰写关于发现会说话的独角兽的新闻文章。表13提供了一个示例。
PTBWikiText-2enwik8text8Wikitext-1031BWDataset train2.67%0.66%7.50%2.34%9.09%13.19%WebText train0.88%1.63%6.31%3.94%2.42%3.75%
表 6. 测试集8-gram与训练集重叠的百分比。 图4. 在WebText上训练的语言模型LMs的性能表现作为模型规模的函数。
5. Related Work相关工作
这项工作的很大一部分测量了在更大数据集上训练的更大语言模型的性能。这与Jozefowicz et al.(2016)的工作类似后者在10亿词基准测试1 Billion Word Benchmark上扩展了基于RNN的语言模型。Bajgar et al.(2016)也通过从古腾堡计划Project Gutenberg创建更大的训练数据集来补充标准训练数据集从而提高了儿童图书测试Childrens Book Test的结果。Hestness et al.(2017)对随着模型容量和数据集规模的变化各种深度学习模型的性能如何变化进行了彻底分析。我们的实验虽然在任务间噪音更大但表明类似的趋势也适用于目标的子任务并延续到10亿1B参数的领域。
生成模型中引人入胜的学习功能此前已有记录例如RNN语言模型中的细胞执行行宽跟踪和引号/评论检测 Karpathy et al.(2015)。对我们的工作更具启发意义的是Liu et al.(2018)的观察即训练用于生成维基百科文章的模型也学会了在不同语言之间翻译名字。
先前的工作探索了过滤和构建大型网页文本语料库的替代方法例如iWeb语料库(Davies, 2018)。
在语言任务的预训练方法方面已有广泛研究。除了引言中提到的那些GloVe(Pennington et al., 2014)将词向量表示学习扩展到整个Common Crawl。文本深度表示学习的一项有影响力的早期工作是Skip-thought向量(Kiros et al., 2015)。McCann et al.(2017)探索了从机器翻译模型衍生的表示的使用Howard Ruder(2018)改进了(Dai Le, 2015)的基于RNN的微调方法。(Conneau et al., 2017a)研究了自然语言推理模型学习的表示的迁移性能(Subramanian et al., 2018)探索了大规模多任务训练。
(Ramachandran et al.,2016)证明了seq2seq模型受益于使用预训练的语言模型作为编码器和解码器进行初始化。最近的工作表明当为困难的生成任务如闲聊对话和基于对话的问答系统进行微调时LM预训练也是有帮助的(Wolf et al.,2019)(Dinan et al.,2018)。
6. Discussion讨论
大量研究致力于学习(Hill et al.2016)、理解(Levy Goldberg, 2014)和批判性评估(Wieting Kiela, 2019)监督和无监督预训练方法的表示。我们的结果表明无监督任务学习是另一个值得探索的有前景的研究领域。这些发现可能有助于解释预训练技术在下游NLP任务中广泛成功的原因因为我们证明了在极限情况下其中一种预训练技术开始直接学习执行任务而无需监督适应或修改。
在阅读理解方面GPT-2在零样本设置下的性能与监督基线具有竞争力。然而在其他任务上例如摘要生成虽然它在定性上执行了任务但根据定量指标其性能仍处于初级阶段。虽然作为研究成果具有启发性但在实际应用方面GPT-2的零样本性能距离可用仍有很大差距。
我们研究了WebText LM在多个经典NLP任务上的零样本性能但还有许多其他任务可以评估。毫无疑问在许多实际任务中GPT-2的性能仍然不比随机好。即使在我们评估的常见任务上例如问答和翻译语言模型只有在拥有足够容量时才开始优于简单基线。
虽然零样本性能为GPT-2在许多任务上的潜在性能建立了基线但通过微调所能达到的上限尚不清楚。在某些任务上GPT-2完全抽象的输出方式与目前在许多问答和阅读理解数据集上最先进的基于抽取式指针网络(Vinyals et al.,2015)的输出有显著不同。鉴于之前GPT微调的成功我们计划在诸如decaNLP和GLUE等基准上进行微调研究特别是因为尚不清楚GPT-2的额外训练数据和容量是否足以克服BERT(Devlin et al., 2018)所证明的单向表示的低效性。
7. Conclusion结论
当在足够大且多样化的数据集上训练大型语言模型时它能够在许多领域和数据集上表现良好。GPT-2在零样本设置下迁移到8个测试语言建模数据集中的7个上达到了最先进的性能。模型能够在零样本设置下执行的多样化任务表明训练用于最大化足够多样化文本语料库似然的高容量模型开始学习如何在无需显式监督的情况下执行数量惊人的任务。