徐汇网站建设,专业建站提供商,网页美工用什么软件,网站新手引导怎么做数据 大语言模型 数据WebText和OpenWebText数据集Colossal Clean Crawled Corpus#xff08;C4#xff09;Benchmark的数据污染问题GPT-3的数据集The Pile数据集 WebText和OpenWebText数据集
WebText数据集被用于训练GPT-2模型。其目标是获取既多样化又高质量的数据集。以前…数据 大语言模型 数据WebText和OpenWebText数据集Colossal Clean Crawled CorpusC4Benchmark的数据污染问题GPT-3的数据集The Pile数据集 WebText和OpenWebText数据集
WebText数据集被用于训练GPT-2模型。其目标是获取既多样化又高质量的数据集。以前的研究主要是在新闻、维基百科或小说等数据集上进行训练而Common Crawl包含了大量的垃圾信息如无意义文本和模板文本。Trinh和Le在2018年根据n-gram与目标任务的重叠性选择了Common Crawl的一小部分。创建WebText的过程包括抓取至少获得3个赞的所有外链过滤掉维基百科以便在基于维基百科的基准测试中进行评估最终得到了40GB的文本。
尽管OpenAI并没有公开发布WebText数据集但OpenWebText数据集在理念上复制了WebText的构建方法。也就是说虽然OpenWebText并非OpenAI直接发布的WebText的副本但它遵循了WebText的制作思路和方法目的是尽可能地模拟和复现WebText的数据特性和结构。这样研究者们就可以利用OpenWebText来进行一些原本需要WebText数据集的实验和研究。OpenWebText从Reddit提交的数据集中提取所有URL使用Facebook的fastText过滤掉非英语内容删除近乎重复的内容最终得到了38GB的文本。
在2020年的RealToxicityPrompts研究中Gehman等人对这两个数据集进行了毒性分析OpenWebText有2.1%的内容毒性得分50%WebText有4.3%的内容毒性得分50%。新闻的可靠性与毒性负相关Spearman ρ−0.35并且OpenWebText中有3%的内容来自被禁止或被隔离的subreddits如/r/The_Donald和/r/WhiteRights。
Colossal Clean Crawled CorpusC4
C4语料库被用来训练T5模型。这个语料库从2019年4月的Common Crawl快照1.4万亿个标记开始移除了“bad words”移除了代码“{”通过langdetect过滤掉了非英语文本最终得到了806GB的文本1560亿个标记。
Dodge等人在2021年对C4数据集进行了深入分析。分析主要涉及以下几个方面
元数据来源话语数据。 包含的数据由机器或人类创作的社会偏见数据污染。 排除的数据医疗或健康数据人口身份。 值得注意的是Raffel等人在2020年的研究中只提供了重建脚本仅运行这些脚本就需要数千美元。而且令人惊讶的是大量数据来自patents.google.com。互联网档案中的65%页面都被纳入其中而在这些页面中92%的页面是在过去十年内编写的。然而虽然美国托管的页面占到了51.3%来自印度的页面数量却相对较少尽管那里有大量的英语使用者。另外来自patents.google.com的一些文本是自动生成的因此可能存在系统性的错误例如用外国的官方语言如日语提交的专利将自动翻译成英语另一些则是由光学字符识别OCR自动生成的。
Benchmark的数据污染问题
当我们评估大型语言模型的能力时我们常常会使用一些基准数据例如问题-答案对。然而若基准数据在模型的训练数据中出现过基准性能就可能会产生偏差。一般而言在机器学习中保证训练数据和测试数据的分离我们称之为数据卫生相对容易。但对于大型语言模型训练数据和基准数据都源自互联网要事先保证它们的完全分离就显得有些困难。
以XSum摘要数据集为例输入的是一段关于一个前阿森纳门将的介绍而输出则是这位门将被任命为技术主管的新闻细节如下面的例子。这就存在两种类型的污染。一种是输入和输出污染即输入和输出都出现在训练数据中其比例在1.87%至24.88%之间。另一种是只有输入在训练数据中出现比如来自维基百科的QNLI数据集这种污染的比例在1.8%至53.6%之间。
**Input**: _The 48-year-old former Arsenal goalkeeper played for the Royals for four years. He was appointed youth academy director in 2000 and has been director of football since 2003. A West Brom statement said: “He played a key role in the Championship club twice winning promotion to the Premier League in 2006 and 2012.
**Output**: _West Brom have appointed Nicky Hammond as technical director, ending his 20-year association with Reading._GPT-3的数据集
GPT-3的数据集主要源自Common Crawl而Common Crawl又类似于一个参考数据集——WebText。GPT-3下载了41个分片的Common Crawl数据2016-2019年。通过训练一个二元分类器来预测WebText与Common Crawl的区别如果分类器认为文档更接近WebText那么这个文档就有更大的概率被保留。在处理数据时GPT-3采用了模糊去重的方法检测13-gram重叠如果在少于10个训练文档中出现则移除窗口或文档并从基准数据集中移除了数据。此外GPT-3也扩大了数据来源的多样性包括WebText2、Books1、Books2以及维基百科。在训练过程中Common Crawl被降采样它在数据集中占82%但只贡献了60%的数据。
然而GPT-3也暗示了我们除了网络爬虫之外也许还可以寻找其他更高质量的数据来源。EleutherAI一个致力于构建开放语言模型的非营利组织进一步推动了这个想法。他们发布了一种语言模型的数据集名为The Pile其核心理念是从较小的高质量数据源如学术和专业资源中获取数据。
The Pile数据集
The Pile数据集包含了825GB的英文文本由22个高质量数据集组成。当用这个数据集训练GPT-2Pile1.5B参数并与用GPT-3数据集训练的GPT-3175B参数进行比较时研究者们发现The Pile包含了大量GPT-3数据集未能很好覆盖的信息。他们还分析了贬损内容、性别/宗教偏见等问题结果与以前的研究大致相同。
总的来说网络和私有数据的总量是巨大的但是简单地将所有数据甚至是Common Crawl都用于训练并不能有效地利用计算资源。数据的过滤和策划如OpenWebTextC4GPT-3数据集是必要的但可能会导致偏见。策划非网络的高质量数据集如The Pile是有前途的但也需要仔细记录和审查这些数据集。