做电脑图标的网站,上海定制网站建设公司哪家好,大连建设工程项目管理信息网,店面设计说明微软、OpenAI、Cohere等公司已经开始测试使用合成数据来训练AI模型。Cohere首席执行官Aiden Gomez表示#xff0c;合成数据可以适用于很多训练场景#xff0c;只是目前尚未全面推广。 已有的#xff08;通用#xff09;数据资源似乎接近效能极限#xff0c;开发人员认为合成数据可以适用于很多训练场景只是目前尚未全面推广。 已有的通用数据资源似乎接近效能极限开发人员认为网络上那些通用数据已不足以推动AI模型的性能发展。Gomez便指出网络极为嘈杂混乱“它并不能为你提供你真正想要的数据网络无法满足我们的一切需求。” 今年5月的一场活动上OpenAI首席执行官Sam Altman曾被问及是否担心监管部门调查ChatGPT可能侵犯用户隐私的事。Altman对此不置可否并表示自己“非常有信心很快所有数据都将是合成数据”。
▌人类真实数据售价高昂 为了大幅提高AI模型的性能提升它们在科学、医学、商业等领域的水平AI模型需要的是“独特且复杂”的数据集。而这类数据或是需要来自科学家、医生、作家、演员、工程师等“内行人”或是需要从药企、银行、零售商等大型企业获取专业数据。
这也就带来了让AI公司们转向合成数据的另一层原因——数据太贵了。 且不说那些技术含量极高的制药、科学数据光是之前Reddit和推特给出的数据采集要价都被Gomez“嫌弃”价格太高。 在这种情况下合成数据自然成了一个实惠方案不仅可以避开这些数据的高昂售价还能生成一些更复杂的数据来训练AI。
▌如何用合成数据训练 具体如何用合成数据训练AI大模型Gomez举了一个例子
在训练一个高级数学模型时Cohere可能会使用两个AI模型进行对话其中一个扮演数学老师另一个则充当学生。之后这两个模型就会就三角函数等数学问题对话“其实一切都是模型‘想象’出来的”。
如果在这个过程中模型说错了什么人类就会在查看这段对话时作出纠正。 而微软研究院最近的两项研究也表明合成数据可以用来训练AI模型这些模型一般比OpenAI的GPT-4、谷歌的PaLM-2更小更简单。 在其中一篇论文中GPT-4生成了一个名为“TinyStories”的短篇故事合成数据集里面使用的单词全部非常简单一个四岁儿童都能理解。这一数据集被用来训练一个简单的大语言模型后者能生成流畅且语法正确的故事。
▌晨曦还是暮光 想要合成数据的客户有了供应商自然也如雨后春笋般涌现例如Scale AI、Gretel.ai等初创公司。Gretel.ai由来自美国国安局和中情局的前情报分析师成立其已与谷歌、汇丰银行、Riot Games、Illumina等公司合作用合成数据来扩充现有数据帮助训练人工智能模型。
Gretel.ai首席执行官Ali Golshan表示合成数据的关键在于它既能保护数据集中所有个人的隐私又能保持数据的统计完整性。
同时合成数据还可以消除现有数据中的偏差和不平衡。
不过也有人不看好合成数据。 反对派认为并不是所有合成数据都经过精心调试并能反映或改进真实世界。 来自牛津、剑桥、帝国理工等机构研究人员发现合成数据的负面影响甚至堪比“毒药”。如果在训练时大量使用AI内容会引发模型崩溃model collapse造成不可逆的缺陷。 新一代模型的训练数据会被上一代模型的生成数据所污染从而对现实世界的感知产生错误理解。随着时间推移模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下这个情况也无法避免——研究人员也将此形容为“AI大模型患上‘痴呆症’”。 即便是合成数据从业人员Golshan也坦承在劣质合成数据上进行训练可能会阻碍进步。
“网上越来越多的内容都是由AI生成的。随着时间推移这确实会导致退化因为这些大模型产生的知识都是重复的没有任何新的见解。