网站设计是用ps做图吗,斯皮尔网站建设,企业建站原因,邮箱域名和网站域名来源#xff1a;机器之心简单的小学数学应用问题#xff0c;对于人类来说不算什么#xff0c;但对于模型来说#xff0c;可能是有难度的。比如问题#xff1a;安东尼有 50 支铅笔。他把 1/2 的铅笔给了布兰登#xff0c;剩下的 3/5 铅笔给了查理。他保留了剩下的铅笔。问… 来源机器之心简单的小学数学应用问题对于人类来说不算什么但对于模型来说可能是有难度的。比如问题安东尼有 50 支铅笔。他把 1/2 的铅笔给了布兰登剩下的 3/5 铅笔给了查理。他保留了剩下的铅笔。问安东尼保留了多少支铅笔像 GPT-3 这样的大型语言模型虽然取得了许多令人印象深刻的技能包括模仿人的多种写作风格、20 分钟内完成论文等等。然而类似 GPT-3 这样的模型很难执行需要进行准确多步推理的任务。就如上述问题让模型给出准确答案还是困难的。尽管类似 GPT-3 这样的模型可以推导出正确解决方案大致内容但也经常会产生严重的逻辑错误。为了在复杂逻辑领域可以达到与人类相媲美的性能模型必须具有判别自身错误的能力并谨慎地执行之后的过程。但是模型如何判别解决方案是否正确来自 OpenAI 的研究者提出了一个训练验证器verifier来判断模型完成的正确性。在测试阶段会生成许多候选解决方案并选择排名最高的一个。证明验证verification显着提高了 GSM8K 的性能此外也为这一观点随着数据的增加验证比微调基线更有效提供了强有力证据。具体来说该研究训练了一个解决小学数学问题的系统其准确率约是经过微调的 GPT-3 模型的两倍。它能像真正的学生一样可以解决 90% 的数学应用问题在提供的数据集中进行了小样本测试结果表明 9-12 岁的学生测试得分为 60%该研究所提系统在相同的问题上测试得分 55%。这一结果非常重要因为今天的 AI 在常识性多步推理方面仍然很弱即使对小学生来说也很容易但 AI 还是存在很大的缺陷。该研究通过训练模型来识别其错误以便它可以反复试错直到找到可行的解决方案。论文地址https://arxiv.org/pdf/2110.14168.pdf数据集地址https://github.com/openai/grade-school-math下面展示了该研究所提新方法生成的解决方案其中一个案例Tim 种了 5 棵树。他每年从每棵树上收集 6 个柠檬。他十年能得到多少柠檬175B Verification正确 175B Fine-tuning错误 6B Verification正确 6B Fine-tuning正确 GSM8K 数据集OpenAI 基于四个设计原则创建了 GSM8K 数据集高质量、高多样性、中等难度和自然语言解决方案。GSM8K 数据集由 8.5K 个高质量小学数学应用题组成。每个问题需要 2 到 8 步解决解决方案主要涉及使用加减乘除等基本算术运算执行一系列基础计算以获得最终答案。微调后的 SOTA 模型在该数据集上表现不佳主要是问题的高度多样性导致的。与此同时GSM8K 解决方案仅依赖于基本概念因此实现高测试性能是一个容易实现的目标。GSM8K 数据集中的三个示例问题。值得注意的是GSM8K 中的解决方案是用自然语言而不是纯数学表达式编写的。通过坚持使用自然语言模型生成的解决方案更容易被人类解释。OpenAI 的方法保持相对领域不可知。 方法OpenAI 研究了两种解决 GSM8K 问题的方法微调和验证。微调是基线方法它使用与 GPT-3 中生成式预训练相同的语言建模目标Brown 等人2020 年。在测试时OpenAI 通过自回归采样单个低温解决方案并检查最终答案是否正确来判断性能。相比之下验证包括对多个高温解决方案进行采样为每个解决方案分配一个分数并输出排名最高的解决方案。验证器被训练来判断解决方案的正确性其中训练信号完全取决于解决方案是否获得了正确的最终答案。对于这两种方法OpenAI 使用 GPT-3 系列模型作为初始化主要关注 175B 和 6B 大小的模型。175B 模型最大产生的结果最令引人瞩目而 6B 模型更易于实现研究目。 微调OpenAI 通过更新模型参数来进行微调以最小化所有训练 token 的交叉熵损失。下图 2 显示了对 20 个 epoch 时不同大小的训练集进行微调后的测试性能。结果不出所料可以看到 175B 模型明显优于较小的模型。假设一个对数线性趋势我们可以简单地推断这些结果以估计当使用完整的 GSM8K 训练集时需要具有 10^16 个参数的模型才能达到 80% 的求解率。尽管如此175B 模型似乎需要至少两个额外数量级的训练数据才能达到 80% 的求解率。在下图 3 中OpenAI 展示了 6B 模型测试性能在 100 个训练 epoch 的过程中如何变化。当允许模型对每个问题进行 N 个单独的猜测时OpenAI 使用 testN 表示至少一次正确解决的问题的百分比。尽管很快开始过拟合测试损失但 Test1 的性能几乎单调地提高。并且随着 epoch 次数的增加test100 的性能比 test1 下降得更快。选择具有良好覆盖性的模型对于成功训练验证器至关重要。从实证角度来看test100 性能在前几个 epoch 内达到峰值。出于这个原因OpenAI 使用训练了 2 个 epoch 的模型来生成用于训练验证器的样本。如果改为微调 6B 模型以直接输出最终答案而无需任何中间步骤则性能会从 20.6% 急剧下降至 5.2%。 验证为了改进微调基准OpenAI 训练验证器判断模型生成的解决方案的正确性并在测试时搜索这些验证器。以问题和候选解决方案为条件验证器输出解决方案正确的概率。仅根据它们是否达到正确的最终答案将训练解决方案标记为正确或不正确。不过在实践中一些解决方案会使用有缺陷的推理得出正确的最终答案从而导致误报。如下图 4 所示OpenAI 按如下方式训练验证器 在训练集上对模型生成器进行 2 个 epoch 的微调从生成器中为每个训练问题抽取 100 个完成样本并将每个解决方案标记为正确或不正确在数据集上训练一个单一 epoch 的验证器。在测试时OpenAI 对每个测试问题采样了 100 个完成情况用验证器对它们进行排名然后返回得分最高的那个。下图 5 展示了 6B 和 175B 模型的验证和微调两种方法之间的对比情况结果发现在低数据集下使用验证方法是没有好处的。有趣的是175B 验证器比 6B 验证器更早「起飞」超越微调基线需要的时间更少。在完整的训练集上随着 epoch 的增加使用验证方法的 6B 模型最终略优于微调的 175B 模型性能提升大约相当于模型大小增加 30 倍。训练验证器既可以在全部的生成解决方案里进行单个标量预测single scalar prediction也可以在解决方案的每个 token 后进行单个标量预测OpenAI 选择后者即训练验证器在每个 token 之后进行预测。实验结果如图 6a 所示它们分别标记为「解决方案级别」和「token 级别」。在图 6b 中通过消融实验验证训练验证器中使用目标objective的作用 OpenAI 将使用两个目标与仅使用验证目标进行比较。在图 6c 中OpenAI 对生成器和验证器的大小进行了实验研究发现使用大的生成器、小的验证器组合性能显著优于小的生成器、大的验证器组合。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”