基于mvc的网站开发,河南免费网站建设公司,输入网址跳到别的网站,携程网网站规划建设特点文 | 梦晨 明敏 发自 凹非寺源 | 量子位一觉醒来#xff0c;机器学习社区炸了锅。因为最新研究发现#xff0c;只要对GPT-3说一句“让我们一步一步地思考”#xff0c;就能让它正确回答出以前不会的问题。比如下面这个例子#xff1a;16个球中有一半是高尔夫球#xff0c;… 文 | 梦晨 明敏 发自 凹非寺源 | 量子位一觉醒来机器学习社区炸了锅。因为最新研究发现只要对GPT-3说一句“让我们一步一步地思考”就能让它正确回答出以前不会的问题。比如下面这个例子16个球中有一半是高尔夫球这些高尔夫球中有一半是蓝色的一共有几个蓝色的高尔夫球问题不难但要注意这是零样本学习也就是说AI训练阶段从没见过同类问题。如果要求GPT-3直接写出“答案是几”它会给出错误答案8。但加上让我们一步一步地思考这句“咒语”后GPT-3就会先输出思考的步骤最后给出正确答案4而且这并不是巧合研究团队在论文中做了充分的验证。上面的问题出自经典的MutiArith数据集专门考验语言模型做数学题的能力GPT-3本来在零样本场景下准确率仅有17%。这篇论文中总结了9个最有效的提示词其中换着花样让GPT-3逐步思考的前6个都让准确率暴涨到70%以上。甚至一句最简单的“Let’s think”(让我们想一想)都能涨到**57.5%**。这感觉就像是幼儿园阿姨在哄小朋友……这个技巧似乎也不需要对GPT-3做魔改已经有人在OpenAI官方Demo上成功复现甚至换成中文也行。英文题干中文提示GPT-3给出正确中文答案。最早把这篇论文转发到社交网络的谷歌研究员表示新的all you need增加了。看到这里各路大佬纷纷脑洞大开玩起了梗。如果鼓励AI“你能行的我相信你”会怎样威胁AI一下说“时间不多了”或者“你头上有把枪”又会如何对AI说“开车稳一点”会成为自动驾驶解决方案吗还有人提出这简直和科幻故事《银河系漫游指南》的剧情一样实现通用人工智能的关键是知道如何正确地向AI提问。那么这种神奇现象究竟怎么回事语言大模型是零样本推理者发现这个现象的是谷歌大脑与东京大学的合作研究探索了语言大模型在零样本场景下的表现。论文标题《语言大模型是零样本推理者》还致敬了GPT-3的《语言模型是少样本学习者》。所用方法属于Chain of Thought Prompting 思维链路提示以下简称CoT今年一月刚由谷歌大脑团队提出。最早的CoT应用于少样本学习在提问的同时给一个分步骤回答的示例来引导AI。这次的最新研究提出零样本CoT主要改动是简化了示例的部分。第一步把题干改写成“QxxxAxxx”的形式其中触发句A可以提取出语言模型的思考过程。第二步属于额外实验增加了“答案是……”的提示促使语言模型给出最终答案。这样做最大的好处是通用不再需要对不同问题类型提供专用的示例。论文中对各类问题做了充分实验包括12项测试6个数学问题测试集SingleEq、AddSub、SVAMP和更有挑战的MultiArith, AQUA-RAT, GSM8K。2个常识推理测试集CommonsenseQA和StrategyQA。2个符号推理测试集Last Letter Concatenation和Coin Flip。以及BIG-bench中的日期理解问题、跟踪乱序物体任务。与普通的零样本学习相比零样本CoT在其中10项中取得更好效果。▲右侧值为额外实验结果在比较有难度的MultiArith和GSM8K数学测试中用GPT-3最新版本Text-davinci-002 (175B)做了更深入实验。如果给8次尝试机会取最好结果还能进一步提升准确率至93%。在错误结果分析中研究人员还发现很多问题中其实AI的推理过程是正确的只是答案无法收敛至唯一确定时会给出多个备选。论文的最后研究团队提出这项研究不仅可以作为零样本CoT的基线更希望让学界认识到在构建微调数据集和少样本提示模版之前充分发掘语言大模型零样本能力的重要性。研究团队来自东京大学松尾研究室。负责人松尾丰教授同时是软银董事会中的第一位人工智能专家。团队成员中的客座教授顾世翔来自谷歌大脑团队顾世翔本科师从三巨头之一Hinton博士毕业于剑桥大学。加点“魔法”已经成为AI圈新潮了零样本CoT究竟为何起作用还有待探索。不过有人实验得出这种办法似乎只对GPT-3text-davinci-002比较有效他尝试了001版本发现收效甚微。他列出了一个自己做的例子。提问请将machinelearning中每个单词的最后一个字母连起来。GPT-3在提示下给出的答案是连起来了两个单词中的所有字母。对此作者之一顾世翔回复表示其实“咒语”对初始版、改良版的GPT-3都有效果这些结果在论文中也有体现。也有人发出质疑表示难道深度学习变成了一场找“神奇咒语”的游戏同时我们在吐槽队伍里又看到了马库斯的身影。他也列出了一个失败的例子GPT-3在“咒语”加持下也没弄明白莎莉的牛到底会不会起死回生……不过值得注意的是类似这种稍微给AI加点小魔法提升效果立竿见影的例子已经不稀奇了。有网友分享自己用GPT-3时加几个中间命令确实能得到更满意的结果。此前谷歌和MIT的研究人员发现无需更改底层架构只要训练语言模型会像程序员debug时那样“打断点”模型读代码、做算术的能力唰唰唰地就上去了。原理也非常简单就是在计算步骤较多的程序里让模型把每一步都编码成文本并将它们记录到一个称为“便签”的暂存器中。由此一来模型的计算过程变得更加清晰有序性能自然大幅提升。还有本项实验中用来测试的Instruct GPT-3也是一个典型的例子。只需让GPT-3从人类反馈中强化学习它就能明显改善答非所问的情况。具体来看就是先用一些人类的示范回答微调模型然后收集某个问题的几组不同输出数据人工对几组答案进行排序并在此数据集上训练奖励模型。最后使用RM作为奖励函数近端策略优化PPO算法微调GPT-3策略以强化学习方法最大化奖励。包括引爆这次话题的推特博主Aran正是当初发现加一句“虚幻引擎”就能让AI生成图像画质飞升!的那位。前谷歌机器人大佬Eric Jang此前也发现强化学习也能运用类似的思维来提升计算效率。也有人表示这种用在AI上的技巧不正是自己平常动脑时会用的吗实际上此前Bengio就从脑科学入手提出AI的运转模式应该像人类动脑模式一样。人类的认知任务可以分为系统1认知和系统2认知。系统1认知任务是指那些无意识完成的任务。比如你可以马上辨别出手里拿的是什么东西但是却无法和别人解释自己是怎么完成这个过程的。系统2认知任务是指人类大脑需要按照一定步骤完成的认知。比如做一道加减法运算你可以很清楚地解释最终答案是如何得出的。而这次加的“咒语”正是让AI更进一步学会按步骤来思考。面对这样的趋势有学者认为“提示工程正在取代特征工程” 。那么 “提示词猎人” 会成为下一代NLP研究者的外号么论文地址https://arxiv.org/abs/2205.11916后台回复关键词【入群】加入卖萌屋NLP、CV与搜推广与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1]https://twitter.com/arankomatsuzaki/status/1529278580189908993[2]https://evjang.com/2021/10/23/generalization.html