做网站建设公司网易互客,北京网站设计提供商,福建商城网站制作公司,网站内容栏由什么构成文献阅读#xff1a;MathPrompter: Mathematical Reasoning using Large Language Models 1. 内容简介2. 方法细节3. 实验内容4. 结论思考 文献链接#xff1a;https://arxiv.org/abs/2303.05398
1. 内容简介
这篇文章是今年3月份的时候微软提出的一篇工作#xff0…文献阅读MathPrompter: Mathematical Reasoning using Large Language Models 1. 内容简介2. 方法细节3. 实验内容4. 结论思考 文献链接https://arxiv.org/abs/2303.05398
1. 内容简介
这篇文章是今年3月份的时候微软提出的一篇工作其核心的问题是优化了GPT模型在数学问题上的回答准确性。
众所周知生成模型在生成内容真实性方面一直存在较大的问题虽然随着GPT模型的持续迭代模型生成质量一直在不断地提升不过生成内容可靠性的问题事实上还是一直存在的无法被彻底根除。
而这个问题在数学问题上更加会被极具放大而这篇文章的核心工作就是在这方面进行了优化。
但是具体到方法上面事实上这里也并没有什么根本上的方法改进事实上也就是一个专门进行数学问题的prompt工程的工作因此多少还是有些失望。
而且更进一步地他们的方法的有效性可能也不是纯粹的来自于他们的prompt方法而是可能来自于系综模型的效果……
anyway不过无论如何这篇文章达到的效果是实打实的因此无论如何还是有一些借鉴意义的。
2. 方法细节
本文的核心方法可以用下图中的流程图进行表述 它可以抽象为以下两个大的步骤
将具体的问题抽象为一个和具体数字无关的代数问题通过重复验证的方式对1中给出的代数问题进行数字化计算具体包括 多种不同的计算方式交叉验证多次计算重复验证
下面我们给出文中的具体步骤如下
抽象化代数问题分别生成1中给出的代数问题解答的代数表达式以及python解答函数计算2中给出的代数表达式的解答以及python函数执行得到的结果重复多次执行得到的最高频次的回答就最可能是问题最后的答案。
3. 实验内容
下面我们来看一下文中给出实验结果。
这篇文章的实验内容相对来说还是比较简单的就是在MultiArith数据集上面做了一些实验然后获得了比较显著的效果。
给出其具体的实验效果表格如下 可以看到
使用math prompter之后模型的效果确实有了较大幅度的提升。
最后文中还给出了几个具体的case如下图所示 可以看到
使用math prompter之后模型的效果较之baseline确实有了一定的提升不过依然无法完全规避掉事实性错误还是会有错误的存在。
4. 结论思考
综上我们可以看到
math prompter这篇文章确实是有效的有效地提升了数学问题上的回答准确性。
不过对于文中使用的方法我个人多少有点存疑。
首先文中给出的实例中的数学题本质上都不难也就是小学应用题的水平而且都是简单计算题对于稍微复杂一些的问题比如说不等式问题或者求最大最小值的问题似乎上述方法都不具有可扩展性。
另一方面文中这种交叉验证以及多次生成验证的方式事实上就是一个ensemble方法而ensemble的方式获得的效果高于单一模型的效果应该是一个比较公认的结果了。因此文中给出的方法带来的提升有多少来自于他们的mathprompter有多少来自于ensemble方式事实上也有一些存疑。
综上这篇文章的价值总让我有一些怀疑……
不过尽管如此这篇文章关于代数拆分的方式还是很有启发价值的因为原先的问题如果要一步求解的话那无疑需要同时完成题意的理解以及数字的计算尤其后者由于模式太多因此对大模型的统计概率生成来说尤其显得不友好。
而分钟通过拆分任务的方式让模型先理解问题然后进行数字求解本质上就是一个COT方式无疑大幅简化了任务增大了单一任务当中模型执行的结果可靠性。
这个思路还是很有启发意义的。