国外设计网站app有哪些,微信小程序注册需要钱吗,科技成果鉴定机构,国家城乡住房建设厅网站论文链接#xff1a;https://arxiv.org/pdf/2203.11171.pdf
又到了读论文的时间#xff0c;内心有点疲惫。这几天还是在看CoT的文章#xff0c;今天这篇是讲如何利用self-consistency#xff08;自我一致性#xff09;来改进大语言模型的思维链推理过程。什么是self-cons…论文链接https://arxiv.org/pdf/2203.11171.pdf
又到了读论文的时间内心有点疲惫。这几天还是在看CoT的文章今天这篇是讲如何利用self-consistency自我一致性来改进大语言模型的思维链推理过程。什么是self-consistency呢读完论文感觉可以这么解释就是有个渣男/大语言模型你问了他五次昨天晚上九点跟谁在一起/文章里问大语言模型一个问题多次他三次说跟同事去电影一次说没干什么还有一次说你好烦/大语言模型也给出了一些不同的包含推理过程的答案不过里面也是有重叠的。然后你就根据渣男这几次反馈综合一个最具一致性的答案/same for LLM。我们来看一下文章的框架图结合刚刚讲的例子是不是很好理解 这个自我一致性具体到实验该怎么做呢我们来看文章细节 首先这里提到的答案a其实是需要解析的可以看文章的脚注解析任务是依赖于问的问题对于算数推理题吗作者在The answer is的后头解析得到第一个数字为最终的答案对于常识推理作者在The answer is的后头解析得到完整的字符串为最终的答案。对于大多数模型的输出都具有 “{Reasoning paths}. The answer is X.”的格式。解析答案后会根据所有的答案a来投票选举出最终的答案即最具有一致性的答案。当然了哇为了让一切显得不那么简单作者还是测试了不同的答案集成方式加权和或者加权平均带点标准化或者不带虽然最后还是投票效果最好。 所有实验都是做了few-shot的设置没有训练或者微调语言模型就是在prompt输入的时候进行了举例。对于所有的算数推理任务作者全部都用了一模一样的八个人工写出来的例子对于常识推理任务作者从训练集中随机抽取了4-7个例子。具体任务细节大家可以移步附录这里给一个示例截图 好的读完了这篇文章知道了果然面对渣男就要多问几次才行。模糊不清的爱请立马走开。