网站风格怎么写,浙江省甲级设计院加盟,wordpress wyplayer,广州建筑信息平台摘要
我们提出了 STEP-BACK PROMPTING#xff0c;这是一种简单的提示技术#xff0c;可以让LLM进行抽象#xff0c;从包含具体细节的实例中推导出高层次概念和第一性原理。利用这些概念和原理来引导推理过程#xff0c;LLM在朝向正确解答路径上显著提升了推理能力。我们在…摘要
我们提出了 STEP-BACK PROMPTING这是一种简单的提示技术可以让LLM进行抽象从包含具体细节的实例中推导出高层次概念和第一性原理。利用这些概念和原理来引导推理过程LLM在朝向正确解答路径上显著提升了推理能力。我们在PaLM-2L、GPT-4 和 Llama2-70B 等模型上进行了 STEP-BACK PROMPTING 的实验并在多个具有挑战性的推理密集型任务中观察到显著性能提升包括 STEM、知识问答Knowledge QA和多跳推理Multi-Hop Reasoning。例如STEP-BACK PROMPTING 将 PaLM-2L 在 MMLU物理和化学上的表现分别提升了 7% 和 11%在 TimeQA 上提升了 27%在 MuSiQue 上提升了 7%。
1 引言
自然语言处理NLP领域正经历一场由基于TransformerVaswani 等2017的大型语言模型LLMsDevlin 等2018Raffel 等2020Brown 等2020Anil 等2023所推动的突破性变革。随着模型规模和预训练语料的不断扩展Hoffmann 等2022Chowdhery 等2022模型能力和样本效率得到了显著提升这得益于 scaling lawKaplan 等2020Hoffmann 等2022的研究洞见以及诸如多步推理Wei 等2022bZhou 等2022和指令遵循Mishra 等2022bWei 等2021等涌现能力Wei 等2022a的出现。 尽管已经取得了巨大进展复杂的多步推理对即便是最先进的LLM来说仍然具有挑战性。Lightman 等2023表明采用逐步验证的过程监督是一种有前景的方法能够提升中间推理步骤的正确性。诸如 Chain-of-ThoughtWei 等2022b等技术被提出用于生成连贯的一系列中间推理步骤从而提高遵循正确解码路径的成功率。受启发于这样一个事实在人类面对具有挑战性的任务时往往会“退一步”进行抽象以得到指导过程的高层次原理我们提出了 STEP-BACK PROMPTING通过将推理建立在抽象之上来降低在中间推理步骤中出错的可能性。 在人类的众多认知能力中抽象Lachmy 等2022是处理大量信息并提炼出一般性原理时不可或缺的能力。例如Kepler 将数以千计的观测数据浓缩为开普勒的三大行星运动定律这些定律精确地描述了行星绕太阳运动的轨道Russell1964。在人类面临关键决策时抽象尤其有帮助因为它能提供对环境更广阔的视角。
本研究探索了LLM如何通过抽象—推理的两步过程来应对涉及大量细节的复杂任务。第一步是通过in-context learning让LLM学会如何“退一步”——提示它们从具体实例中抽象出高层次的概念和原理。第二步则是利用LLM的推理能力在这些高层概念和原理的基础上进行推理。我们使用few-shot 示例演示来在LLM中实现 STEP-BACK PROMPTING。
我们在多个涉及特定领域推理的任务上进行了实验如物理和化学、需要事实性知识的知识密集型问答、多跳常识推理等任务。在 PaLM-2LAnil 等2023上的实验表明STEP-BACK PROMPTING 在这些复杂任务中带来了显著的性能提升最高可达27%而这些任务在以往由于需要处理大量细节而极具挑战性。图1展示了本文中所有关键结果的总结。
其中一些任务难度极高即使是 PaLM-2L 和 GPT-4在 TimeQA 和 MuSiQue 上的准确率也仅为约40%。Chain-of-Thought 提示在少数任务上带来轻微提升而 STEP-BACK PROMPTING 在所有任务上都提升了 PaLM-2L 的性能MMLU 的物理和化学子任务分别提升了7%和11%TimeQA 提升了27%MuSiQue 提升了7%。
我们进行了多种分析发现 STEP-BACK PROMPTING 相较于 Chain-of-ThoughtCoT提示Wei 等2022b和“take-a-deep-breath”TDB提示Yang 等2023最多可带来36%的性能提升。我们还进行了一项定性评估发现 Step-Back 能修正基础模型的大量错误最多可达约40%同时引入的新错误占比较小最多约12%。我们还进行了错误分析发现 STEP-BACK PROMPTING 所犯的多数错误源于LLM在推理能力上的内在局限性而抽象能力对于LLM来说相对容易掌握这为类似 STEP-BACK PROMPTING 方法的未来改进指明了方向。
2 STEP-BACK PROMPTING
STEP-BACK PROMPTING 的动机来源于这样一个观察许多任务包含大量细节使得LLMs难以检索出相关事实来解决问题。如图2顶部所示的第一个例子中对于一个物理问题——“如果温度增加2倍、体积增加8倍理想气体的压强P会发生什么变化”LLM在直接进行推理时可能会偏离理想气体定律这一基本原理。同样“Estella Leopold 在1954年8月至1954年11月之间就读于哪所学校”这样的问题由于其涉及特定时间范围也很难被直接解决。在这两种情况下引导模型思考一个“退一步”的问题有助于更有效地解决原始问题。
我们将step-back question退一步的问题定义为从原始问题中抽象出来的更高层次的问题。例如与其直接问“Estella Leopold 在特定时期就读哪所学校”不如提出一个退一步的问题如图2底部所示“Estella Leopold 的教育经历是什么”这是一个涵盖原始问题的高层概念。回答“Estella Leopold 的教育经历”这一退一步的问题将提供所有推理出“特定时期她在哪所学校就读”所需的信息。其前提是退一步的问题通常更容易回答。基于这类抽象事实进行推理可以避免在中间步骤中出现推理错误例如图2左侧 Chain-of-Thought 示例中出现的错误。
简而言之STEP-BACK PROMPTING 包含两个简单步骤
Abstraction抽象不是直接处理原始问题而是首先提示LLM提出一个关于高层概念或原理的通用性 step-back 问题并检索与该高层概念或原理相关的事实。每个任务都有独特的 step-back 问题以检索最相关的事实。Reasoning推理在获取的高层概念或原理相关事实的基础上LLM可以围绕原始问题进行推理我们将其称为基于抽象的推理Abstraction-grounded Reasoning。
在接下来的章节中我们将展示 STEP-BACK PROMPTING 在一系列具有挑战性的任务上的实证研究这些任务涉及复杂推理包括 STEM科学、技术、工程和数学、知识问答以及多跳推理。
3 实验设置
在本节中我们定义了所使用的任务和模型并介绍了评估指标以及对比的基线方法。
3.1 任务
我们在以下多样化任务上进行实验aSTEM、b知识问答Knowledge QA、c多跳推理Multi-Hop Reasoning。所使用的数据集如下详见附录 B
STEM我们在 MMLU 和 GSM8K 上评估 STEM 任务的表现。MMLUHendrycks et al., 2020是一个跨多个领域的基准集用于评估模型的语言理解能力。我们选择其中高中物理和化学部分因为这些题目需要深度推理。知识问答Knowledge QA我们使用 TimeQAChen et al., 2021因为其中包含对时间敏感的复杂查询问题。我们也使用 SituatedQAZhang Choi, 2021该数据集需要模型在给定时间或地理上下文的情况下回答开放检索式问题。多跳推理Multi-Hop Reasoning我们选用 MuSiQueTrivedi et al., 2022这是一个通过组合单跳问题构造的多跳推理数据集以及 StrategyQAGeva et al., 2021它包含需要策略性思考的开放域问题。
3.2 模型
我们使用以下当前最先进的大语言模型LLMs
PaLM-2L指令微调版本Anil et al., 2023GPT-4OpenAI, 2023Llama2-70BTouvron et al., 2023
3.3 评估
传统的评估指标如准确率accuracy、F1分数在评估最先进的LLMs生成内容时存在局限性因为这些模型往往生成的是长文本答案很难直接比较是否一致。因此我们使用 PaLM-2L 模型进行评估采用 few-shot prompt 的方式判断模型预测结果与目标答案是否等价。具体的 few-shot 示例、提示语及评估细节可见附录 C。
3.4 基线方法
我们对以下基线方法进行评估
PaLM-2L / PaLM-2L 1-shot直接对模型提问或在提示中加入一个问题-答案的示例1-shot。PaLM-2L CoT / CoT 1-shot使用零样本 Chain-of-Thought 提示CoTKojima et al., 2022在问题后附加“Let’s think step by step”。1-shot 情况下在提示中加入一个按 CoT 格式写出的示例问答对Wei et al., 2022b。PaLM-2L TDB使用“Take a deep breath and work on this problem step-by-step.”Yang et al., 2023作为前缀进行零样本提示。PaLM-2L RAG在第5节和第6节的实验中使用检索增强生成RAG方法将检索到的文本作为上下文提供给LLM。 ⚠️ 对于 STEM 任务未使用 RAG因为这类任务本质上依赖推理而非事实检索。GPT-4 和 Llama2-70B我们在所有方法上对 MMLU 数据集使用 GPT-4 和 Llama2-70B。此外GPT-4 还被用于所有任务的所有基线实验。 所有推理均使用贪婪解码greedy decoding进行。 4 STEM
我们在STEM任务Hendrycks et al., 2020上评估STEP-BACK PROMPTING以衡量我们的方法在高度专业化领域推理方面的有效性。我们在下文中解释了在MMLU高中物理与化学部分以及GSM8K基准上应用STEP-BACK PROMPTING的实验设置、结果和分析。
4.1 STEP-BACK PROMPTING
MMLU基准中的问题需要更深层次的推理。此外它们还要求理解和应用公式这些公式通常是物理和化学中的原理和概念。在这种情况下我们首先以概念和第一性原理的形式向模型展示抽象能力例如牛顿第一运动定律、多普勒效应和吉布斯自由能等。 这里隐含的后退一步问题是“解决该任务涉及了哪些物理或化学原理和概念”。我们通过示例演示让模型从自身知识中背诵解决该任务所需的相关原理具体的少量示例见附录D.1。
4.2 结果
表1展示了三个模型家族PaLM-2L、GPT-4和Llama2-70B在不同设置下的模型表现。报告了5次评估运行的平均准确率及标准差括号内。PaLM-2L基线在物理和化学任务上的准确率分别为66.4%和70.9%。我们发现零-shot的Chain-of-ThoughtCoT和Take-a-Deep-BreathTDB提示法并未显著提升模型表现这可能是由于这些任务固有的难度和深度推理需求。PaLM-2L 1-shot及PaLM-2L CoT 1-shot的表现也未对基线带来明显提升凸显了向模型演示推理步骤的挑战。相比之下STEP-BACK PROMPTING显著提升了模型表现分别比PaLM-2L提升了7%和11%。同样在GPT-4和Llama2-70B模型上STEP-BACK PROMPTING在我们测试的所有基线方法中表现极具竞争力表明STEP-BACK PROMPTING具有模型无关性。GSM8K的结果见附录A.1。 温馨提示 阅读全文请访问AI深语解构 STEP-BACK PROMPTING退一步通过抽象在大型语言模型中唤起推理能力