织梦做网站的详情,怎样自己做免费网站,微网站开发需要多少费用,泰安吧一、写作动机#xff1a;
LLM 在自我评价时往往过于自信或随意性较大#xff0c;提供的反馈固执或不一致#xff0c;从而导致反思效果不佳。为了解决这个问题#xff0c;作者提倡 自我对比#xff1a; 它可以根据要求探索不同的解决角度#xff0c;对比差异…
一、写作动机
LLM 在自我评价时往往过于自信或随意性较大提供的反馈固执或不一致从而导致反思效果不佳。为了解决这个问题作者提倡 自我对比 它可以根据要求探索不同的解决角度对比差异并将这些差异总结为一个检查表用于重新检查和消除差异。作者的方法能让 LLM 从不同的角度来缓解顽固的偏见。 二、主要贡献
1通过综合实验揭示了反思表现不佳的瓶颈在于 LLM 无法准确评估之前的反应。它通常表现为过度自信或反馈不一致从而阻碍了自我反思的有效性。
2)提倡自我对比 学习者可以从多个角度解决问题以获得不同的结果从而减少因单一提示而产生的过度自信的偏差。然后从不同角度的对比中汲取灵感LLM 总结出更准确的检查指导以解决差异并加强反思。
3)从经验上看与虚构的反思相比自我对比在数学推理和具有挑战性的翻译场景中都有显著的改进和稳定性。 三、对大模型内在反思的评估
3.1反思前后的变化 3.2反馈分析:
1- 有效反思Valid错误回复被改正确。
2- 无效反思Invalid错误没有被改正。
3- 有毒反思Toxic刚开始正确的回复被反而被改错。 作者发现 feedback 主要存在两种情况
1 过于顽固的 feedback初次回复中明明是存在明显的错误但是 LLM 自我评估时候坚持认为没有任何问题。
2多次自我评估的 feedback 不一致对于同一个回复多次自我评估产生的 feedback 非常不一致。 四、自我对比反思 自我对比包括三个步骤 创建不同视角、对比视角间差异和消除差异。在 创建不同视角中鼓励LLM根据用户的要求自主创建各种提示每种提示都提供了解决问题的独特视角例如不同的思维方式、不同的身份、个性或偏好。这些不同的视角会促使 LLM 产生不同的回复。在第二阶段LLM 会对比每对回应之间的差异。最后为了消除差异将这些差异归纳为一份详细的核对表以供重新检查。该清单指导 LLM 仔细检查差异的原因包括随机误差或内在偏差这些都会导致不同观点的结果不一致。 五、实验设置
5.1benchmarks:
使用 GSM8K、SVAMP 和 CommonMT 基准的数学推理和创意翻译。
5.2评估指标:
对于数学推理评估的是逐步推理后最终答案的精确度。对于翻译任务采用 BLEURT1 分数作为自动指标。
5.3LLM 模型和提示:
使用 GPT-3.5-Tubor-0613 和 GPT- 4-0613 API 以及具有三个参数范围7B、13B 和 70B的 Llama2-Chat 模型进行了实验。为了进行公平比较将所有实验的温度统一设置为 0.2。对于标准提示和自我反省基线我们使用不同的提示对其进行了 10 次评估并对其在零样本场景下的结果进行了平均。
5.4baseline
Standard CoT Prompt Self-Reflection (Shinn et al., 2023)Multi-Agent Debate ExpertPrompt Hint-Prompt Math-Prompt.
三种形式的自一致性SC-Vote, SC-Select, SC-Reflect. 六、实验结果