建网站公司要钱吗,h5响应式网站模板,表白网站制作源码,太原网站建设方案报价9.11 和 9.9 哪个大#xff1f;
这一连人类幼儿园儿童都能回答的问题#xff0c;曾经#xff08;至今#xff09;难倒了众多大语言模型#xff08;LLM#xff09;。 然而#xff0c;要想达到通用人工智能#xff08;AGI#xff09;的水平#xff0c;LLM 不仅要完成“…9.11 和 9.9 哪个大
这一连人类幼儿园儿童都能回答的问题曾经至今难倒了众多大语言模型LLM。 然而要想达到通用人工智能AGI的水平LLM 不仅要完成“比大小”这种简单的逻辑推理还需要完成难度更高的推理比如“对复杂规则的理解与执行以及多步骤规划”这是 LLM 智能体agent和决策系统的核心能力。
因此如何有效评估 LLM 作为基于规则的执行者和规划者角色至关重要。但是目前学界和业界少有这方面的研究。
来自清华大学和智谱的研究团队推出了一项新的基准测试——LogicGame旨在全面评估 LLM 在规则理解、执行和规划方面的能力。先看评测结果 图LogicGame 的评测结果和样例展示。上图为各种模型在执行和规划类别中的表现下图左、右分别为两个执行和规划类别案例研究。
除了看到 o1-preview、o-mini 的遥遥领先我们也看到超过一半的模型得分不到 10%如上图红色区域所示。
这一评测结果揭示了一个不容忽视的事实大多数 LLM 在基于规则的逻辑推理上都存在着明显的缺陷。
相关研究论文以“LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models”为题已发表在预印本网站 arXiv 上。 论文链接
https://arxiv.org/abs/2408.15778
与传统基准测试不同LogicGame 包含一系列多样化的游戏每个游戏都有一套初始状态规则这要求模型不仅能够理解这些预定义的规则还可以应用它们来解决问题。而且LogicGame 还同时考虑了最终结果和中间步骤从而对模型性能进行全面的评估。
研究结果显示通过设定不同难度的游戏场景LogicGame 能够精确地衡量模型在规则理解和多步骤执行及规划任务上的表现。
LogicGame“四级”难度游戏场景
遵循规则与推理的结合是完成许多现实世界任务的关键。然而现有基准测试常常无法充分捕捉这一点。
为了填补这一空白研究团队通过广泛的研究和众包开发了一套新颖的问题集。他们发现这些任务与某些游戏机制相似因为现实世界的任务通常与游戏有着共同特征比如需要遵循特定的规则进而进行决策。因此他们采用了游戏化的方法从而能够对模型遵循规则的推理能力进行细致的评估。
其中LogicGame 的数据构建包含以下四个部分
设计规则推理问题灵感来自现实世界场景。由于现实世界任务往往具有游戏特征例如需要遵循特定规则和做出决策因此 LogicGame 采用了游戏化方法来评估模型的规则遵循和推理能力。
开发输出约束确保模型输出符合标准格式。为了方便精确评估和简化匹配步骤模型响应被要求遵循结构化的 JSON 输出格式。对于单步问题Level 0模型只需要输出最终答案评估仅基于答案的正确性。对于涉及多步骤或更复杂推理的问题Level 1、2、3 和某些 Level 0 问题既要评估答案也要评估步骤。
实现不同难度级别并包含示例问题。有四个难度级别评估模型推理能力的范围从简单的规则应用到复杂的推理链。难度梯度由相关规则的复杂程度和得出解决方案所需的推理步骤数量决定。
为了确保公平性和更广泛的适用性LogicGame 包含了中文和英文版本基准。
如下图每个模型都会收到一组特定于给定问题的规则作为输入 prompt以及一个相应的问题和一个 JSON 格式的输出约束包括答案和步骤。 图LogicGame 中分类和评测方法的说明。分类中插图用紫色突出显示涉及数学的类别。
LogicGame 的评测方法使用自动化方法不仅要评估答案的正确性还要评估得出答案的步骤的正确性具体包括评估模型的答案准确率A-Acc、步骤准确率P-Acc和答案步骤准确率AP-Acc。
每个问题答案的评分是通过比较模型的响应和参考答案来确定的。同样根据 JSON 格式约束的定义每个问题步骤的评分也是通过评估模型步骤与参考步骤的一致程度来实现的。
A-Acc该指标用于评估所有给定问题答案的正确性为每个答案提供二进制评估0/1从而表明其是否正确。
P-Acc该指标评估步骤的正确性根据所提供步骤与预期步骤之间的字符级相似度来衡量匹配百分比。在极少数情况下如果 0 级问题是单步推理其中没有提供步骤可供评判则在评分时步骤准确性与答案准确性视为一致同等对待。
AP-Acc该综合指标评估答案和步骤的整体准确性。其计算方法是使用逻辑 AND 运算将答案准确性和步骤准确性结合起来得出一个总分。
这一评测方法确保模型遵循规则进行推理并全面评估模型的推理能力。
表现如何OpenAI o1 遥遥领先
如下图不论在中英文版本中在执行类别的最高难度 Level 3 下o1-preview、o1-mini 在 14 个被评测模型中的得分遥遥领先国内模型的得分未能破 10甚至出现了多个 0 分在规划类别的最高难度 Level 3 下OpenAI o1 的领先优势亦是如此。 图14 个模型在 LogicGame 中文版本上的 AP-Acc% 指标性能。 图14 个模型在 LogicGame 英文版本上的 AP-Acc% 指标性能。
在执行类别中随着 shot 数目的增加模型的准确性有了显著提高。具体来说更强大的模型如 GPT-4o在从 0-shot 转换到 1-shot 和 2-shot 时AP-Acc 分数会有更大的提升表明它们能够更好地利用额外的上下文信息来提高执行精度。 图LogicGame 中文版本在执行和规划类别上的少样本差异。
我们还观察到在执行任务中添加示例通常会提高模型在执行任务中的表现尤其是在简单任务Level 0中。 图LogicGame 中文版本在不同难度级别上的 shot 差异设置与上图类似。
然而1-shot 和 2-shot 设置对模型在不同难度级别上的影响有所不同。模型在 Level 0 中从示例中受益最大但随着难度级别的提高示例的影响会逐渐减弱。
在规划任务中添加示例对模型在规划任务中的表现影响更为复杂。一些模型在从 0-shot 转换到 1-shot 或 2-shot 设置时表现会下降这表明额外的上下文信息可能会引入噪声干扰模型对关键信息的理解。总体而言1-shot 对模型的影响最明显但随着难度级别的增加其影响会逐渐减弱而 2-shot 则更加不稳定没有明显的规律。
在一项案例研究中LLM 在黑白棋Reversi游戏中的表现几乎“惨不忍睹”除了 OpenAI o1其他模型的得分几乎为接近于0这同样表明 LLM 在处理复杂规则和进行多步推理方面依然困难。 图表现最差的五个类别的 AP-Acc% 平均得分。热图中显示了每个类别的 AP-ACC% 平均得分模型在执行和规划场景中的表现都很差特别是在“Reversi”中许多模型的得分接近零。 图一个带有模型输出的 Reversi 游戏示例包括答案和步骤。
研究团队对这一失败表现进行了分析认为有以下三点原因
细节处理不足例如Claud 3.5 Sonnet 模型无法正确处理细节如放置部分棋子或翻转部分棋子这表明它们对规则的理解不够深入。
执行/规划规则理解不足模型无法正确执行或规划游戏中的操作这表明它们对游戏机制如翻转机制的理解存在缺陷。
过度更改llama-3-8b-chat 模型对棋盘状态进行了过度更改这表明它们对游戏规则的理解存在明显的偏差。
LLM 的推理能力仍有待提高
在这篇论文中研究团队为评估 LLM 基于规则的推理能力提出了一种新颖的基准 LogicGame这一基准包含多个难度级别重点评估模型对规则的理解、基于这些规则的执行以及规划能力。
同时他们还开发了评估结果和推理过程的方法确保模型忠实地遵循给定的规则而不仅仅是猜测答案。
广泛的实验表明目前的大模型在基于规则的推理任务中仍然表现出明显的不足。
对此研究团队认为LLM 的推理能力仍有待提高尤其是在理解复杂规则、进行多步推理以及学习和应用新规则方面。
为使 LLM 能够更好地理解和执行规则它们的推理能力还需要进一步改进比如通过更有效的训练方法或引入新的推理机制。
此外为了更全面地评估 LLM 的推理能力需要开发更有效的评估方法。例如通过引入更复杂的规则和更困难的推理任务。
一起来 battle
想要证明你的大模型逻辑推理能力有多强不妨参与 LogicGame 评测与国内外众多大模型一起来 battle。
研究团队在 GitHub 上维护了一个 Leaderboard分别展示模型在 LogicGame 中英文版和中文版的表现其按照 AP-Acc% 进行排名主要评估指标包括
AP-Acc%答案和步骤正确率
A-Acc%答案正确率
P-Acc%步骤正确率
IFError%指令遵循错误率
JSError%Json格式输出错误率 图14 个大模型在中文版 LogicGame 上的表现 图14 个大模型在英文版 LogicGame 上的表现
那么如何获取你的模型在 LogicGame 中英文版和中文版的表现呢
研究团队在 GitHub 上存放了用于展示的 dev 数据并提供了 Codabench一个专门用于模型评测的平台能够提供高效、公正且统一的评估环境提交时所需的输入数据。你可以下载 zh_all 和 en_all 文件分别代表中文版和英文版的数据全集将其输入你的模型以获取模型回复并将此回复作为 Codabench 提交时的输入数据即可获得评测结果反馈。 访问以下链接了解详情
Leaderboard 链接
https://github.com/Hypatiaalegra/LogicGame-Data
Codabench 提交链接
https://www.codabench.org/competitions/4140/