中山中小企业网站建设,网站源码换模板,网站优化+山东,安徽省做网站斯坦福大学和加州大学伯克利分校合作进行的一项 “How Is ChatGPTs Behavior Changing Over Time?” 研究表明#xff0c;随着时间的推移#xff0c;GPT-4 的响应能力非但没有提高#xff0c;反而随着语言模型的进一步更新而变得更糟糕。 研究小组评估了 2023 年 3 月和 20… 斯坦福大学和加州大学伯克利分校合作进行的一项 “How Is ChatGPTs Behavior Changing Over Time?” 研究表明随着时间的推移GPT-4 的响应能力非但没有提高反而随着语言模型的进一步更新而变得更糟糕。 研究小组评估了 2023 年 3 月和 2023 年 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现分别为解决数学问题、回答敏感 / 危险问题、代码生成以及视觉推理。 他们使用了一个包含 500 个问题的数据集评估模型测试模型必须确定给定的整数是否是素数。结果表明GPT-42023 年 3 月版在识别质数方面表现非常出色正确回答了其中的 488 个问题准确率达 97.6%。但 GPT-4 2023 年 6 月版在这些问题上的表现却非常糟糕只答对了 12 个问题准确率仅为 2.4%。 而与之相反GPT-3.52023 年 6 月版在这项任务中的表现则要比 GPT-3.52023 年 3 月版好得多。 研究团队还使用了 Chain-of-Thought思维链来帮助模型进行推理提出 “17077 是一个质数吗一步一步地思考” 的问题。但最新版本的 GPT-4 不仅错误地回答了 否还没有生成解题的中间步骤。 与 3 月份相比GPT-4 在 6 月份不太愿意回答敏感问题。而且与 3 月份相比GPT-4 和 GPT-3.5 在 6 月份生成代码时也出现了更多格式错误质量明显下降。 对于 GPT-4可直接执行的生成代码百分比从 3 月份的 52.0% 降至 6 月份的 10.0%GPT-3.5 也从 22.0% 降至了 2.0%。两种模型的冗余度也有小幅增加其中 GPT-4 增加了 20%。 视觉推理方面GPT-4 和 GPT-3.5 的性能都略有提高。但对于 90% 以上的视觉推理查询3 月份和 6 月份版本生成的结果完全相同。这些服务的总体性能也很低GPT-4 为 27.4%GPT-3.5 为 12.2%。且在某些特定问题上GPT-4 在 6 月份表现要比在 3 月份差。 研究人员认为这些结果表明相同 的 LLM 服务的行为会在相对较短的时间内发生重大变化凸显了对 LLM 质量进行持续监控的必要性。 “我们计划通过定期评估 GPT-3.5、GPT-4 和其他 LLM 在不同任务中的表现在一项持续的长期研究中更新本文介绍的结果。对于依赖 LLM 服务作为其日常工作流程组成部分的用户或公司我们建议他们对其应用程序进行类似的监控分析。”