海南海口网站开发公司,贵州做网站公司,做网站尺寸一般都多大,网站禁止被采集文章链接#xff1a;https://arxiv.org/pdf/2405.00704
ChatGPT已经改变了人工智能社区#xff0c;一个活跃的研究方向是ChatGPT的性能评估。评估的一个关键挑战是ChatGPT仍然是闭源的#xff0c;传统的基准数据集可能已被ChatGPT用作训练数据。在本文中: 调查了最近的研究…
文章链接https://arxiv.org/pdf/2405.00704
ChatGPT已经改变了人工智能社区一个活跃的研究方向是ChatGPT的性能评估。评估的一个关键挑战是ChatGPT仍然是闭源的传统的基准数据集可能已被ChatGPT用作训练数据。在本文中: 调查了最近的研究揭示了ChatGPT在七个NLP任务类别中的真实性能水平 审查了ChatGPT的社会影响和安全问题 强调了评估的关键挑战和机遇。
希望本调查能够揭示其黑盒性质以便研究人员不会被其表面生成所误导。
介绍
自从OpenAI发布ChatGPTChat Generative Pre-trained Transformer以来已经过去了一年多的时间。根据2024年1月的最新统计数据ChatGPT目前拥有超过1.805亿月活跃用户openai.com每月约有15亿次访问量。ChatGPT构建在GPT-3.5或GPT-4之上它们都是OpenAI专有的一系列生成式预训练Transformer模型的成员基于Transformer架构并通过监督学习和强化学习的组合进行了对话应用的微调。
尽管其成功改变了AI和自然语言处理社区的生态系统但这个大语言模型系统仍然是一个黑盒子研究人员对训练细节知之甚少。传统的评估方法依赖于使用一些基准数据集进行训练和测试分割但这些方法可能不可行因为这些数据很可能已经在ChatGPT的训练阶段中使用了。因此像chatbot-arena-leaderboard这样的新榜单结合了自动评估和人工投票。然而这些榜单只展示了ChatGPT的一般能力并不能准确地反映其在特定自然语言处理任务上的性能。
本文回顾了机器学习和自然语言处理领域中关于ChatGPT评估的最新的论文。具体来说调查了以下三个方面 ChatGPT在七个主要自然语言处理任务类别上的性能。 ChatGPT的社会影响和安全问题。 ChatGPT随时间的性能。
此外还突出了ChatGPT评估的关键挑战和机遇。主要发现是 首先ChatGPT在zero-shot和少样本情况下的表现往往良好但仍然不及精细调节模型。 其次当ChatGPT在新收集的数据上进行评估时其泛化能力有限。 再者大多数评估工作利用提示工程依赖于人类启发式并不能保证可重现性。 最后但同样重要的是ChatGPT的性能随时间而下降。
大型语言建模
建模范式
在统计时代n-gram语言建模计算n个字统计并使用规则或马尔可夫模型进行语言建模。这些技术通常会丢失关键的文本信息例如词序并且不能处理未知词汇。因此广泛使用平滑技术来避免对未见或不频繁的n-gram产生零概率。
在神经网络时代分布式表示的概念基本上是使用深度神经网络为单词学习高维语义嵌入。通常使用自监督学习来设计学习目标例如下一个token预测邻近句子分类。神经语言建模的几个重大里程碑包括word2vecBERT和GPT模型。就语言建模的神经架构而言有编码器-解码器例如BERT编码器-解码器例如BARTT5和仅解码器例如GPT3。工业界的最近趋势表明了仅解码器架构的吸引力能力。
开源模型
许多开源的大语言模型在与商业替代方面竞争时表现出色特别是在经过微调和优化之后。开源模型的一个关键优势是它们不需要个人或企业将其数据发送到第三方远程服务器从而保护用户隐私。一些开源的预训练大语言模型包括Meta的LLaMA、Mistral的Mistral 7B、TII的Falcon LLM、OpenAI的GPT2、EleutherAI的GPT-J、MosaicML的MPT、BigScience的BLOOM、以及Zhipu的Chat-GLM 6B。LLaMA 2目前在研究社区中被广泛使用。它训练了2万亿个token并且其上下文长度是LLaMA 1的两倍。其微调模型已经在超过100万个人类标注上进行了训练。
闭源模型
截止到撰写本文的日期ChatGPT和GPT-4是两个广受认可的商业化系统。ChatGPT的一般训练过程包括自监督训练、奖励模型学习和强化学习但目前还不清楚在训练ChatGPT时使用了多少训练数据和人类标注。目前尚未从OpenAI确认GPT-4是否是一个专家混合系统其中包含了8个不同数据和任务分布的220B专家。GLaM引入了稀疏激活的专家混合架构以扩展模型容量同时与密集变体相比训练成本大大降低。因此最大的GLaM具有1.2万亿个参数大约是GPT-3的7倍。
ChatGPT性能评估
这一部分回顾了最近的一些研究这些研究直接使用ChatGPT来完成特定的自然语言处理任务。这些任务包括但不限于分类、文本生成、序列标注、信息检索、解析、推理、多语言处理以及其他混合任务。下表1展示了ChatGPT在一些自然语言处理任务上的表现将在接下来的章节中逐一说明这些任务。 分类
传统的文本分类任务将情感或主题作为主要输出标签SuperGLUE基准测试在大多数文本分类任务上都达到了超过90%的准确率。问题是对于现实世界的文本分类任务ChatGPT能否达到超过90%的准确率这里回顾了10个文本分类任务答案是否定的。
一些研究展示了ChatGPT在zero-shot设置下具有吸引人的分类性能。例如[Heck等2023]在对话状态跟踪上评估了ChatGPT并显示其平均准确率达到了56.44%这在zero-shot设置下是最先进的但仍然无法与监督系统相匹配。[Zhao等2023]探讨了使用ChatGPT和提示学习进行文本蕴含分类的可行性并显示其与基于BERT的zero-shot模型相竞争。其他研究认为ChatGPT仍然无法与精细调整的Transformer或BERT模型相匹敌。例如[Ghanadian等2023]对ChatGPT进行了自杀风险评估并显示zero-shotChatGPT达到了0.73的准确率而精细调整的ALBERT达到了0.86的准确率同时他们发现few-shot ChatGPT甚至不如zero-shot ChatGPT。[Kim等2023]还表明在科学论点分类任务上ChatGPT仍然落后于现有的精细调整BERT模型很大一部分。
更近期的研究中[Koopman和Zuccon2023]评估了ChatGPT在TREC 2021和2022年健康虚假信息跟踪中的100个主题上的表现当提示为“是/否”和“是/否/不确定”答案时ChatGPT的准确率从80%下降到33%当提示被重新表达时准确率进一步下降至不到60%但含有相同意义。[宋等2023]探索了ChatGPT在通用领域内GID和域外意图发现和识别上的应用发现在域内ChatGPT的整体性能不如精细调整的基准模型并且在域外意图发现上ChatGPT在多样本或多类别情景下表现比精细调整的基准模型差得多同时还指出ChatGPT无法从域内演示中进行知识转移并将其推广到域外任务。[2023]评估了ChatGPT和GPT4在对话情感分类上的表现两个系统在三个数据集中的两个数据集上均达到了可比较的性能40%至60%的准确率与监督模型相当。
另一个有前景的工作是使用ChatGPT进行LLM生成文本检测[朱等2023]开发了一个在六个数据集上进行实验的pipeline平均准确率达到了90.05%而其他zero-shot方法仅达到了60%-70%的准确率但这是一个相当简单的二元分类任务pipeline工程技巧可能对其他文本分类任务不可用。
对于分类任务有几个关键发现首先在zero-shot分类设置下ChatGPT的表现很好但仍然落后于监督模型。其次当标签空间增加时ChatGPT的准确率显著下降。第三即使提供了一些演示知识转移在领域外分类任务中几乎不可能发生。第四当存在与目标任务相关的公共数据时ChatGPT的分类性能往往很好。
生成
摘要
文本摘要旨在将文本或文本集合转换为包含关键信息的简短文本。简洁性是摘要的主要目标之一然而一些研究指出在提示中没有长度限制时由ChatGPT生成的摘要往往是冗余的。这可以通过使用限制性提示来改善从而在精确度和召回率之间取得平衡。
尽管ChatGPT在zero-shot设置下表现良好但在基于自动评估指标的精细调整最新模型中仍表现不佳。例如精细调整的BART远远优于zero-shot ChatGPT。在多文档摘要中[Caciularu等2023]设计了新颖的预训练目标他们的模型明显优于基于GPT的大语言模型。对于生物医学任务等特定领域ChatGPT在具有专门训练集的数据集中表现比精细调整的BioBART差得多。然而在缺乏大量训练数据时zero-shot ChatGPT比领域特定的精细调整模型更有用表现出其良好的zero-shot性能。
由ChatGPT生成的摘要往往受人类偏好因为它们具有较少的语法错误更加流畅和连贯。与此同时这些摘要的信息量不高。通过人类反馈的强化学习导致ChatGPT倾向于关注语言方面但在确保忠实于事实信息和与原始来源的一致性方面有困难因此它可能会过度拟合不受限制的人类评估这受到标注者的先验、与输入无关的偏好的影响。
有时候特别是在专业和技术领域ChatGPT可能不够可靠因为它可能会自信地产生事实上不正确的输出。[Ye等2023]已经确认在二进制代码摘要中ChatGPT只具有对汇编代码的基础理解没有任何更高层次的抽象语义理解。在合同摘要中[Sancheti等2023]指出ChatGPT中的幻觉使得执行此任务变得困难。一些研究得出了相反的结论因为提示设计可以极大地影响ChatGPT的性能。例如[Qin等2023b]发现控制摘要长度可能会损害ChatGPT的摘要能力这与本节前面提到的内容相反表明ChatGPT的不稳定性。
总的来说ChatGPT在zero-shot摘要中表现良好其摘要更符合人类的偏好但在基于自动评估指标的精细调整模型下表现不佳信息量也不高。此外由于幻觉和不稳定性ChatGPT不太可能在专业领域的摘要中发挥作用。
问答和对话
问答QA和对话任务可以评估ChatGPT的检索、理解和生成能力。在开放领域的问答中[Bai等2023]对几个大语言模型进行了基准测试并证明了ChatGPT的近乎完美的性能。在提供错误前提的情况下ChatGPT在明确指出错误前提方面表现良好。在实践中ChatGPT的表现与传统的基于检索的方法相当但落后于像Bing Chat这样的新型语言模型。
[Nov等2023]使用ChatGPT来回答健康问题患者对聊天机器人功能的信任响应相对积极普通人似乎信任使用聊天机器人来回答较低风险的健康问题。但是随着问答任务的复杂性增加人们对ChatGPT的响应信任降低。此外无论使用广泛和多样化的训练语料库ChatGPT在资源匮乏的问答上表现不佳。
[Feng等2023]证实了ChatGPT在对话状态跟踪方面优于先前的方法而较小的精细调整模型可以达到可比较的性能。在开放领域的对话中ChatGPT可以生成流畅的响应但在自动评估指标上落后于精细调整的GPT-2并在某些配置下略微不及Claude。在任务导向的对话中ChatGPT在生成响应时往往难以区分检索到的知识库记录中的微小差异并且往往会在给定的知识之外生成幻觉信息。
总的来说在简单的开放领域任务中ChatGPT表现良好人们更喜欢其响应。然而在复杂、资源匮乏或任务导向的场景中它仍然有很大的改进空间。
机器翻译
机器翻译指的是将一种自然源语言转换成另一种目标语言的过程。作为大语言模型最常见的用途之一它极大地促进了现代生活。ChatGPT在高资源语言如欧洲语言之间的翻译效果很好甚至与商业系统不相上下但是当面对低资源语言时它落后于精细调整的模型和商业系统。另一个普遍的发现是ChatGPT在XX → Eng任务中翻译效果良好但在Eng → XX翻译方面仍然缺乏能力。与其他任务类似ChatGPT在机器翻译中表现不稳定有时会出现遗漏和明显的抄袭行为。
与其他翻译系统不同的是ChatGPT能够更好地建模长期依赖关系并捕捉话语层面的信息而其他系统更注重词级准确性导致ChatGPT更受人类欢迎。此外ChatGPT具有零代词解析和恢复的能力这是自然语言处理中最困难的问题之一。因此我们可以得出结论由ChatGPT生成的翻译更注重整体语言质量在高资源语言上表现出色但在词级准确性和低资源语言上ChatGPT的表现不及精细调整的模型。
改写和数据增强
ChatGPT在数据增强和改写等任务中效率高且成本效益高。几项研究表明ChatGPT可以生成更多样化的数据在改写生成方面显示出类似于从人类工作者收集的数据的模型稳健性。例如[Jon和Bojar2023]使用ChatGPT为一个句子生成了40个不同的改写而[Michail等2023]使用ChatGPT生成的合成推文作为训练数据这些方法取得了预期的效果。但是ChatGPT也有缺点它不会为命名实体如地点、歌曲、人名等产生替代名称这是众包数据处理得很好的方面。尽管如此对于这些任务来说它仍然是一种高效且成本效益高的选择。
可控生成
可控生成旨在生成具有特定特征的文本近年来受到了广泛关注。尽管ChatGPT可以符合人类的偏好但在可控生成任务中表现不佳。[Pu和Demberg2023]提示ChatGPT为普通人和专家生成不同摘要尽管其胜过先前的最先进模型但生成的摘要与人类撰写的文本相差甚远。一些研究发现ChatGPT未能正确遵循数值限制这可能是由于错误的token化引起的。另一项研究由[Valentini等2023]尝试让ChatGPT为不同年龄段的儿童生成故事他们发现ChatGPT无法避免使用复杂词汇因此生成的故事可读性明显低于人类撰写的故事。此外ChatGPT在一些其他任务上表现不佳例如去文本化和复杂受控改写生成。尽管ChatGPT在上述精细的严格约束下表现困难但它可以处理粗略的约束。例如zero-shot ChatGPT在内容受限的文本生成如情感和关键词约束上优于监督基线。此外它可以在给定故事开头文本的情况下继续写出更流畅、更连贯的故事。ChatGPT擅长模仿而不是掌握复杂的理解、组织和生成能力因此它在硬控制信号方面表现不佳。
其他生成任务
ChatGPT可以用于各种生成任务。对于代码生成[Liu等2023]根据他们提出的评估框架显示两个开源模型可以优于ChatGPT。[Singh等2023]指出在Bash和CF规则的代码生成方面ChatGPT表现不及T5。[Xiao等2023]利用ChatGPT在教育领域由ChatGPT生成的阅读材料和相应的练习题都适合学生甚至超过了现有人工撰写的内容的质量。还有其他使用ChatGPT的生成任务例如生成阅读理解测试中的多项选择项的解释提供片段和提示来推导问答对给定一个句子和一个实体来生成与该实体相关的问题ChatGPT在这些任务中表现良好有时甚至与人类相媲美。
当涉及到生成建设性或复杂内容时ChatGPT往往表现不佳。例如在教育方面ChatGPT可以充当教学辅导员但在生成富有见地和新颖的反馈方面仍有改进空间。[Jentzsch和Kersting2023]尝试弄清楚ChatGPT是否有幽默感。ChatGPT只能识别、复制和解释符合固定模式的双关语无法产生原创的有趣内容因此ChatGPT只能学习特定的笑话模式而不能真正有趣。
对于文本生成任务ChatGPT的主要优势在于它具有良好的写作能力和与人类价值观的一致性这解释了为什么它在一些简单的生成任务上与人类表现相当。但是在需要生成创造性内容或理解复杂的语义特征和句法分析的任务中它仍然表现不佳。
序列标注
序列标注是将标签分配给序列中的单词或短语例如命名实体识别NER、词性标注和名词短语识别。传统的统计方法使用隐马尔可夫模型HMM或条件随机场CRF进行序列标注当前的最先进方法依赖于具有CRF的深度表示。与分类或生成任务不同序列标注任务的标签是针对局部文本片段的并且文本片段的特征表示通常限制在一个小窗口内。[Xie等2023]对zero-shot NER进行了实证研究将NER任务分解为更简单的子问题并通过标签对其进行了拆分同时实验了句法提示和工具增强在中英文场景以及领域特定和通用领域数据集上验证了他们方法的有效性。
信息检索
典型的信息检索系统包括两个步骤在第一步给定一个query在第二步搜索相关的文档并对返回的文档进行排序。许多工作已经将LLMs应用到信息检索过程中。LLMs可以辅助四个通用模块重写器、检索器、重新排名器和阅读器。
重写器是一个重要的IR模块旨在提高用户query的精确性和表达性。query重写在两种情况下起作用一是即时检索它弥合了query和文档之间的词汇不匹配二是会话搜索它根据不断演变的对话迭代地完善和调整系统响应。例如Query2Doc [Wang et al., 2023c]通过少量提示LLMs生成伪文档然后使用生成的伪文档扩展query。LLM4CS [Mao et al., 2023]利用ChatGPT作为基于文本的搜索意图解释器来帮助会话搜索使用了三种提示方法生成多个query重写和假设响应这些query重写被聚合成一个集成的用户query表示。
检索器通常用于IR的早期阶段以提高召回率经典的词袋模型BM25在许多检索任务中表现出强大的鲁棒性。SGPT [Muennighoff, 2022]将GPT模型修改为跨或双编码器以进行语义搜索。GENRET [Sun et al., 2023c]通过离散自动编码方法学习将文档token为短离散表示。
重新排名器是另一个重要的模块它返回一个相关文档的有序列表。它作为细粒度文档过滤的关键部分。UPR [Sachan et al., 2022]使用LLMs对检索到的段落进行评分并根据问题上的对数似然得分对段落进行重新排序。
阅读器或内容生成可以被视为信息管理的最后过程它可以将搜索到的文本压缩成用户友好的输出。GenRead [Yu et al., 2022]首先提示一个大语言模型根据给定的问题生成上下文文档然后阅读生成的文档以产生最终答案。
尽管生成能力在LLMs的预训练目标和排名目标之间带来了一些差异但两项最近的研究 [Zhang et al., 2023a]已经表明与强基线相比ChatGPT在IR任务上取得了有竞争力的结果。[Zhang et al., 2023a]在从专业和普通文档中检索需求信息方面对ChatGPT进行了实证评估在zero-shot设置下定量和定性结果均显示ChatGPT具有检索需求相关信息的良好能力高召回率和检索更具体需求信息的有限能力低精确度。类似地[Sun et al., 2023b]探索了ChatGPT在各种段落重新排序基准上的指导方法并验证了其对监督模型的能力。
分析
在统计时代的NLP中解析是其支柱。许多高级NLP任务如机器翻译和信息提取都依赖于成分解析或依赖解析。在神经时代解析步骤可以被跳过因为文本的分布式表示可以直接馈送到下游任务中。因此如今解析任务通常可以通过序列到序列学习来解决。[Sun et al., 2023a]比较了ChatGPT与其他五个开源LLMs在文本到SQL解析任务上的性能。发现与封闭源模型相比开源模型的性能明显不足。然而值得注意的是即使是GPT-3.5在几个经典的文本到SQL解析数据集上也比较小的基线模型表现差。
推理
推理是人类智能的基本组成部分它是根据过去的经验或背景以逻辑和系统的方式思考前提的过程。目前尚不清楚LLMs是否具有真正的推理能力。从“LLMs是少样本学习者”的早期主张开始关于推理的其他类似主张包括“LLMs是体面的zero-shot推理者”以及“LLMs在常见的规划/推理任务上仍然远未达到可接受的性能”或者LLMs尚不能自我修正推理。在概述改进LLMs推理技能的技术以及评估推理能力的方法和基准之后发现LLMs是否根据真实推理还是启发式进行预测还不清楚。它们逐步推理并返回原因可能是不正确和不一致的。
一些最近的工作分析了ChatGPT的具体推理能力。例如[Jang和Lukasiewicz2023]调查了逻辑推理中的四个属性语义等价、否定、对称性和转移并显示ChatGPT表现出增强的否定和传递一致性但仍然会犯违反逻辑属性的错误。此外当输入文本被改写或输入句子的顺序被改变时ChatGPT经常会改变其答案。[Wang et al., 2023a]通过辩论探索了ChatGPT的推理能力他们首先获得ChatGPT的初始解决方案并对在其中获得正确答案的示例进行评估。然后他们通过在错误的目标答案上进行条件推断来合成无效的解决方案。然后他们在ChatGPT和用户之间由ChatGPT条件化的无效解决方案模拟开始了类似辩论的对话以查看ChatGPT在辩论过程中是否能够坚持并捍卫其对真理的信念。结果发现ChatGPT的信仰和怀疑并不稳健并且很容易受到用户的干扰它经常承认或被用户的无效回答/论点所误导尽管它能够在开始时产生正确的解决方案。
[Qin et al., 2023a]对ChatGPT进行了算术、常识、符号和逻辑推理的实验结果表明在使用链式思维进行算术推理时ChatGPT的表现优于GPT-3.5但在常识推理中使用链式思维并不总是提供更好的性能而且在许多情况下它甚至比GPT-3.5的符号和逻辑推理表现更差。在法律应用中[Kang et al., 2023]表明ChatGPT可以产生合理的答案但大多数情况下未能提供与法律专家一致的正确推理路径。通过提供部分标注的推理路径包括上下文学习的类似标注场景和将复杂问题分解为更简单问题可以提高其性能。
总的来说我们发现ChatGPT是否具有真正的推理技能还是仅基于记忆进行预测还不清楚。此外诸如链式思维之类的技术会导致不一致的生成。提示和使用更大的语言模型可能不是解决推理问题的最终解决方案。我们建议将启发式和概率例如贝叶斯网络推理引入LLMs中以增强它们的推理能力。
多语言能力
许多研究表明当输入语言为英语时ChatGPT的性能更好一个重要原因是训练数据集严重偏向于英语。[Zhang et al., 2023b]采用了一种提示回译方法并显示ChatGPT可以在翻译等价任务中返回一致的结果但在翻译变体任务中难以提供准确的答案。[Khondaker et al., 2023]对44个阿拉伯语理解和生成任务对ChatGPT进行了评估并发现它在总体上被一直被细调过的较小模型所超越这些模型已经在阿拉伯语上进行了微调。
混合任务
有一些研究调查了ChatGPT是否是特定领域的通用求解器。[Jahan et al., 2023]表明与生物医学领域的微调模型如BioGPT和BioBART相比ChatGPT在生物医学领域的表现相当差而在训练数据量较小的数据集上它的表现则优于微调模型。[Li et al., 2023b]对ChatGPT进行了实证研究并指出它在金融领域可以与微调模型竞争但在需要更深层次的语义和结构分析的任务上仍然落后。
社会影响与安全
在下表2中列出了 ChatGPT 最近关于社会影响和安全问题的工作 社会影响偏见和公平性源自哲学概念即模型应该平等对待人类。然而偏见可能是由于无意识行为引起的来源包括训练数据收集、模型设计和人类交互与标注等。最近[Ra2023]的研究将偏见分类为不同类别如种族和性别偏见、语言偏见、文化偏见、地域偏见等。ChatGPT对英语表现出强烈的语言偏见[Wang等人2023年]研究了ChatGPT的首位效应并显示ChatGPT的决策对提示中标签的顺序敏感它更有可能选择在前几个位置的标签作为答案。
[España-Bonet2023]发现了2023年ChatGPT的政治和语言偏见在2023年2月至8月期间ChatGPT从左翼转变为中立政治取向在中间出现了向右倾斜的时期而到2023年8月为止的当前版本在4种语言中一直呈现左倾。[Deshpande等人2023]揭示了当ChatGPT被分配了一个角色时与默认设置相比它可能会显著地具有有毒和不安全的倾向。其他社会因素还考虑了伦理[Stahl和Eke2024]、对就业的影响[George等人2023]以及能源消耗[Rane2023]。
安全ChatGPT的隐私攻击是通过不断的提示修改来实施的。ChatGPT的训练数据隐私是通过多轮提示修改来提取的。一些研究调查了开源LLM的隐私保护主要遵循两种方法通过修改学习目标函数进行遗忘或直接编辑选定的神经元。[Huang等人2023b]发现kNN-LM比参数模型更容易从其私有数据存储中泄露私人信息用于检索式语言模型。另一个安全问题是虚假信息的传播[Li等人2023a]表明ChatGPT可以植入数据并误导使用真实新闻训练的虚假新闻检测系统。与此同时对ChatGPT的对抗性攻击可以通过向用户query附加特殊字符序列来进行这将导致系统遵循用户命令即使产生有害内容也是如此。
随着时间推移的表现
机器学习模型的泛化能力对于在未见数据上的应用至关重要。许多研究人员认为大语言模型是几乎zero-shot学习者因为一些大语言模型在预训练阶段已经接触过一系列任务示例因此对于这些任务而言它们不再是zero-shot或几乎zero-shot。此外对于没有可能受到任务污染的分类任务[Li和Flanigan2023]显示大语言模型在zero-shot和几乎zero-shot设置中很少表现出与简单的多数基线相比的统计显著改善。[Chen等人2023]还证明GPT-3.5和GPT-4的行为在相对较短的时间内有了显着变化例如2023年6月GPT-4对回答敏感问题的意愿较3月份更低而2023年6月无论是GPT-4还是GPT-3.5在代码生成方面的格式错误都比3月份更多。
挑战与机遇
还值得注意的是最近的LLM排行榜如AlpacaEval和Chatbot Arena Leaderboard显示一些参数较少的开源模型已经实现了与gpt-3.5-turbo类似或更好的NLP能力。然而公共模型是否存在测试数据污染尚不清楚。我们确定了封闭和开放式大语言模型评估的三个关键挑战
可解释性提供有意义的解释是可信系统的关键部分。 ChatGPT可以提供带解释的答案。然而一些研究表明ChatGPT返回的解释在上下文中并不一致。我们在此说明了两种可解释LLM的方法一种是构建多代理系统并为解释功能分配特定代理另一种方法是为说明性训练数据配备可解释项目这可能会更昂贵。
持续学习随着新数据和任务的到来持续学习能力变得越来越重要。 典型的持续学习方法如记忆重播、正则化和模型架构重新设计对于像ChatGPT这样的LLM来说并不可扩展。更有效的方法使用冻结和微调方法例如Adapter[Pfeiffer等人2020]和LoRA[Hu等人2021]。最近的专家混合方法[Diao等人2023]促进了学习和遗忘之间的权衡并且可以是LLM持续学习的更应用方法。
轻量级建模ChatGPT的巨大规模限制了其在本地部署上的应用。 最近的研究涉及小型语言建模包括从LLM中蒸馏模型、在更大数据集上训练小型LM和超参数化。然而目前还不清楚在小模型上使用更大数据还是在更大预训练模型上使用更小数据对于生成式语言建模效果更好。
结论
大型语言建模的研究正在进行中可靠的模型评估至关重要。本文回顾了ChatGPT在不同NLP任务上的实际表现水平并发现在许多任务中它经常表现不及微调模型。其zero-shot或几乎zero-shot学习能力在很大程度上取决于其大量的训练数据而这些数据对公众不可见。其性能随时间的降低可能会阻碍其广泛的应用。此外其偏见显著且随时间变化。
参考文献
[1] A Survey on the Real Power of ChatGPT