大庆网站优化,二次开发源代码,可视化网站开发工具有哪些,北京国贸网站建设1956年夏#xff0c;“人工智能” 这一概念被提出。距今已有近70年的发展历史。中国科学院将其划分为六个阶段#xff1a;起步发展期#xff08;1956年—1960s#xff09;#xff0c;反思发展期#xff08;1960s-1970s#xff09;,应用发展期#xff08;1970s-1980s),低… 1956年夏“人工智能” 这一概念被提出。距今已有近70年的发展历史。中国科学院将其划分为六个阶段起步发展期1956年—1960s反思发展期1960s-1970s,应用发展期1970s-1980s),低迷发展期1980s-1990s,稳步发展期1990s-2010,以及蓬勃发展期2011-。真正的大模型历史还要从2006年Deep Learning首次在Science上发表开始然而在2012年之前大模型的探索与学习的关注度并不是很高。直到2022年11月OpenAI推出了搭载GPT3.5的ChatGPT人类因其的诞生而宣布进入强人工智能时代其划时代意义也得到广泛认可。他所引发的人工智能“地震”便是“群模起舞”。根据赛迪顾问发布的《2023大模型现状调查报告》显示截至2023年7月底国外累计发布大模型138个中国则累计有130个大模型问世。相关科技企业更是将大模型运用于各个领域如办公金融医疗文娱教育交通能源等等。在技术进步和创新喷涌的热潮中人们关注的焦点集中于我们究竟需要什么样的大模型何种大模型是通向人工智能的最终答案这也就是今天的主题大模型评测的力量。 大模型评测的必要性与挑战 评测的意义 对于大模型研发人员来说大模型效果的对比反映出了背后不同技术路线和技术方法的实效性。这提供了非常重要的参考意义。一方面大家既能把握当下的发展水平、与国外顶尖技术的差距更加清晰地看明白未来的努力方向而不被资本热潮、舆论热潮所裹挟。另一方面模型开发方面的相互参考与借鉴帮助大家选择最佳的技术手段避免重复实验带来的资源浪费有助于整个大模型生态圈的良性高效发展。 对于产业界来说研究测评可以更好的为人类与大模型的交互进行指导和帮助。尤其是对于不具备大模型研发能力的公司熟悉大模型的技术边界、高效而有针对性地做大模型技术选型尤为重要。大模型评测领域的第一篇综述文章《A Survey on Evaluation of Large Language Models》更是指出在安全性和可靠性方面评测可以更好地统筹和规划大模型未来的发展的演变、防范未知和可能的风险。 但是国内大模型百花齐放能力参差不齐。研究者和大模型爱好者们对谁是国产大模型界的扛把子争论不休。于是就像手机测评、汽车测评一样各路测评机构、评测基准应运而生。各大模型也争相在排行榜上一显身手于是开始夸大其词避重就轻捎带上GPT 3.5/4.0 进行对比来凸显自己的能力。所以业界急需一个公开、公正、公平的大模型评测系统让大家摒弃浮躁静下心来打磨前沿技术真真正正用技术实力说话。 评测的挑战性 首先我们必须要承认到底怎么测评大模型的能力没有人能给出准确的答案。想要全面、客观、准确的测出一个大模型的能力且让所有人认可、达成共识这件事本身具有非常大的难度。这里我们列举出一些公认的难点 1.能力考核点的覆盖性与正交性 一方面对于覆盖性来说大模型的能力不再限制于传统NLUNature Language Understanding的下游任务那么一个完整的测试项清单应该包括哪些能力另一方面对于我们能想到的一些常提及的大模型能力。比如理解能力代码能力推理能力写作能力多轮对话能力说起来字面意思很好理解可是如果想整理出一个技能树每个任务对应的技能能力基本是一对多的关系。比如文本分类可能涉及到在文本中找到对应信息再进行一些逻辑运算得出结论。那么它对应的是理解能力还是推理能力。 2.测试集中case的多样性和复杂性 模型的差异在复杂程度低的时候往往差距不大比如几乎所有模型都可以正确回答出11等于几但是如果问题的难度超过一定阈值就有机会看出明显的差距比如问题是5648261563 / 7711是多少 高下立见。当指令从单种语言“中国的首都是哪里”变成中英文夹杂 中国的capital是哪里就可以更好测评模型的双语能力。所以测试case的复杂性和多样性能帮助提高结论的可靠性。 3.公平性与透明性的权衡 就算是解决了以上两个问题仍然有一个棘手的问题就是开源和闭源之间的选择也就是公平性和透明性之间的权衡问题。如果闭源就会引起公众对公平性和权威性的质疑可是如果开源就有可能造成数据泄露导致受试模型提前训练以提高分数。比如一篇极具讽刺意味的论文《Pretraining on the Test Set Is All You Need》中的尝试用huggingface上的众多评估基准数据创建了一个高质量数据集并借助这一数据集完成了一个基于 Transformer 的语言模型的预训练这个模型被命名为 phi-CTNL。phi-CTNL 在各类学术基准测试中表现得相当完美胜过了所有已知的模型。 4.结果的量化 所有的评测最后都需要需要一个量化的结论这也是现在比较多的做法是让模型做选择题的原因。但是正常使用情况下模型和人的交互形式往往不是选择题。所以测评测评也还需要主观开放题。对于主观开放题的打分理论来说人工评估是最保险的但是这样一方面引入了潜在的人类偏见。另一方面效率低下且成本过高。目前业界做法通常是chatgpt或者gpt4去打分这样难度就转换了打分prompt的写法它需要考虑的点有两个一个是怎么写使得gpt4能够更好的理解当前的另外一个是怎么约束好输出。 测评体系的多维度 评估大模型的通用能力不仅是对其在特定任务上的准确性能进行度量还应当探究大模型在广泛、多样化的任 务和场景中的适应性、安全性和鲁棒性。 - 多任务学习评测能够检测模型是否能在多种任务上保持其性能从而真实地反映其泛化能力我们用一些知名的数据集做举例说明BIG-bench谷歌公开的由 204 项任务组成的数据集任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等领域的问题。包含了 204 项任务CMMLU上海交通大学微软亚洲研究院合作开的中文大模型基准涵盖了 67 个主题涉及自然科学、社会科学、工程、人文、以及常识等C-Eval由上海交通大学清华大学爱丁堡大学共同完成。覆盖人文、社科、理工、其他四个大方向52 个学科M3KEMassive Multi-Level Multi-Subject Knowledge Evaluation基准。涵盖了中国教育体系的所有主要层次从小学到大学以及包括人文学科、历史、政治、法律、教育、心理学、科学、技术、艺术和宗教等各种学科。AGIEval由微软发布包括20种面向普通人类考生的官方、公开、高标准往常和资格考试如普通大学入学考试中国高考和美国 SAT 考试、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。FlagEval由智源研究院联合多个高校团队打造的天秤数据集包括 5 种任务30 多种能力SuperCLUE综合性大模型评测基准聚焦于四个能力象限细化出基础能力12项。 - 特别适配大语言模型agent能力的基准比如AgentBench一个多维演进基准测试包括8个不同环境用于评估大型语言模型LLMs在多回合开放式生成环境中的推理和决策能力。 - 零样本或少样本学习评估可以揭示模型在面对少量或没有标注数据的任务时的快速适应性很多测评平台都考虑到这一点除了支持多种数据集之外都还支持支持零样本、小样本及思维链评测结合标准型或对话型提示词模板。比较有代表性的测评平台如OpenCompass 提供 70 个数据集的模型评测方案CLEVA包括31个任务也就是11个应用评估20个能力评测任务HELM支持119个场景测评 。
- 对抗性测试可以评估模型对输入扰动的鲁棒性比如promptbench,探究了大模型在处理对抗提示的鲁棒性。
- 安全性在中国市场中大模型必须遵守中国的数据安全法规、考虑中文语言的特殊性、以及本地化应用的需求。例如safetybench涵盖了7个不同的安全风险领域同时包括了中文和英文数据便于双语评估TRUSTGPT(毒性、偏见和价值对齐三大方面的测评基准)以及TRUSTWORTHY LLMS(提出LLM对齐的分类法和评估LLM对齐能力的评估方法包括如何构建评估的数据集。 主流测评体系的现状与意义 仍然缺少统一标准上文提及的测评平台和很多综合的测评体系如HELMOpenCompass和FlagEval等等在某些数据集上有所交集例如C-Eval、CMMLU和MMLU但它们也都有各自独特的测评项。这种多样性意味着每个榜单都可能对模型的某些方面进行更深入的评估。 评测策略的多变性同一数据集可能因为评测策略的不同而导致模型得分的巨大差异。例如prompt构建时轻微区别例如多一个回车后者冒号都会导致不同的测评结果不同。以及开源模型的最终答案是按照最终输出的字符还是按照选项的概率确定。这些策略都会导致得分不同。 数据泄露这里我直接引用ceval官网上写的一段话”任何评测都有其局限性以及任何的榜单都可以被不健康的刷榜“为了模型排名高有的人就会选择走捷径比如让能力强的模型知识蒸馏喂给自己的模型以及将基准直接混进训练集。这样得到的测评出的能力并不是模型真正的泛化能力同时也很大机会加剧模型幻觉。 人工评测的主观性尽管Chatbot Arena 这种基于竞技场的评测方式试图实现公正性但其仍然受到人工评价的影响。人的评价往往带有主观性这可能会对评测结果产生不同程度的偏见。大模型评测的核心目的是确定模型的“聪明”程度深入探讨其性能、特点和局限性为行业应用提供方向。通过评测我们可以更好地了解模型的性能、特点、价值、局限性和潜在风险并为其发展和应用提供支持。 大模型落地评测体系应如何设计 “千模大战”的今天不仅技术层面的 CIO、CDO和 CTO表现出浓厚的兴趣企业的各个业务单元、包括 CEO在内的高级决策层几乎都在第一时间启动了密切地关注与讨论也都在思考如何把大模型技术应用到自己企业场景中为业务经营带来更多降本增效。所以根据现有的业务场景用正确的方法比较和选择大模型是很关键的。比如在流程自动化要求高的场景下就应该使用测评agent能力的基准评测模型的agent能力如果是客服与营销环节专业服务要求高容错性低对安全合规的要求就需要一些评测幻觉的基准比如TruthfulQA、HADES、HalluQA、ChineseFactEval、UHGEval等等同时也要对模型的价值观和伦理道德等安全稳定性进行评测。换句话说一个完整的测评体系还要有端到端任务评估能力或者根据业务场景抽象出所对应的模型能力项将业务场景能力转化为模型基础能力的集合。 同时针对通用大模型往往不能满足企业应用场景下的不同需求市场上出现了不少行业大模型以及用企业的私有数据做训练和微调的做法。所以测评模型微调前后能力对比也是重要的一环。模型经过微调之后在专业上是否能力真的得到了提高便是重点。另外与生物神经网络相比较现有的深度神经网络存在一个显著缺陷人工智能体缺乏像生物一样不断适应环境以及增量式持续学习的能力具体体现就是学习了新的知识之后几乎彻底遗忘掉之前习得的内容也被称为灾难性遗忘。所以微调后的模型通用能力是否丧失原有的通用能力也是一项评估重点。 在最后的落地部署方面也还有两大要素需要考虑一个是工程化层面需要对系统的稳健性和效率进行评测可能包括的指标平均报错率、llm agent与底层 API 交互的次数等。另一个是系统设计方面需要考虑整个系统的性能评测这里就涉及到业务场景完成时端到端的运行效率、延时以及成本等。 综上所述人们常说的大模型落地的最后一公里有半公里在于落地测评体系的搭建。 大模型评测的未来趋势与挑战 1.权威性和认可度对于大模型的测评缺少像旧时NLU领域被学者机构广泛认可的GLUE数据集。GLUE包含九项NLU任务语言均为英语。GLUE九项任务涉及到自然语言推断、文本蕴含、情感分析、语义相似等多个任务。像BERT、XLNet、RoBERTa、ERINE、T5等知名模型都会在此基准上进行测试。目前很需要一个中立的角色出现做出一个统一认可的基准。 2.可解释性现有的评测方法主要通过问答的方式对大模型进行评测一方面难以全面评估大模型在特定场景或特定环境下的能力另一方面无法深入揭示这些风险产生的内在原因。大模型本身仍是一个黑盒再加上大多数大模型往往不会详细透露其训练数据来源或公开其训练数据所以对于模型的输出可解释性仍是挑战。 3.动态评测现有的评测方法通常是静态评测。一方面大模型的训练数据来源广泛且规模庞大静态测试样本可能已经包含在其训练数据中。另一方面知识每时每刻都在迭代更新静态评测的数据中的知识有可能会过时。随着大模型的能力不断的增强原有的静态评测数据的难度可能无法满足大模型的能力需求。这些因素都削弱了静态评测的公平性。因此动态测评法才更能全面公正的对大模型进行评测持续更新测试样本引入开放式问题并探索评测新方法如使用多个大模型通过辩论的方式进行评测。 4.以优化大模型为目标的评测与前文提到的走捷径相对的就是困难但正确的路也就是自己自主开发。这就涉及到超参数搜索微调结果对比等动作。但现有的评测方法主要使用具体的评分量化大模型在某些特定任务或某些特定维度的能力虽然这些评分便于模型之间的比较和选择但它们包含的信息难以指导模型的进一步优化。因此需要以优化大模型为目标的评测方法这种方法不仅给出模型的能力评分同时也提供对应的能力分析和改进建议。 写在最后 目前行业内缺乏统一评测标准尚未出现一个广泛认可的大模型评测标准或方法各评测机构和组织可能会提出不同的评测标准和方法。尽管如此行业普遍认为评测为用户提供了选择大模型的选择参考同时为研发者提供了改进的方向。我们殷切期待大模型的评测技术可以早日在技术性能、行业应用、安全性和行业认知等多个维度综合评估大模型。大模型本身就是耗时耗力的事GPT 系列从 GPT-3 走到 GPT-4从 2019 到 2023一共花了四年的时间。Anthropic 团队即使有离开OpenAI之前 GPT-3 的经验重新做一遍 Claude 也花了一年的时间。我们也殷切期待国产大模型有朝一日真正超越ChatGPT。
*本文插图使用 AI 生成