白酒网站源码,炫酷网站界面设计,内乡网站建设,马边彝族移动网站建设AI Agent无疑是大语言模型当前最热门且最具前景的方向#xff0c;也是通往AGI的必经之路#xff0c;下面我们从基本概念和系统能力层面来逐步揭开AI Agent的神秘面纱。 一、概念解析
1、什么是AI Agent#xff1f;
AI Agent#xff08;人工智能代理#xff09;是一种能够… AI Agent无疑是大语言模型当前最热门且最具前景的方向也是通往AGI的必经之路下面我们从基本概念和系统能力层面来逐步揭开AI Agent的神秘面纱。 一、概念解析
1、什么是AI Agent
AI Agent人工智能代理是一种能够自主理解、规划决策、执行复杂任务的智能体。不同于传统的人工智能AI Agent具备通过独立思考、调用工具去逐步完成给定目标的能力。比如告诉AI Agent帮忙下单一份外卖它就可以直接调用App选择外卖再调用支付程序下单支付无需人类去指定每一步的操作。 Agent的概念由明斯基“AI之父”在其1986年出版的《思维的社会》一书中提出明斯基认为社会中的某些个体经过协商之后可求得问题的解这些个体就是Agent。他还认为Agent应具有社会交互性和智能性。Agent的概念由此被引入人工智能和计算机领域并迅速成为研究热点。但苦于当时数据和算力限制想要实现真正智能的AI Agents缺乏必要的现实条件。 Hyperwrite研发的AI Agent个人助理插件实现自动预订航班机票 近年来随着大型语言模型LLMs的发展AI Agent的概念框架也在不断演进包括大脑、感知和行动这三个主要组成部分。这些进展不仅推动了AI Agent在知识获取、指令理解、泛化、规划和推理等方面展现出的强大潜力也为实现通用人工智能AGI提供了新的可能性。 LLM和AI Agent的区别在于AI Agent可以独立思考并做出行动和RPA机器人流程自动化Robotic Process Automation的区别在于它能够处理未知环境信息。 ChatGPT诞生后AI从真正意义上具备了和人类进行多轮对话的能力并且能针对相应问题给出具体回答与建议。随后各个领域的“Copilot”推出如Microsoft 365 Copilot、GitHub Copilot、Adobe Firefly等让AI成为了办公、代码、设计等场景的“智能副驾驶”。AI Agent和大模型的区别在于大模型与人类之间的交互是基于prompt实现的用户prompt是否清晰明确会影响大模型回答的效果例如ChatGPT和这些Copilot都需要明确任务才能得到有用的回答。 而AI Agent的工作仅需给定一个目标它就能够针对目标独立思考并做出行动它会根据给定任务详细拆解出每一步的计划步骤依靠来自外界的反馈和自主思考自己给自己创建prompt来实现目标。如果说Copilot是“副驾驶”那么Agent则可以算得上一个初级的“主驾驶”。和传统的RPA相比RPA只能在给定的情况条件下根据程序内预设好的流程来进行工作的处理在出现大量未知信息、难以预测的环境中时RPA是无法进行工作的AI Agent则可以通过和环境进行交互感知信息并做出对应的思考和行动。 AI Agent的工作流程 2、AI Agent的终极目标AGI
AI Agent并不是一个新兴的概念早在多年前就已在人工智能领域有了研究。例如2014年由DeepMind推出的引发全球热议的围棋机器人AlphaGo也可以看做是AI Agent的一种。与之类似的还有2017年Open AI推出的用于玩《Dota2》的OpenAI Five2019年DeepMind公布用于玩《星际争霸2》的AlphaStar等这些AI都能根据对实时接收到的信息的分析来安排和规划下一步的操作均满足AI Agent的基本定义。 当时的业界潮流是通过强化学习的方法来对AI Agent进行训练主要应用场景是在游戏这类具有对抗性、有明显输赢双方的场景中。但如果想要在真实世界中实现通用性基于当时的技术水平还难以实现。 大语言模型的浪潮推动了AI Agent相关研究快速发展。AI Agent需要做到能够像人类一样进行交互大语言模型强大的能力为AI Agent的突破带来了契机。大模型庞大的训练数据集中包含了大量人类行为数据为模拟类人的交互打下了坚实基础另一方面随着模型规模不断增大大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为AI Agent的核心大脑就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。大模型的快速发展大幅推动了AI Agent的发展。 AlphaGo战胜柯洁 通往AGI的道路仍需探索AI Agent是当前的主要路线。在大模型浪潮席卷全球之时很多人认为大模型距离真正的通用人工智能AGI已经非常接近很多厂商都投入了基础大模型的研究。但经过了一段时间后大家对大模型真实的能力边界有了清晰的认知发现大模型仍存在大量的问题如幻觉、上下文容量限制等导致其无法直接通向AGI于是AI Agent成为了新的研究方向。 通过让大模型借助一个或多个Agent的能力构建成为具备自主思考决策和执行能力的智能体来继续实现通往AGI的道路。Open AI联合创始人Andrej Karpathy在一次开发者活动中讲到Open AI内部对AI Agents非常感兴趣AI Agent将是未来AI的前沿方向。 AI Agent 的最终目标是通向AGI AI Agent可以类比为自动驾驶的L4阶段距离真正实现仍有差距。根据甲子光年报告AI与人类的协作程度可以和自动驾驶等级进行类比。像ChatGPT这类对话机器人可以类比L2级别自动驾驶人类可以向AI寻求意见但AI不直接参与工作Copilot这类副驾驶工具可以类比为L3级别的自动驾驶人类和AI共同协作完成工作AI根据prompt生成初稿人类仅需进行修改调整而Agent则进一步升级为L4人类给定一个目标Agent可以自己完成任务规划、工具调用等。但就如同L4级别的自动驾驶还未真正实现一样AI Agents容易想象和演示却难以实现AI Agents的真正应用还在不确定的未来。 甲子光年将AI和人类协作的程度类比自动驾驶的不同阶段 二、能力拆解
一个基于大模型的AI Agent系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。2023年6月Open AI的应用研究主管Lilian Weng撰写了一篇博客认为AI Agent可能会成为新时代的开端。她提出了AgentLLM规划技能记忆工具使用的基础架构其中LLM扮演了Agent的“大脑”在这个系统中提供推理、规划等能力。 基于LLM的AI Agent系统架构 1、规划Planning通过Cot实现任务类型分解
LLM具备逻辑推理能力Agent可以将LLM的逻辑推理能力激发出来。当模型规模足够大的时候LLM本身是具备推理能力的。在简单推理问题上LLM已经达到了很好的能力但在复杂推理问题上LLM有时还是会出现错误。 事实上很多时候用户无法通过LLM获得理想的回答原因在于prompt不够合适无法激发LLM本身的推理能力通过追加辅助推理的prompt可以大幅提升LLM的推理效果。在《Large language models are zero-shot reasoners》这篇论文的测试中在向LLM提问的时候追加“Let’s think step by step”后在数学推理测试集GSM8K上的推理准确率从10.4%提升到了40.7%。而Agent作为智能体代理能够根据给定的目标自己创建合适的prompt可以更好地激发大模型的推理能力。 通过调整 prompt 可以提升大模型推理效果 对于需要更多步骤的复杂任务Agent能够调用LLM通过思维链能力实现任务分解与规划。在AI Agent的架构中任务分解规划的过程是基于大模型的能力来实现的。大模型具备思维链Chain of ThoughtsCoT能力通过提示模型“逐步思考”利用更多的计算时间来将困难任务分解为更小更简单的步骤降低每个子任务的规模。 AI Agent 的反思框架 通过反思与自省框架Agents可以不断提升任务规划能力。AI Agent可以对过去的行为进行自我批评和反思从错误中学习并为未来的步骤进行完善从而提高最终结果的质量。自省框架使Agents能够修正以往的决策、纠正之前的失误从而不断优化其性能。在实际任务执行中尝试和错误是常态反思和自省两个框架在这个过程中起到了核心作用。 2、记忆Memory利用上下文长度实现更多记忆
对AI智能体系统的输入会成为系统的记忆与人类的记忆模式可实现一一映射。记忆可以定义为用于获取、存储、保留以及随后检索信息的过程。人脑中有多种记忆类型如感觉记忆、短期记忆和长期记忆。而对于AI Agent系统而言用户在与其交互过程中产生的内容都可以认为是Agent的记忆和人类记忆的模式能够产生对应关系。 感觉记忆就是作为学习嵌入表示的原始输入包括文本、图像或其他模态短期记忆就是上下文受到有限的上下文窗口长度的限制长期记忆则可以认为是Agent在工作时需要查询的外部向量数据库可通过快速检索进行访问。 目前Agent主要是利用外部的长期记忆来完成很多的复杂任务比如阅读PDF、联网搜索实时新闻等。任务与结果会储存在记忆模块中当信息被调用时储存在记忆中的信息会回到与用户的对话中由此创造出更加紧密的上下文环境。 人类记忆的分类 向量数据库通过将数据转化为向量存储解决大模型海量知识的存储、检索、匹配问题。向量是AI理解世界的通用数据形式大模型需要大量的数据进行训练以获取丰富的语义和上下文信息导致了数据量的指数级增长。 向量数据库利用人工智能中的Embedding方法将图像、音视频等非结构化数据抽象、转换为多维向量由此可以结构化地在向量数据库中进行管理从而实现快速、高效的数据存储和检索过程赋予了Agent“长期记忆”。同时将高维空间中的多模态数据映射到低维空间的向量也能大幅降低存储和计算的成本向量数据库的存储成本比存到神经网络的成本要低2到4个数量级。 Embedding技术和向量相似度计算是向量数据库的核心。Embedding技术是一种将图像、音视频等非结构化数据转化为计算机能够识别的语言的方法例如常见的地图就是对于现实地理的Embedding现实的地理地形的信息其实远远超过三维但是地图通过颜色和等高线等来最大化表现现实的地理信息。 在通过Embedding技术将非结构化数据例如文本数据转化为向量后就可以通过数学方法来计算两个向量之间的相似度即可实现对文本的比较。向量数据库强大的检索功能就是基于向量相似度计算而达成的通过相似性检索特性针对相似的问题找出近似匹配的结果是一种模糊匹配的检索没有标准的准确答案进而更高效地支撑更广泛的应用场景。 人类记忆与 AI Agent 记忆的映射 3、工具使用ToolUse懂得使用工具才会更像人类
AI Agent与大模型的一大区别在于能够使用外部工具拓展模型能力。懂得使用工具是人类最显著和最独特的地方同样地我们也可以为大模型配备外部工具来让模型完成原本无法完成的工作。 ChatGPT的一大缺点在于其训练数据只截止到了2021年底对于更新一些的知识内容它无法直接做出回答。虽然后续Open AI为ChatGPT更新了插件功能能够调用浏览器插件来访问最新的信息但是需要用户来针对问题指定是否需要使用插件无法做到完全自然的回答。 AI Agent则具备了自主调用工具的能力在获取到每一步子任务的工作后Agent都会判断是否需要通过调用外部工具来完成该子任务并在完成后获取该外部工具返回的信息提供给LLM进行下一步子任务的工作。 GPT 模型函数调用功能示例 以HuggingGPT为例HuggingGPT将模型社区HuggingFace和ChatGPT连接在一起形成了一个AI Agent。2023年4月浙江大学和微软联合团队发布了HuggingGPT它可以连接不同的AI模型以解决用户提出的任务。HuggingGPT融合了HuggingFace中成百上千的模型和GPT可以解决24种任务包括文本分类、对象检测、语义分割、图像生成、问答、文本语音转换和文本视频转换。具体步骤分为四步 1任务规划使用ChatGPT来获取用户请求 2模型选择根据HuggingFace中的函数描述选择模型并用选中的模型执行AI任务 3任务执行使用第2步选择的模型执行的任务总结成回答返回给ChatGPT 4回答生成使用ChatGPT融合所有模型的推理生成回答返回给用户。 HuggingGPT 的工作步骤流程