当前位置：首页 > news >正文

电子商务+网站建设wordpress首页幻灯

news 2025/11/14 15:49:58

电子商务+网站建设,wordpress首页幻灯,手机网站的建设,招聘网站建设流程图在ChatGPT之后#xff0c;具身智能#xff08;Embodied AI#xff09;这个大模型概念火了#xff0c;那什么是具身智能呢#xff1f; 什么是具身智能#xff1f; 具身智能作为人工智能发展的一个重要分支#xff0c;正在迅速崭露头角#xff0c;成为科技界和大众关注…在ChatGPT之后具身智能Embodied AI这个大模型概念火了那什么是具身智能呢什么是具身智能具身智能作为人工智能发展的一个重要分支正在迅速崭露头角成为科技界和大众关注的热门话题同时在各个领域中展现出巨大的潜力和吸引力具身智能通过在物理世界和数字世界的学习和进化达到理解世界、互动交互并完成任务的目标。具身智能是由“本体”和“智能体”耦合而成且能够在复杂环境中执行任务的智能系统。以上概念是等价的 Embodied AI Embodied Intelligence 具象AI 具身智能 Internet AI Disembodied AI 非具身智能相关概念具身Embodiment)指具有支持感觉和运动sensorimotor的物理身体。具身的 Embodied具有身体的可参与交互、感知的。具身智能(Embodied AI)有身体并支持物理交互的智能体如家用服务机器人、无人车等。 —— “身体力行” 非具身智能Disembodied AI没有物理身体只能被动接受人类采集、制作好的数据。—— “纸上谈兵”或者说 “运筹帷幄” 具身智能机器人满足具身智能的能力的机器人. 即具身智能机器人首先要能够听懂人类语言然后分解任务规划子任务移动中识别物体与环境交互最终完成相应任务具身任务像人类一样通过观察、移动、说话和与世界互动从而完成的一系列任务。多模态是指一个模型或系统能够处理多种不同类型的输入数据并融合它们生成输出。这些数据类型可能包括文本、图像、音频和视频等。主动交互机器人或智能体与环境的实时交互从而提高智能体的学习、交流和应对问题的能力。 Internet AI从互联网收集到的图像、视频或文本数据集中学习这些数据集往往制作精良其与真实世界脱节、难以泛化和迁移。1数据到标签的映射。2无法在真实世界进行体验学习。3无法在真实世界做出影响。 Embodied AI通过与环境的互动虽然以第一视角得到的数据不够稳定但这种类似于人类的自我中心感知中学习从而从视觉、语言和推理到一个人工具象Artificial Embodiment可以帮助解决更多真实问题核心要素一般认为具身智能具有如下的四大核心要素本体作为实际的执行者是在物理或者虚拟世界进行感知和任务执行的机构。本体通常是具有物理实体的机器人可以有多种形态。本体的能力边界会限制智能体的能力发挥所以具有广泛适应性的机器人本体是非常必要的。如四足机器人、复合机器人、人形机器人本体具备环境感知能力、运动能力和操作执行能力是连接数字世界和物理世界的载体。智能体Embodied Agents是具身于本体之上的智能核心负责感知、理解、决策、控制等的核心工作。智能体可以感知复杂环境理解环境所包含的语义信息能够和环境进行交互可以理解具体任务并且根据环境的变化和目标状态做出决策进而控制本体完成任务。随着深度学习的发展现代智能体通常由深度网络模型驱动尤其是随着大语言模型LLM的发展结合视觉等多种传感器的复杂多模态模型已经开始成为新一代智能体的趋势。智能体也分化为多种任务形态处理不同层次和模态的任务。智能体要能够从复杂的数据中学习决策和控制的范式并且能够持续的自我演进进而适应更复杂的任务和环境。智能体设计是具身智能的核心。具有通用能力的LLM和VLM等模型赋予了通用本体强大的泛化能力使得机器人从程序执行导向转向任务目标导向向通用机器人迈出了坚实的步伐。数据“数据是泛化的关键但涉及机器人的数据稀缺且昂贵。” 为了适应复杂环境和任务的泛化性智能体规模变的越来越大而大规模的模型对于海量数据更为渴求。现在的LLM通常需要web-scale级别的数据来驱动基础的预训练过程而针对具身智能的场景则更为复杂多样这造成了多变的环境和任务以及围绕着复杂任务链的规划决策控制数据。尤其是针对行业场景的高质量数据将是未来具身智能成功应用落地的关键支撑。学习和进化架构智能体通过和物理世界虚拟的或真实的的交互来适应新环境、学习新知识并强化出新的解决问题方法。采用虚拟仿真环境进行部分学习是合理的设计比如英伟达的元宇宙开发平台Omniverse就是构建了物理仿真的虚拟世界来加速智能体的演进。真实环境的复杂度通常超过仿真环境如何耦合仿真和真实世界进行高效率的迁移Sim2Real也是架构设计的关键。具身智能的难点剖析需要有强大的通用本体平台如何解决硬件的关键零部件技术突破形成具有优秀运动能力和操作能力的平台级通用机器人产品将具身本体的可靠性、成本和通用能力做到平衡是一个巨大的挑战。考虑到通用能力人形机器人被认为是具身智能的终极形态。这方面的研发也将持续成为热点和核心挑战。设计强大的智能体系统作为具身智能的核心具备复杂环境感知认知能力的智能体将需要解决诸多挑战包括物理3D环境精确感知、任务编排与执行、强大的通识能力、多级语义推理能力、人机口语多轮交互能力、long-term记忆能力、个性化情感关怀能力、强大的任务泛化与自学迁移能力等。具身智能要求实时感知和决策能力以适应复杂和变化的环境。这要求高速的数据采集、传输和处理以及实时的决策反应尤其是LLM所消耗的算力规模巨大对于资源有限的机器人处理系统将形成巨大的数据量、AI计算能力和低延迟的挑战高质量的行业数据将成为巨大挑战现实场景的复杂多变使得现阶段缺乏足够的场景数据来训练一个完全通用的大模型进而让智能体自我进化。耦合的本体需要实际部署到真实环境中才能够采集数据这也是和非具身智能的明显不同。但对于关键业务要求成功率则仍然需要高质量的垂域数据。同时通过层次化的智能体设计将不同任务限定到特定领域则是一个解决泛化和成功率的有效尝试通过虚拟和真实的交互持续学习和进化的能力则是具身智能演进的重要技术途径学习新任务来适应环境的变化则是持续改进的动力。形态适配环境合适的智能体则可以快速的学习到解决问题能力进而更好的适应变化。由于形态的变化空间无穷巨大搜索所有可能的选择在有限的计算资源情况下变的几乎不可能。本体的自由度设计也会物理上约束智能体的任务执行能力进而限制了控制器的学习效果。在复杂环境、形态演化和任务的可学习性之间存在着未可知的隐式关系如何快速学习到合理的规划和决策能力则成为具身智能的重要一环。 2023最新突破性进展 PaLM-E: An Embodied Multimodal Language Model: 一个具身多模态语言模型论文提出了一个具身多模态语言模型通过将真实世界的连续传感器模态直接融入语言模型中实现了单词和感知之间的联系。实验结果表明PaLM-E可以处理来自不同观察模态的各种具身推理任务并在多个实现上表现出良好的效果。最大的PaLM-E-562B模型拥有562亿个参数除了在机器人任务上进行训练外还是一个视觉语言通才并在OK-VQA任务上取得了最先进的性能。 VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models 采用语言模型实现机器人操作的可组合3D价值图论文提出了一种名为VoxPoser的方法利用大型语言模型和视觉语言模型来合成机器人轨迹。作者发现LLM可以通过自然语言指令推断出环境和物体的能力和限制并通过与VLM交互来组合3D值图将知识转化为代理的观察空间。这些组合的值图然后被用于基于模型的规划框架中以零样本合成闭环机器人轨迹并对动态扰动具有鲁棒性。 March in Chat: Interactive Prompting for Remote Embodied Referring Expression 远程具身指代表达的交互提示论文提出了一种名为March-in-Chat的模型可以在REVERIE环境中与大型语言模型进行交互并动态规划。REVERIE任务只提供高级指令给代理类似于人类的实际命令因此比其他VLN任务更具挑战性。MiC模型通过ROASP实现了环境感知和动态规划可以基于新的视觉观察调整导航计划并且能够适应更大、更复杂的REVERIE环境。 Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions 通过多专家讨论实现视觉语言导航论文提出了一种零样本视觉语言导航框架DiscussNav通过多专家讨论来帮助代理进行导航。作者认为现有的VLN方法完全依赖单一模型自身的思考来进行预测而即使是最先进的大型语言模型GPT4在单轮自我思考中仍然难以处理多个任务。因此作者借鉴了专家咨询会议的思想将具有不同能力的大模型作为领域专家让代理在每一步移动之前与这些专家积极讨论收集关键信息。实验结果表明该方法可以有效地促进导航感知与指令相关的信息纠正意外错误并筛选出不一致的运动决策 Skill Transformer: A Monolithic Policy for Mobile Manipulation 用于移动操作的单体策略论文提出了Skill Transformer一种结合条件序列建模和技能模块性来解决长视野机器人任务的方法。该方法在机器人的自适应和感知观察上基于条件序列模型并通过训练使用Transformer架构和演示轨迹来预测机器人的高级技能(如导航、选择、放置)和整体低级动作(如基座和手臂运动)。它保留了整个任务的可组合性和模块性通过一个技能预测模块来推理低级动作并避免常见于模块化方法的传递误差。 See to Touch: Learning Tactile Dexterity through Visual Incentives 通过视觉激励学习触觉灵活性论文提出了一种名为Tactile Adaptation from Visual Incentives (TAVI)的新框架通过使用视觉奖励来优化基于触觉的灵巧性策略从而提高多指机器人的精确度、丰富性和灵活性。在六个具有挑战性的任务中TAVI使用四指Allegro机器人手实现了73%的成功率比使用基于触觉和视觉奖励的策略提高了108比不使用基于触觉观察输入的策略提高了135。 Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents 用于执行指令的具身代理的上下文感知规划和环境感知记忆论文提出了一种CAPEAM方法用于改善具身代理在视觉导航和对象交互方面的表现。该方法考虑了执行动作的后果并将语义上下文和已交互物体的状态变化纳入一系列动作中以推断后续动作。实验证明该方法在各种指标上实现了最先进的性能并在未见过的环境中获得了大幅提高。 Statler: State-Maintaining Language Models for Embodied Reasoning 用于具身推理的状态维护语言模型论文提出了一种名为Statler的框架用于赋予大型语言模型LLM对世界状态的显式表示可以随着时间的推移进行维护。通过使用两个通用LLM实例——世界模型阅读器和世界模型写入器——与世界状态进行交互和维护Statler提高了现有LLM在较长时间范围内推理的能力而不受上下文长度的限制。 Embodied Task Planning with Large Language Models 基于大型语言模型的具身任务规划本研究提出了一种名为TAsk Planing AgentTaPA的基于场景约束的具身任务规划方法用于在真实世界中生成可执行的计划。该方法通过将大型语言模型与视觉感知模型对齐根据场景中已存在的对象生成可执行计划。另外作者还构建了一个多模态数据集并使用GPT-3.5生成了大量的指令和相应的计划动作。 Conditionally Combining Robot Skills using Large Language Models 使用大型语言模型有条件地组合机器人技能论文提出了两个贡献。首先介绍了一个名为“Language-World”的Meta-World基准扩展允许大型语言模型在模拟机器人环境中使用自然语言查询和脚本化技能进行操作。其次引入了一种称为计划条件行为克隆PCBC的方法可以使用端到端演示微调高级计划的行为。使用Language-World表明PCBC能够在各种少数情况中实现强大的性能通常只需要单个演示即可实现任务泛化。参考稚晖君独家撰文具身智能即将为通用机器人补全最后一块拼图具身智能2023最新突破性进展分享附17篇论文和代码

查看全文

http://www.zqtcl.cn/news/675041/