网站建设 天台,精仿虎嗅网wordpress,开通微信公众号要钱吗,wordpress 商城插件AI视野今日CS.Robotics 机器人学论文速览 Fri, 13 Oct 2023 Totally 45 papers #x1f449;上期速览✈更多精彩请移步主页 Interesting:
#x1f4da;AI与机器人安全, 从攻击界面、伦理法律和人机交互层面进行了论述。(from 密西西比大学) #x1f4da;机器人与图机器学… AI视野·今日CS.Robotics 机器人学论文速览 Fri, 13 Oct 2023 Totally 45 papers 上期速览✈更多精彩请移步主页 Interesting:
AI与机器人安全, 从攻击界面、伦理法律和人机交互层面进行了论述。(from 密西西比大学) 机器人与图机器学习综述, (from 都灵理工)
PolyTask, 基于多任务学习实现统一模型策略。(from 纽约大学)
website:poly-task.github.io ArUcoTactile, 基于ArUco标记的的精确触觉传感器。(from 得克萨斯奥斯丁分校) , (from )
Daily Robotics Papers
Universal Visual Decomposer: Long-Horizon Manipulation Made Easy Authors Zichen Zhang, Yunshuang Li, Osbert Bastani, Abhishek Gupta, Dinesh Jayaraman, Yecheng Jason Ma, Luca Weihs现实世界的机器人任务延伸到更广阔的视野并包含多个阶段。然而学习长期操作任务是一个长期存在的挑战需要将总体任务分解为几个可管理的子任务以促进策略学习和对看不见的任务的泛化。先前的任务分解方法需要特定于任务的知识计算量大并且不能轻易应用于新任务。为了解决这些缺点我们提出了通用视觉分解器 UVD这是一种现成的任务分解方法使用专为机器人控制设计的预先训练的视觉表示来进行视觉长视野操作。在较高层面上UVD 通过检测预训练表示的嵌入空间中的相移来发现子目标。 UVD 纯粹基于视觉演示而无需辅助信息可以有效地提取视频中嵌入的视觉子目标同时在标准视觉运动策略培训之上产生零额外培训成本。通过 UVD 学习的目标条件策略发现子目标在测试时对未见过的任务表现出显着改善的组合泛化。此外UVD 发现子目标可用于构建基于目标的奖励塑造从而启动强化学习的临时扩展探索。我们在模拟和现实世界任务上广泛评估了 UVD并且在所有情况下UVD 在域内和域外任务序列上的模仿和强化学习设置上都远远优于基线验证了简单的自动视觉任务分解的明显优势。 Learning to Act from Actionless Videos through Dense Correspondences Authors Po Chen Ko, Jiayuan Mao, Yilun Du, Shao Hua Sun, Joshua B. Tenenbaum在这项工作中我们提出了一种构建基于视频的机器人策略的方法该策略能够通过少量视频演示在不同的机器人和环境中可靠地执行各种任务而无需使用任何动作注释。我们的方法利用图像作为与任务无关的表示对状态和动作信息进行编码并利用文本作为指定机器人目标的通用表示。通过合成使机器人执行动作产生幻觉的视频并结合帧之间的密集对应关系我们的方法可以推断出要在环境中执行的封闭式动作而不需要任何明确的动作标签。这种独特的功能使我们能够仅基于 RGB 视频来训练策略并将学习到的策略部署到各种机器人任务中。我们展示了我们的方法在学习桌面操作和导航任务策略方面的有效性。PolyTask: Learning Unified Policies through Behavior Distillation Authors Siddhant Haldar, Lerrel Pinto能够解决各种任务的统一模型在视觉和 NLP 领域获得了关注因为它们能够跨任务共享规律和结构从而提高单个任务的性能并减少计算占用量。然而此类模型在具体学习问题中的影响仍然有限由于交互性、样本效率低下和顺序任务呈现这些问题带来了独特的挑战。在这项工作中我们提出了 PolyTask一种学习单个统一模型的新颖方法该模型可以通过学习然后提炼机制解决各种具体任务。在学习步骤中PolyTask 利用每个任务的一些演示来训练特定于任务的策略。然后在蒸馏步骤中使用称为行为蒸馏的新蒸馏方法将特定于任务的策略蒸馏为单个策略。给定统一的策略可以通过条件变量提取个体任务行为。 PolyTask 的设计概念简单同时能够利用 RL 中完善的算法来实现交互性通过一些专家演示来提高样本效率并防止在蒸馏过程中交互式访问任务以实现终身学习。Security Considerations in AI-Robotics: A Survey of Current Methods, Challenges, and Opportunities Authors Subash Neupane, Shaswata Mitra, Ivan A. Fernandez, Swayamjit Saha, Sudip Mittal, Jingdao Chen, Nisha Pillai, Shahram Rahimi机器人技术和人工智能自诞生以来人工智能就一直密不可分地交织在一起。如今从机器人吸尘器到半自动汽车人工智能机器人系统已成为我们日常生活中不可或缺的一部分。这些系统建立在感知、导航和规划以及控制三个基本架构元素之上。然而虽然人工智能机器人系统的集成提高了我们的生活质量但也带来了一个严重的问题这些系统容易受到安全攻击。构成人工智能机器人系统的物理组件、算法和数据可能被恶意行为者利用可能导致可怕的后果。出于解决人工智能机器人系统安全问题的需要本文提出了跨攻击面、道德和法律问题以及人机交互 HRI 安全三个维度的全面调查和分类。我们的目标是为用户、开发人员和其他利益相关者提供对这些领域的全面了解以增强人工智能机器人系统的整体安全性。我们首先调查潜在的攻击面并提供缓解防御策略。然后我们深入研究伦理问题例如依赖性和心理影响以及有关这些系统责任的法律问题。此外还讨论了 HRI 等新兴趋势考虑到隐私、完整性、安全性、可信度和可解释性问题。An Experience-based TAMP Framework for Foliated Manifolds Authors Jiaming Hu, Shrutheesh R. Iyer, Henrik I. Christensen由于其复杂性叶状结构问题常常给机器人操作中的任务和运动规划带来复杂的挑战。为了解决这个问题我们的研究提出了叶状重复路线图。该路线图通过将复杂的叶状结构问题转换为更易于访问的图形格式来帮助任务和运动规划者。通过利用来自不同叶流形的查询经验我们的框架可以动态且高效地更新该图。细化图可以生成分布集优化叶状结构问题中的运动规划性能。Modeling Lead-vehicle Kinematics For Rear-end Crash Scenario Generation Authors Jian Wu, Carol Flannagan, Ulrich Sander, Jonas B rgman使用虚拟安全评估作为评估车辆安全技术的主要方法强调了碰撞场景生成的重要性。最常见的碰撞类型之一是追尾碰撞其中涉及前车和后车。大多数研究都集中在后车上假设前车在碰撞前保持恒定的加速度和减速度。然而文献中没有证据证明这一前提。本研究旨在通过彻底分析和建模领先车辆的行为来解决这一知识差距作为生成追尾事故场景的第一步。因此该研究采用分段线性模型来参数化领先车辆的速度曲线利用两个后端碰撞前接近碰撞的数据集。这些数据集被合并并分类为每个子数据集构建多元分布来表示相应的参数。随后使用这些分布模型生成合成数据集并通过与原始组合数据集进行比较来进行验证。结果突出显示了不同的引导车辆速度模式表明需要更准确的模型例如所提出的分段线性模型而不是传统的恒定加速减速模型。使用所提出的模型生成的碰撞与整个严重程度范围内的碰撞数据精确匹配在严重程度范围和准确性方面都超过了现有的领先车辆运动学模型。MUN-FRL: A Visual Inertial LiDAR Dataset for Aerial Autonomous Navigation and Mapping Authors Ravindu G. Thalagala, Sahan M. Gunawardena, Oscar De Silva, Awantha Jayasiri, Arthur Gubbels, George K.I Mann, Raymond G. Gosine本文提出了使用多传感器有效载荷捕获的独特的户外航空视觉惯性激光雷达数据集以促进全球导航卫星系统 GNSS 拒绝导航研究。该数据集的飞行距离范围为 300m 至 5km使用 DJI M600 六旋翼无人机和国家研究委员会 NRC Bell 412 先进系统研究飞机 ASRA 收集。该数据集由硬件同步单目图像、IMU 测量、3D LiDAR 点云和基于高精度实时运动 RTK GNSS 的地面实况组成。 10 个数据集被收集为 ROS 包涵盖 100 分钟的室外环境镜头范围包括城市地区、高速公路、山坡、草原和海滨。收集数据集是为了促进基于现实世界无人机和全尺寸直升机数据的视觉惯性激光雷达里程计和测绘算法、视觉惯性导航算法、物体检测、分割和着陆区检测算法的开发。所有数据集都包含原始传感器测量值、硬件时间戳和时空对齐的地面实况。传感器的内在和外在校准也与原始校准数据集一起提供。Towards Design and Development of an ArUco Markers-Based Quantitative Surface Tactile Sensor Authors Ozdemir Can Kara, Charles Everson, Farshid Alambeigi在本文中为了量化基于视觉的触觉传感器 VTS 的定性图像输出我们介绍了一种称为 QS TS 的新型定量表面触觉传感器的设计、制造和表征。 QS TS 直接实时估计传感器的凝胶层变形从而能够使用机器人操纵器对精致物体进行安全、自主的触觉操作和伺服。该传感器的核心是利用微型 1.5 毫米 x 1.5 毫米合成方形标记具有内部二进制图案和宽黑色边框称为 ArUco 标记。每个 ArUco 标记都可以提供实时相机姿态估计在我们的设计中该估计用作获得 QS TS 凝胶层变形的定量测量。此外由于使用了 ArUco 标记我们提出了一种独特的制造程序可以减轻与现有基于标记的 VTS 的制造相关的各种挑战并为 VTS 的构建提供直观且不那么费力的方法。值得注意的是所提出的制造有利于标记与凝胶层的集成和粘附从而无论 ArUco 标记的方向如何都能实时可靠地获得变形的定量测量。我们对所提出的 QS TS 在估计传感器凝胶层变形方面的性能和功效进行了实验评估和验证。Uncertainty-Aware Planning for Heterogeneous Robot Teams using Dynamic Topological Graphs and Mixed-Integer Programming Authors Cora A. Dimmig, Kevin C. Wolfe, Marin Kobilarov, Joseph Moore不确定性下的规划是机器人技术的一个基本挑战。对于多机器人团队来说挑战会进一步加剧因为随着机器人数量的增加规划问题很快就会变得计算上难以解决。在本文中我们提出了一种使用异构多机器人团队在不确定性下进行规划的新方法。特别是我们利用动态拓扑图和混合整数规划的概念来生成多机器人计划部署快速侦察团队成员以减少环境的不确定性。我们在许多代表性场景中测试我们的方法在这些场景中机器人团队必须在环境中移动同时在存在不确定观察者位置的情况下最大限度地减少检测。ALPHA: Attention-based Long-horizon Pathfinding in Highly-structured Areas Authors Chengyang He, Tianze Yang, Tanishq Duhan, Yutong Wang, Guillaume Sartoretti多智能体寻路 MAPF 问题在已知环境中为一组智能体寻找从当前位置到预设目标的无碰撞路径是许多物流、运输和通用机器人应用的核心问题。现有的基于学习的 MAPF 方法通常只让每个代理基于其位置周围的有限视野 FOV 做出决策作为固定其策略网络输入维度的自然手段。然而这通常会使政策变得短视因为智能体缺乏感知和规划超出其视野范围的障碍的能力。为了应对这一挑战我们提出了 ALPHA这是一种新框架结合使用地面实况近端局部信息和模糊远端全局信息让智能体根据系统的完整当前状态对局部决策进行排序并避免这种短视。我们进一步允许智能体对彼此的路径进行短期预测作为推理彼此路径意图的手段从而提高整个系统级别的智能体之间的合作水平。我们的神经结构依赖于 Graph Transformer 架构允许代理选择性地组合这些不同的信息源并推理它们在不同空间尺度上的相互依赖关系。Multicriteria Optimization of Lower Limb Exoskeleton Mechanism Authors Sayat Ibrayev, Arman Ibrayeva, Ayaulym Rakhmatullina, Aizhan Ibrayeva, Bekzat Amanov, Nurbibi Imanbayeva典型的腿部外骨骼采用开环运动链电机直接放置在活动关节上虽然这种设计提供了灵活性但由于自由度高导致成本增加和控制复杂性增加。正如现有文献所强调的那样使用重型伺服电机来处理主动关节中的扭矩会导致设计复杂且笨重。在这项研究中我们介绍了一种新颖的合成方法并为合成下肢外骨骼提供了解析解。此外我们还通过六个设计标准纳入了多标准优化。Hilbert Space Embedding-based Trajectory Optimization for Multi-Modal Uncertain Obstacle Trajectory Prediction Authors Basant Sharma, Aditya Sharma, K.Madhava Krishna, Arun Kumar Singh安全的自动驾驶很大程度上取决于自我车辆预测邻近车辆轨迹的能力。为此现有文献中提出了几种轨迹预测算法。许多这些方法输出障碍物轨迹的多模态分布而不是单一的确定性预测来解释潜在的不确定性。然而现有的规划器无法仅基于预测的样本级别信息来处理多模态。出于这个动机本文提出了一种轨迹优化器它可以以计算上易于处理且样本有效的方式利用预测的分布方面。我们的优化器可以处理任意复杂的分布因此可以与表示为深度神经网络的输出分布一起使用。我们方法的核心是建立在再现内核希尔伯特空间 RKHS 中的嵌入分布之上我们通过两种方式利用它。首先我们提出了一种 RKHS 嵌入方法来从障碍物轨迹分布中选择可能的样本。其次我们将机会约束优化重新表述为 RKHS 中的分布匹配并为其解决方案提出了一种新颖的基于采样的优化器。The Impact of Time Step Frequency on the Realism of Robotic Manipulation Simulation for Objects of Different Scales Authors Minh Q. Ta, Holly Dinkel, Hameed Abdul Rashid, Yangfei Dai, Jessica Myers, Tan Chen, Junyi Geng, Timothy Bretl这项工作评估了时间步频率和组件规模对机器人操纵仿真精度的影响。增加小规模物体的时间步频率可以提高模拟精度。Slip Detection and Surface Prediction Through Bio-Inspired Tactile Feedback Authors Dexter R. Shepherd, Phil Husbands, Andy Philippides, Chris Johnson高分辨率触觉传感在自主移动机器人领域具有巨大潜力特别是对于腿式机器人。它具有重大前景的一个特殊领域是穿越具有挑战性的多变地形。根据环境是湿滑、柔软、坚硬还是干燥机器人必须相应地调整其运动方法。目前许多多足机器人例如波士顿动力的 Spot 机器人已经针对不同的表面类型预设了步态但在表面类型频繁变化的地形上却很吃力。能够自动检测环境内的变化将使机器人能够自主调整其运动方法以更好地适应条件而无需人类用户手动设置表面类型的变化。在本文中我们报告了对特定仿生触觉传感器 TacTip 特性的首次详细研究以测试其对这种表面状况自动检测的适用性。我们探索了不同的处理技术和回归模型使用定制的数据收集装置来确定机器人如何在各种条件下感知传感器上的方向性和一般性力。这使我们能够成功演示如何使用传感器来区分软、硬、干和湿滑的表面。我们进一步探索了一种神经模型来对特定表面纹理进行分类。引脚移动传感器内光学标记的移动是感测此信息的关键并且所有模型都依赖于某种形式的时间信息。Multimodal Active Measurement for Human Mesh Recovery in Close Proximity Authors Takahiro Maeda, Keisuke Takeshita, Kazuhito Tanaka为了实现安全且复杂的人类机器人物理交互 pHRI机器人需要估计目标人的准确身体姿势或网格。然而在这些 pHRI 场景中机器人无法通过配备的摄像头充分观察目标人的身体因为目标人通常距离机器人很近。这会导致严重的截断和遮挡并导致人体姿态估计的准确性较差。为了在来自相机的有限信息上提高人体姿势估计或网格恢复的准确性我们提出了配备的相机和其他传感器例如触摸传感器和 2D LiDAR的主动测量和传感器融合框架。这些触摸和 LiDAR 传感是通过 pHRI 获得的无需额外成本。这些传感器测量结果虽然稀疏但为人体网格恢复提供了可靠且信息丰富的线索。在我们的主动测量过程中相机视点和传感器放置是根据估计位姿的不确定性进行优化的这与截断或遮挡区域密切相关。在我们的传感器融合过程中我们通过最小化估计网格和测量位置之间的距离将传感器测量结果融合到基于相机的估计姿态。我们的方法与机器人配置无关。实验是使用丰田人类支持机器人进行的该机器人在机器人手臂上配有摄像头、2D LiDAR 和触摸传感器。我们提出的方法在定量比较中证明了人体姿态估计精度的优越性。Multi-Modal Sensor Fusion and Object Tracking for Autonomous Racing Authors Phillip Karle, Felix Fent, Sebastian Huch, Florian Sauerbeck, Markus Lienkamp周围物体的可靠检测和跟踪对于自动驾驶车辆的全面运动预测和规划是必不可少的。由于单个传感器的局限性需要多种传感器模式的融合来提高整体检测能力。此外鲁棒的运动跟踪对于减少传感器噪声的影响和提高状态估计精度至关重要。在自动驾驶赛车中车辆操控极限的复杂、对抗性高速场景中自动驾驶汽车软件的可靠性变得更加重要。在本文中我们提出了一种适用于高速应用的模块化多模态传感器融合和跟踪方法。该方法基于扩展卡尔曼滤波器 EKF能够融合异构检测输入以一致地跟踪周围物体。一种新颖的延迟补偿方法能够减少感知软件延迟的影响并输出更新的对象列表。它是第一个在 2021 年印地自主挑战赛和 2022 年 CES AC CES 自主挑战赛上在高速现实场景中经过验证的融合和跟踪方法证明了其在嵌入式系统上的鲁棒性和计算效率。它不需要任何标记数据并实现低于 0.1 m 的位置跟踪残差。Model Predictive Inferential Control of Neural State-Space Models for Autonomous Vehicle Motion Planning Authors Iman Askari, Xumein Tu, Shen Zeng, Huazhen Fang模型预测控制 MPC 已被证明对于实现自动驾驶车辆的安全和最佳运动规划非常有用。在本文中我们研究了当神经状态空间模型代表车辆动力学时如何实现基于 MPC 的运动规划。由于神经状态空间模型将导致高度复杂、非线性和非凸的优化环境主流的基于梯度的 MPC 方法计算量太大无法成为可行的解决方案。首先我们提出了模型预测推理控制 MPIC 的想法它试图从控制目标和约束中推断出最佳控制决策。遵循这个想法我们将运动规划的 MPC 问题转换为贝叶斯状态估计问题。然后我们开发了一种新的粒子滤波平滑方法来执行估计。该方法以无迹卡尔曼滤波器平滑器组的形式实现并提供高采样效率、快速计算和估计精度。我们通过对不同场景下自动驾驶的模拟研究以及与基于梯度的 MPC 的详尽比较来评估 MPIC 方法。Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation Authors Yinpei Dai, Run Peng, Sikai Li, Joyce Chai零射击对象导航 ZSON 使代理能够在未知环境中导航到开放词汇对象。 ZSON 的现有工作主要集中于遵循单独的指令来查找通用对象类忽略了自然语言交互的利用以及识别用户特定对象的复杂性。为了解决这些限制我们引入了零样本交互式个性化对象导航 ZipON其中机器人需要在与用户对话的同时导航到个性化目标对象。为了解决 ZipON 问题我们提出了一个名为开放世界交互式个性化导航 ORION 的新框架它使用大型语言模型 LLM 做出顺序决策来操纵不同的感知、导航和通信模块。实验结果表明能够利用用户反馈的交互代理的性能有了显着的提高。然而对于所有方法来说在任务完成与导航和交互效率之间获得良好的平衡仍然具有挑战性。Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation using Large Language Models Authors Bangguo Yu, Hamidreza Kasaei, Ming Cao在先进的人类机器人交互任务中视觉目标导航对于自主机器人在未知环境中导航至关重要。虽然过去已经开发了许多方法但大多数都是为单个机器人操作而设计的由于环境的复杂性这些方法常常会降低效率和鲁棒性。此外多机器人协作的学习策略是资源密集型的。为了应对这些挑战我们提出了 Co NavGPT这是一个创新框架集成了大型语言模型法学硕士作为多机器人协作视觉目标导航的全局规划器。 Co NavGPT 将探索的环境数据编码为提示增强法学硕士的场景理解。然后它为每个机器人分配探索边界以实现高效的目标搜索。 Habitat Matterport 3D HM3D 上的实验结果表明Co NavGPT 在无需任何学习过程的情况下在成功率和效率上超越了现有模型展示了法学硕士在多机器人协作领域的巨大潜力。What Matters to You? Towards Visual Representation Alignment for Robot Learning Authors Ran Tian, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy在为人类服务时机器人需要根据最终用户的偏好来优化奖励。由于机器人将依赖于 RGB 图像等原始感知输入因此它们的奖励将不可避免地使用视觉表示。最近人们对使用预先训练的视觉模型的表示感到兴奋但在机器人技术中进行这些工作的关键是微调这通常是通过动态预测或强制时间循环一致性等代理任务来完成的。然而所有这些代理任务都绕过了人类对对他们来说重要的事情的输入加剧了虚假相关性并最终导致机器人行为与用户偏好不一致。在这项工作中我们建议机器人应该利用人类反馈来使它们的视觉表示与最终用户保持一致并理清对任务重要的内容。我们提出了基于表示对齐偏好的学习 RAPL这是一种通过基于偏好的学习和最优传输的视角来解决视觉表示对齐问题和视觉奖励学习问题的方法。Unraveling the Single Tangent Space Fallacy: An Analysis and Clarification for Applying Riemannian Geometry in Robot Learning Authors No mie Jaquier, Leonel Rozo, Tamim Asfour在机器人领域许多下游机器人任务利用机器学习方法来处理、建模或合成数据。通常这些数据包含固有地带有几何约束的变量例如表示刚体方向的四元数的单位范数条件或刚度和可操纵性椭球体的正定性。有效处理此类几何约束需要将微分几何工具纳入机器学习方法的制定中。在这种背景下黎曼流形成为处理此类几何约束的强大数学框架。然而它们最近在机器人学习中的采用很大程度上以数学上有缺陷的简化为特征以下称为单切线空间谬误。这种方法仅涉及将感兴趣的数据投影到单个切线欧几里得空间上在该空间上应用现成的学习算法。本文从理论上阐明了围绕该方法的各种误解并提供了其缺点的实验证据。NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration Authors Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine在陌生环境中进行导航的机器人学习需要为面向任务的导航即达到机器人已定位的目标和与任务无关的探索即在新的环境中搜索目标提供策略。通常这些角色由单独的模型处理例如通过使用子目标建议、规划或单独的导航策略。在本文中我们描述了如何训练单个统一扩散策略来处理目标定向导航和目标不可知探索后者提供搜索新环境的能力而前者提供一次达到用户指定目标的能力它已被定位。我们表明与使用生成模型的子目标建议的方法或基于潜在变量模型的先前方法相比在新环境中导航到视觉指示的目标时这种统一的策略会带来更好的整体性能。我们通过使用基于来自多个地面机器人的数据训练的大规模 Transformer 策略来实例化我们的方法并使用扩散模型解码器来灵活处理目标条件导航和目标不可知导航。我们的实验是在现实世界的移动机器人平台上进行的与五种替代方法相比显示了在看不见的环境中的有效导航并展示了性能的显着改进和更低的碰撞率尽管使用的模型比最先进的方法更小。ASV Station Keeping under Wind Disturbances using Neural Network Simulation Error Minimization Model Predictive Control Authors Jalil Chavez Galaviz, Jianwen Li, Ajinkya Chaudhary, Nina Mahmoudian位置保持是自主地面车辆 ASV 的一项重要操作主要是在有限空间中使用时用于执行需要 ASV 保持其位置或与相对位置对任务有影响的其他车辆协作的调查。然而由于需要 ASV 动力学和环境扰动的精确模型这种操作对于经典反馈控制器来说可能会变得具有挑战性。这项工作提出了一种使用神经网络仿真误差最小化 NNSEM MPC 的模型预测控制器来准确预测 ASV 在风扰动下的动态。使用机器人操作系统 ROS 和多用途仿真环境 Gazebo对所提出的方案在风扰动下的性能进行了测试并与仿真中的其他控制器进行了比较。结合两种风速3米秒和6米秒以及三种风向0周、90周和180周进行了一组六次测试。仿真结果清楚地表明了NNSEM MPC相对于以下方法的优势反步控制器、滑模控制器、简化动力学MPC SD MPC、神经常微分方程MPC NODE MPC和基于知识的NODE MPC KNODE MPC。所提出的 NNSEM MPC 方法在 6 个测试条件中的 4 个中表现优于其他方法并且在其余 2 个测试用例中排名第二在所有测试中分别将平均位置和航向误差分别减少了至少 31 和 46案例。在执行速度方面所提出的 NNSEM MPC 比其他 MPC 控制器至少快 36。VaPr: Variable-Precision Tensors to Accelerate Robot Motion Planning Authors Yu Shun Hsiao, Siva Kumar Sastry Hari, Balakumar Sundaralingam, Jason Yik, Thierry Tambe, Charbel Sakr, Stephen W. Keckler, Vijay Janapa Reddi高维运动生成需要数值精度才能实现平滑、无碰撞的解决方案。通常使用双精度或单精度浮点 FP 格式。将它们用于大张量会给设备提供的内存带宽带来压力并改变内存占用空间从而限制了它们对移动机器人所需的低功耗边缘设备的适用性。统一应用降低的精度可能是有利的但会严重降低解决方案的质量。对重要的张量使用降低精度的数据类型我们建议通过消除内存瓶颈来加速运动生成。我们提出了可变精度 VaPr 搜索优化以便从张量中约 400 万个 FP 数据类型的唯一组合的巨大搜索空间中确定大张量的适当精度。为了获得效率提升我们利用现有平台支持开箱即用的 GPU 加速并评估当前不支持的 GPU 类型的预期精度转换器单元。我们在 8 个环境的 MotionBenchmaker 数据集上对 Franka Panda 机器人的 800 个规划问题进行的实验结果表明4 位 FP 格式足以满足运动生成堆栈中最大的张量集。Saturation-Aware Angular Velocity Estimation: Extending the Robustness of SLAM to Aggressive Motions Authors Simon Pierre Desch nes, Dominic Baril, Mat j Boxan, Johann Laconte, Philippe Gigu re, Fran ois Pomerleau我们提出了一种新颖的角速度估计方法以提高同时定位和建图 SLAM 算法针对剧烈运动引起的陀螺仪饱和的鲁棒性。现场机器人使机器人面临各种危险包括陡峭的地形、山体滑坡和楼梯如果机器人失去稳定性和翻倒可能会出现大幅加速度和角速度。这些极端运动会使传感器测量饱和尤其是陀螺仪它们是第一个变得不起作用的传感器。虽然机器人的结构完整性面临风险但 SLAM 框架的弹性通常很少被考虑。因此即使机器人在物理上能够继续执行任务其操作也会由于世界的损坏而受到影响。关于这个问题我们提出了一种在翻滚引起的极端旋转期间使用加速度计来估计角速度的方法。我们表明我们的方法在平移中将中位定位误差减少了 71.5在旋转中将中位定位误差减少了 65.5并且在收集的数据上将 SLAM 失败的数量减少了 73.3。我们还提出了翻滚诱导陀螺仪饱和 TIGS 数据集该数据集由户外实验组成记录激光雷达的运动其角速度比其他可用数据集高四倍。DiPPeR: Diffusion-based 2D Path Planner applied on Legged Robots Authors Jianwei Liu, Maria Stamatopoulou, Dimitrios Kanoulas在这项工作中我们提出了 DiPPeR一种新颖且快速的四足运动二维路径规划框架利用扩散驱动技术。我们的贡献包括地图图像和相应端到端轨迹的可扩展数据集、用于移动机器人的图像条件扩散规划器以及使用 CNN 的训练推理管道。我们在几个迷宫以及 Boston Dynamic 的 Spot 和 Unitree 的 Go1 机器人的现实部署场景中验证了我们的方法。Active Learning with Dual Model Predictive Path-Integral Control for Interaction-Aware Autonomous Highway On-ramp Merging Authors Jacob Knaup, Jovin D sa, Behdad Chalaki, Tyler Naes, Hossein Nourkhiz Mahjoub, Ehsan Moradi Pari, Panagiotis Tsiotras对于自动驾驶车辆来说融入密集的高速公路交通是一项复杂的决策任务其中车辆必须识别潜在的差距并与周围的人类驾驶员进行协调每个人都可能表现出不同的驾驶行为。许多现有方法将其他驾驶员视为动态障碍因此无法通过这种被动规划来捕获人类驾驶员的全部意图。在本文中我们提出了一种基于模型预测路径积分控制的新型双控制框架来生成交互式轨迹。该框架采用贝叶斯推理方法来主动学习代理参数即其他驱动程序模型参数。所提出的框架采用基于采样的方法适合通过利用 GPU 进行实时实现。Body-mounted MR-conditional Robot for Minimally Invasive Liver Intervention Authors Zhefeng Huang, Anthony L. Gunderman, Samuel E. Wilcox, Saikat Sengupta, Aiming Lu, David Woodrum, Jay Shah, Yue ChenMR 引导微波消融 MWA 已被证明可有效治疗小尺寸肿瘤的肝细胞癌 HCC但由于针放置的速度和准确性最先进的技术存在次优工作流程。本文提出了一种紧凑型身体安装的 MR 条件机器人它可以在闭孔 MR 扫描仪中运行以实现精确的针引导。该机器人平台由两个堆叠的笛卡尔 XY 平台组成每个平台都有两个自由度有助于针引导。该机器人由 3D 打印气动涡轮机和 MR 条件锥齿轮传动系统驱动。气动阀和控制机电一体化装置位于 MRI 控制室内并通过气动传输线和光纤连接到机器人。自由空间实验表明在插入深度为 80 毫米时机器人辅助针插入误差为 2.6 pm 1.3 毫米。进行 MR 引导的模型研究是为了验证机器人的 MR 条件和瞄准性能。Terrain-adaptive Central Pattern Generators with Reinforcement Learning for Hexapod Locomotion Authors Qiyue Yang, Yue Gao, Shaoyuan Li受生物运动生成的启发中央模式发生器 CPG 经常用于腿式机器人运动控制以产生具有低维控制信号的自然步态模式。然而复杂地形的适应性和稳定性有限阻碍了其应用。针对这一问题本文提出了一种地形自适应运动控制方法将深度强化学习DRL框架融入到CPG中其中CPG模型负责生成同步信号提供基本的运动步态同时集成DRL以增强适应性通过调整CPG映射函数的参数使机器人适应不平坦的地形。Multi-Robot Task Planning to Secure Human Group Progress Authors Roland Godet ONERA and LAAS CNRS , Charles Lesire ONERA , Arthur Bit Monnot LAAS CNRS 近年来自动驾驶车队的部署数量不断增加。Energy-Aware Routing Algorithm for Mobile Ground-to-Air Charging Authors Bill Cai, Fei Lu, Lifeng Zhou我们研究了无人地面车辆 UGV 和无人飞行器 UAV 协作系统的能量约束规划问题。在 UGV 作为运送无人机的移动基地和为无人机充电的充电站的场景中我们提出了一种新颖的能量约束路由问题。为了解决这个问题我们设计了一种能量感知路由算法旨在最大限度地减少两辆车能量限制下的总体任务持续时间。该算法首先解决旅行商问题 TSP 以生成导游。然后它采用蒙特卡洛树搜索 MCTS 算法来细化行程并为两辆车生成路径。我们通过广泛的模拟和概念验证实验来评估我们算法的性能。Visual Forecasting as a Mid-level Representation for Avoidance Authors Hsuan Kung Yang, Tsung Chih Chiang, Ting Ru Liu, Chun Wei Huang, Jou Min Liu, Chun Yi Lee动态物体环境中导航的挑战仍然是自主代理研究的中心问题。虽然预测方法很有希望但它们对精确状态信息的依赖使得它们在现实世界中实施起来不太实用。这项研究将视觉预测作为一种创新的替代方案。通过引入直观的视觉线索这种方法可以预测动态对象的未来轨迹以改善代理感知并实现预期行动。我们的研究探索了两种不同的策略通过视觉预测 1 个边界框序列和 2 个增强路径来传达预测信息。为了验证所提出的视觉预测策略我们使用 Unity 引擎在模拟环境中启动评估然后将这些评估扩展到现实世界场景以评估实用性和有效性。Octopus: Embodied Vision-Language Programmer from Environmental Feedback Authors Jingkang Yang, Yuhao Dong, Shuai Liu, Bo Li, Ziyue Wang, Chencheng Jiang, Haoran Tan, Jiamu Kang, Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu大型视觉语言模型 VLM 在多模态感知和推理方面取得了实质性进展。此外当无缝集成到实体代理中时它标志着朝着创建能够精确制定计划和执行命令的自主和上下文感知系统迈出的关键一步。在本文中我们介绍了 Octopus这是一种新颖的 VLM旨在熟练地破译代理的视觉和文本任务目标并制定复杂的动作序列并生成可执行代码。我们的设计使代理能够熟练地处理各种任务从模拟器中的日常琐事到复杂视频游戏中的复杂交互。 Octopus 通过利用 GPT 4 进行训练以控制探索性代理在我们名为 OctoVerse 的实验环境中生成训练数据即动作蓝图和相应的可执行代码。我们还收集反馈以允许使用环境反馈 RLEF 增强强化学习的训练方案。通过一系列实验我们阐明了 Octopus 的功能并呈现了令人信服的结果并且所提出的 RLEF 结果证明可以改进代理的决策。Discovering Fatigued Movements for Virtual Character Animation Authors Noshaba Cheema, Rui Xu, Nam Hee Kim, Perttu H m l inen, Vladislav Golyanik, Marc Habermann, Christian Theobalt, Philipp Slusallek近年来虚拟角色动画和动作合成迅速发展特别是通过广泛的动作捕捉数据集和机器学习的结合。剩下的挑战是交互式地模拟在执行长时间动作时疲劳的角色这对于生成动画的真实感是必不可少的。然而捕捉此类动作是有问题的因为执行后空翻等疲劳变化直至精疲力竭的动作会增加捕捉成本和受伤风险。令人惊讶的是关于忠实疲劳建模的研究很少。为了解决这个问题我们提出了一种基于深度强化学习的方法该方法在文献中首次为意识到累积疲劳的全身物理模拟代理生成控制策略。为此我们首先利用生成对抗性模仿学习 GAIL 来学习该技能的专家策略其次我们通过将基于耐力时间的生成的恒定扭矩范围限制为关节驱动中的非线性、状态和时间相关限制来学习疲劳策略使用三室控制器 3CC 型号的空间。Tree-Planner: Efficient Close-loop Task Planning with Large Language Models Authors Mengkang Hu, Yao Mu, Xinmiao Yu, Mingyu Ding, Shiguang Wu, Wenqi Shao, Qiguang Chen, Bin Wang, Yu Qiao, Ping Luo本文研究闭环任务规划它是指生成一系列技能和计划以完成特定目标同时根据实时观察调整计划的过程。最近由于其卓越的性能和用户友好性促使大型语言模型法学硕士迭代生成动作已成为一种流行的范例。然而这种范式受到两个低效率的困扰高令牌消耗和冗余纠错这两者都阻碍了其大规模测试和应用程序的可扩展性。为了解决这些问题我们提出了 Tree Planner它将法学硕士的任务规划重新构建为三个不同的阶段计划抽样、行动树构建和扎根决策。 Tree Planner 首先使用 LLM 在执行前对一组潜在计划进行采样然后将它们聚合以形成操作树。最后法学硕士在树上执行自上而下的决策过程同时考虑实时环境信息。实验表明Tree Planner 在保持高效率的同时实现了最先进的性能。通过将 LLM 查询分解为单个计划采样调用和多个接地决策调用提示的相当一部分不太可能被重复使用。结果与之前表现最佳的模型相比代币消耗减少了 92.2。此外通过根据需要在操作树上启用回溯纠正过程变得更加灵活导致错误纠正减少 40.5。Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias Authors Max Sobol Mark, Archit Sharma, Fahim Tajwar, Rafael Rafailov, Sergey Levine, Chelsea Finn在线强化学习 RL 或微调过程中策略需要乐观地探索新的状态和行为特别是当先前的离线数据无法提供足够的状态覆盖范围时。然而探索奖励可能会使学习的策略产生偏差并且我们的实验发现这种奖励的简单但标准的使用可能无法恢复高性能策略。同时离线强化学习中的悲观训练使得能够从静态数据集中恢复高性能策略。我们能否利用离线强化学习从在线交互中恢复更好的策略我们做了一个简单的观察即可以在所有具有悲观目标的交互数据上从头开始训练策略从而将用于数据收集和评估的策略解耦。具体来说我们提出离线再训练这是我们用于强化学习 RL 的离线到在线到离线 OOO 框架中在线微调结束时的策略提取步骤。乐观的探索策略用于与环境交互并且针对所有观察到的数据训练单独的悲观开发策略以进行评估。这种解耦可以减少在线互动内在奖励、评估策略中的首要偏见的任何偏差并且可以允许在线互动期间有更多的探索行为从而可以生成更好的数据用于开发。 OOO 是对几种离线到在线 RL 和在线 RL 方法的补充在我们的微调实验中将其平均性能提高了 14 到 26在 D4RL 基准测试中的多个环境中实现了最先进的性能并将在线 RL 性能提高了 165在两个 OpenAI 健身房环境中。此外OOO 可以对不完整的离线数据集进行微调而先前的方法可能无法恢复性能策略。Cross-Episodic Curriculum for Transformer Agents Authors Lucy Xiaoyang Shi, Yunfan Jiang, Jake Grigsby, Linxi Jim Fan, Yuke Zhu我们提出了一种新算法跨情景课程 CEC以提高 Transformer 智能体的学习效率和泛化能力。 CEC 的核心是将跨情节的体验置于 Transformer 的背景中这构成了课程的基础。通过按顺序构建在线学习试验和混合质量演示CEC 构建的课程囊括了学习进展和跨阶段的熟练程度提高。这种协同作用与 Transformer 模型强大的模式识别能力相结合提供了强大的跨情景注意力机制。 CEC 的有效性在两种代表性场景下得到证明一种涉及具有离散控制的多任务强化学习例如在 DeepMind 实验室中其中课程捕获个人和逐渐复杂的环境中的学习进度另一种涉及使用混合质量数据的模仿学习用于持续控制如 RoboMimic 中所示其中课程捕捉了演示者专业知识的提高。在所有情况下CEC 产生的策略都表现出卓越的性能和很强的通用性。Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles Authors Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, Ziran Wang以人为本的设计和人工智能功能的融合为下一代自动驾驶汽车开辟了超越交通的新可能性。这些车辆可以与乘客动态互动并适应他们的喜好。本文提出了一种新颖的框架利用大型语言模型法学硕士来增强自动驾驶汽车的决策过程。通过利用专业工具来利用法学硕士的语言和上下文理解能力我们的目标是将法学硕士的语言和推理能力集成到自动驾驶汽车中。我们的研究包括在 HighwayEnv自动驾驶和战术决策任务的环境集合中进行实验以探索法学硕士在各种场景中的解释、交互和推理。我们还研究了实时个性化展示了法学硕士如何根据口头命令影响驾驶行为。我们的实证结果强调了利用思维提示链的巨大优势可以改善驾驶决策并显示法学硕士通过持续的口头反馈增强个性化驾驶体验的潜力。拟议的框架旨在改变自动驾驶汽车的运营提供个性化支持、透明决策和持续学习以提高安全性和有效性。Reinforcement Learning of Display Transfer Robots in Glass Flow Control Systems: A Physical Simulation-Based Approach Authors Hwajong Lee, Chan Kim, Seong Woo Kim流量控制系统是提高制造系统生产能力的关键概念。为了解决与流程控制相关的调度优化问题以提高生产率现有方法依赖于领域人类专家的启发式设计。因此这些方法需要使用真实设备进行校正、监测和验证。随着系统设计复杂性的增加监控时间也会增加从而降低了达到最佳设计的可能性。作为流量控制系统启发式设计的替代方法人们已经考虑使用深度强化学习来解决调度优化问题。尽管现有的强化学习研究在某些领域取得了优异的表现但其成果对于实际FAB例如显示器和半导体制造工艺的适用性目前还不明显。为此我们提出了一种实现物理模拟环境的方法并通过强化学习在显示器制造中使用传送机器人设计可行的流程控制系统设计。我们提出了一种模型和参数设置来为不同的显示器传输机器人构建虚拟环境以及在该环境上进行强化学习的训练方法以获得玻璃流量控制系统的最优调度。RoboCLIP: One Demonstration is Enough to Learn Robot Policies Authors Sumedh A Sontakke, Jesse Zhang, S bastien M. R. Arnold, Karl Pertsch, Erdem B y k, Dorsa Sadigh, Chelsea Finn, Laurent Itti奖励指定是强化学习中众所周知的难题需要广泛的专家监督来设计稳健的奖励函数。模仿学习 IL 方法试图通过利用专家演示来规避这些问题但通常需要大量的领域内专家演示。受视频和语言模型 VLM 领域进步的启发我们推出了 RoboCLIP这是一种在线模仿学习方法该方法使用单个演示以视频演示或任务文本描述的形式克服大数据要求无需生成奖励即可生成奖励。手动奖励函数设计。此外RoboCLIP 还可以利用域外演示例如人类解决奖励生成任务的视频从而避免需要相同的演示和部署域。 RoboCLIP 利用预先训练的 VLM无需任何微调即可生成奖励。LangNav: Language as a Perceptual Representation for Navigation Authors Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim我们探索使用语言作为视觉和语言导航的感知表示。我们的方法使用现成的视觉系统进行图像字幕和对象检测将代理在每个时间步骤的以自我为中心的全景视图转换为自然语言描述。然后我们对预训练的语言模型进行微调以根据当前视图和轨迹历史记录来选择最能满足导航指令的操作。与采用预训练语言模型直接使用预训练视觉模型中的连续视觉特征的标准设置相反我们的方法使用离散语言作为感知表示。我们在 R2R 视觉和语言导航基准上探索了基于语言的导航 LangNav 方法的两个用例从提示的大语言模型 GPT 4 生成合成轨迹用它来微调较小的语言模型并模拟到真实的迁移其中我们迁移了学习到的策略在模拟环境 ALFRED 到真实环境 R2R 上。CRITERIA: a New Benchmarking Paradigm for Evaluating Trajectory Prediction Models for Autonomous Driving Authors Changhe Chen, Mozhgan Pourkeshavarz, Amir Rasouli基准测试是评估自动驾驶轨迹预测模型的常用方法。现有的基准依赖于数据集这些数据集偏向于更常见的场景例如巡航以及通过对所有场景求平均值来计算的基于距离的指标。遵循这样的军团可以让我们对模型的属性有一些了解包括它们处理不同场景的能力以及它们的输出的可接受性和多样性。Implementation of Fuzzy Control Algorithm in Two-Wheeled Differential Drive Platform Authors Guoyi Chen在单独的专用芯片上设计和开发人工智能控制器具有许多优点。本报告回顾了实时模糊逻辑控制器的开发该控制器用于使用 Arduino Uno 板优化两轮差动驱动平台的运动控制。Accountability in Offline Reinforcement Learning: Explaining Decisions with a Corpus of Examples Authors Hao Sun, Alihan H y k, Daniel Jarrett, Mihaela van der Schaar在决策系统中使用离线数据学习透明、可解释的控制器是一个重要的研究领域因为它有可能降低现实世界系统中应用的风险。然而在医疗保健等责任敏感的环境中决策问责制至关重要但文献尚未充分解决。本文介绍了负责任的离线控制器 AOC它使用离线数据集作为决策语料库并根据定制的示例选择称为语料库子集执行负责任的控制。 ABC在低数据场景下有效运行可以扩展到严格的离线模仿环境并表现出守恒性和适应性的品质。Solving Two-Player General-Sum Games Between Swarms Authors Mukesh Ghimire, Lei Zhang, Wenlong Zhang, Yi Ren, Zhe XuHamilton Jacobi Isaacs HJI PDE 是二人总和博弈的控制方程。与强化学习 RL 方法用于学习价值函数的数据密集型方法不同学习 HJ PDE 可以保证收敛到游戏的纳什均衡值如果存在。然而需要注意的是当状态维数增加时求解 HJ 偏微分方程会变得棘手。为了规避维度 CoD 的诅咒可以使用具有监督的物理通知机器学习方法并且已被证明可以有效地在两个玩家一般和博弈中生成均衡策略。在这项工作中我们将代理级二级玩家游戏的现有工作扩展到两人群体级游戏其中两个子群玩一般和游戏。我们将 textit Kolmogorov 前向方程视为群体密度演化的动态模型。 Chinese Abs From Machine Translation
Papers from arxiv.org
更多精彩请移步主页 pic from pexels.com