网站建设托管推广海报,wordpress空白页面模板下载,医药网站建设公司,qq群排名优化来源#xff1a;机器人圈作者#xff1a;Coogle Brain#xff0c;Google X概要#xff1a;相信大家都知道#xff0c;通过检测和采集带有注释的视觉抓取数据集来训练现代机器学习算法可以说是非常耗时、昂贵的。相信大家都知道#xff0c;通过检测和采集带有注释的视觉抓… 来源机器人圈作者Coogle BrainGoogle X概要相信大家都知道通过检测和采集带有注释的视觉抓取数据集来训练现代机器学习算法可以说是非常耗时、昂贵的。相信大家都知道通过检测和采集带有注释的视觉抓取数据集来训练现代机器学习算法可以说是非常耗时、昂贵的。一个非常具有吸引力的替代方案是使用现成的模拟器来生成ground-truth合成数据其中数据的真实注释是自动生成的。不幸的是纯粹模拟数据的模型往往不能在实际中普及应用。我们研究了该如何扩展随机模拟环境和域适应方法以训练一个抓取系统从原始单目RGB图像中抓取新目标。我们对实验方法进行了广泛的评估总共有超过25000个物理测试抓取集研究了一系列模拟条件和域适应方法包括一种我们称之为GraspGAN的像素级域适应的新扩展。研究结果显示通过使用合成数据和域适应方法在只使用随机生成模拟对象的情况下我们能够减少实际所需的样本量在给定性能级的基础上将性能提高50多倍。此外研究结果还显示在只使用未标注的实际数据和GraspGAN方法的情况下我们能够获得实际的抓取性能而没有任何与从939777个标注实际样本中获得的标注相类似的实际标注。抓取是最基本的机器操纵问题之一。实际上对于任何可行的操纵行为来说需要讨论的第一步都是抓取的目标。因此抓取已经成为机器人研究的中心领域之一从最早的机器人研究到现在一系列的方法和技术都涵盖在内。可以说机器人操纵问题的核心挑战是泛化generalization一个抓取系统抓握系统能否成功地抓取在系统设计或训练过程中没有看到过的多种新目标分析型或基于模型的抓取方法可以很好地泛化到那些满足其假设条件的情况下。然而非结构化实际场景的复杂性和不可预测性往往会混淆这些假设而基于学习的方法已经成为强大的补充。学习机器人抓取系统有一个很大的好处那就是有利于对具有实际统计数据的目标进行泛化并可以从计算机视觉和深度学习的进步中获益。实际上近年来已经表现出最佳泛化性能的许多抓取系统已经将卷积神经网络纳入抓取选择过程中。然而基于学习的方法同时也引入了一个重大挑战需要大型标注数据集。这些标注可能包含人为提供的抓取点也可能是自动收集的。在这两种情况下时间和金钱都有相当大的成本最近的研究表明抓取系统的性能表现可能受到可用数据量的强烈影响。克服这些数据需求的本质途径是回顾那些基于分析、基于模型的抓取方法的成功范例其中包含了我们以前对于物理和几何知识的积累。我们可以通过两种方式将这种先验知识纳入基于学习的抓取系统中。首先我们可以修改系统的设计使用基于模型的抓取方法例如作为基于学习抓取系统的评分函数。其次我们可以利用以往的知识来构建一个模拟器并产生可以与实际经验使用方式大致相同的综合经验。可以说在这项研究中所探索的第二条道路是特别吸引人的因为我们可以使用本质上大致相同的学习系统。然而合并模拟图像带来了一个挑战模拟数据与实际数据的系统方式不同模拟必须具有足够的普遍目标。解决这两个挑战就是我们本项研究的主要任务。缩小现实差距我们提出的像素级域适应模型采用由我们的模拟器生成的合成图像a并产生b相似于现实世界中由相机在物理机器人的肩膀产生的图像c。然后我们通过适合的、实际的图像来训练一个基于视觉的深度抓取网络然后我们将进一步完善其特征层面的适应性。我们的工作有三个主要贡献a通过整合合成数据从单目RGB图像获取性能方面的实质性改善我们提出将合成数据并入到基于视觉的机器人抓取的端对端训练方法我们显示实现了性能的显著提高特别是在较少的数据和无数据环境。b模拟到真实世界迁移的详细实验我们的实验涉及36个不同测试对象的25704个真实抓取并考虑了多个维度模拟对象的性质、模拟中使用的随机化类型以及域适应技术用于将模拟图像适应现实世界。c纯粹基于视觉的单目抓取的有效模拟到现实世界迁移的第一个示例据我们所知我们是第一个成功展示抓取的模拟到现实世界simulation-to-real-world迁移并泛化到以前未见的自然物体仅使用单目RGB图像。结论在本文中我们研究了如何将模拟数据并入到基于学习的抓取系统中以提高性能并降低数据需求。我们研究机器人肩膀上的单目RGB图像的抓取这是一个特别具有挑战性的设置其中深度信息和分析型3D模型是不可用的。这对模拟现实世界的迁移提供了一个具有挑战性的设置因为与模拟深度图像相比模拟的RGB图像通常与真实的相同。我们研究了对象的性质在模拟、随机化和域适应方面的影响。我们还介绍了像素级域适应的新的扩展使其适合于我们抓取系统中使用的高分辨率图像。我们的研究结果表明模拟数据可以极大地改善我们所使用的基于视觉的抓取系统实现可比或更好的性能减少50倍的真实样本。研究结果还表明使用逼真的3D模型进行模拟训练并不重要。最后我们的实验表明我们的方法可以提供合成图像的合理转换并且包括域适应在大多数情况下大大提高了性能。虽然我们的工作证明在对较小数量的现实世界数据进行训练时抓取成功率方面取得了很大的进步但也存在一些局限性。我们考虑的两种适应方法都集中在不变性上要么将模拟图像变换为真实图像要么将特征规范化为跨域不变。由于我们网络的结构这些特征包含外观和动作但是并没有明确的推理出模拟与现实世界之间的物理差异。我们确实考虑了动力学性质的随机化并表明它确实很重要。最近的几项研究着眼于明确地适应物理差异将这些想法纳入抓取是未来工作的一个令人兴奋的途径。虽然我们的模拟到真实世界传输的方法现在只考虑单目RGB图像但是将这种方法扩展到立体和具有深度的图像将是非常明确的。最后我们的实验报告的成功率仍有改进的空间我们预计在这一领域的进一步研究将会取得更好的成果。我们工作的主要观点来自不同方法的比较我们不是要提出一个新的抓取系统而是研究如何结合模拟数据来改进现有的方法。