wix怎么做网站,瑞安市公用建设局网站,虹口区网站开发,大数据查询来源#xff1a;同济智能汽车研究所UCB 提出了虚拟场景到真实场景的翻译网络#xff0c;解决强化学习用于自动驾驶虚拟测试中与现实测试的差异。强化学习需要大量的试错#xff0c;而真实的自动驾驶车辆#xff08;AV#xff09;无法提供大量的试错为此 AV 强化学习使用虚… 来源同济智能汽车研究所UCB 提出了虚拟场景到真实场景的翻译网络解决强化学习用于自动驾驶虚拟测试中与现实测试的差异。强化学习需要大量的试错而真实的自动驾驶车辆AV无法提供大量的试错为此 AV 强化学习使用虚拟驾驶来进行仿真训练但虚拟的仿真场景和真实场景存在很大差异训练出的模型不能很好泛化到真实场景UCB 提出一种虚拟到显示的翻译网络将虚拟场景翻译成真实场景来进行强化学习训练1 前言强化学习Reinforcement Learning也翻译成增强学习是机器学习的一个热门研究方向。强化学习较多的研究情景主要在机器人、游戏与棋牌等方面。强化学习应用于自动驾驶研究中的一大问题是很难在现实场景中进行实车训练因为强化学习模型需要成千上万次的试错来迭代训练而真实车辆在路面上很难承受如此多的试错。所以目前主流的自动驾驶强化学习研究都集中在使用虚拟驾驶模拟器来进行代理Agent的仿真训练但这种仿真场景和真实场景存在很大的差别训练出来的模型不能很好地泛化到真实场景中也不能满足实际的驾驶要求。加州伯克利大学的 Xinlei Pan 等人提出了虚拟到现实Virtual to Real的翻译网络将虚拟驾驶模拟器中生成的虚拟场景翻译成真实场景来进行强化学习训练取得了更好的泛化能力并可以迁移学习应用到真实世界中的实际车辆满足真实世界的自动驾驶要求。2 简介强化学习是推动策略学习的一个有前景的方向。然而在实际环境中进行自动驾驶车辆的强化学习训练涉及到难以负担的试错。更可行的做法是先在虚拟环境中训练然后再迁移到真实环境中。本文提出了一种新颖的现实翻译网络Realistic Translation Network使虚拟环境下训练的模型在真实世界中变得更切实可行。该网络可以将非真实的虚拟图像输入转换到有相似场景结构的真实图像。以现实的框架为输入通过强化学习训练的驾驶策略能够很好地适应真实世界的驾驶场景。实验表明本文提出的虚拟到现实的强化学习效果很好。据我们所知这是首次通过强化学习训练的驾驶策略可以适应真实世界驾驶数据的成功案例。图 1 自动驾驶虚拟到现实强化学习的框架自动驾驶虚拟到现实强化学习框架首先将模拟器环境渲染的虚拟图像分割成场景解析的表现形式然后通过本文提出的图像翻译网络VISRI将其翻译为合成的真实图像。代理Agent观察合成的真实图像并执行动作。环境会给 Agent 奖励。由于 Agent 是使用可见的近似于真实世界的图像来训练所以它可以很好地适应现实世界的驾驶场景。自动驾驶的目标是使车辆感知它的环境和在没有人参与下的行驶。实现这个目标最重要的任务是学习根据观察到的环境自动输出方向盘、油门、刹车等控制信号的驾驶策略。最直接的想法是端到端的有监督学习训练神经网络模型直接映射视觉输入到动作输出训练数据标记为图像-动作对。然而有监督的方法通常需要大量的数据来训练可泛化到不同环境的模型获得如此大量的数据非常耗费时间且需要大量的人工参与。相比之下强化学习是通过反复试错的方式来学习的不需要人工的明确监督。最近由于其在动作规划方面的专门技术业内认为强化学习是有前景的学习驾驶策略的技术。然而强化学习需要代理Agent与环境的相互作用将会因此发生不符合规则的驾驶行为在现实世界中训练自动驾驶车辆会对车辆和周围环境造成破坏。因此目前的自动驾驶强化学习研究大多集中于仿真而不是在现实世界中的训练。受过强化学习训练的代理在虚拟世界中可以达到近人的驾驶性能但它可能不适用于现实世界的驾驶环境这是因为虚拟仿真环境的视觉外观不同于现实世界的驾驶场景。虽然虚拟驾驶场景与真实驾驶场景相比具有不同的视觉外观但它们具有相似的场景解析结构。例如虚拟和真实的驾驶场景可能都有道路、树木、建筑物等尽管纹理可能有很大的不同因此将虚拟图像翻译成现实图像是合理的。我们可以得到在场景解析结构与目标形象两方面都与真实世界非常相似的仿真环境。最近,生成对抗性网络GAN在图像生成方面引起了很多关注。[1]等人的工作提出了可以用两个域的配对数据将图像从一个域翻译到另一个域的翻译网络的设想。然而很难找到驾驶方向的虚拟-现实世界配对图像。这使得我们很难将这种方法应用到将虚拟驾驶图像翻译成现实图像的案例中。本文提出了一个现实翻译网络在虚拟世界中帮助训练自动驾驶车辆使其完全适应现实世界的驾驶环境。本文提出的框架如图 1 所示将模拟器渲染的虚拟图像转换为真实图像并用合成的真实图像训练强化学习代理。虽然虚拟和现实的图像有不同的视觉外观但它们有共同的场景解析表现方式道路、车辆等的分割图。因此我们可以用将场景解析的表达作为过渡方法将虚拟图像转化为现实图像。这种见解类似于自然语言翻译语义是不同语言之间的过渡。具体来说本文的现实翻译网络包括两个模块第一个是虚拟解析或虚拟分割模块产生对输入的虚拟图像进行场景解析的表示方式。第二个模块是将场景解析表达方式翻译为真实图像解析到真实网络。通过现实翻译网络在真实驾驶数据上学习得到的强化学习模型可以很好地适用于现实世界驾驶。为了证明本文方法的有效性我们通过使用现实翻译网络将虚拟图像转化成合成的真实图像并将这些真实图像作为状态输入来训练我们的强化学习模型。我们进一步比较了利用领域随机化Domain Randomization的有监督学习和其他强化学习方法实验结果表明用翻译的真实图像训练的强化学习模型比只用虚拟输入和使用领域随机化的强化学习模型效果都要更好。3 自然环境下的强化学习我们的目标是成功地将完全在虚拟环境中训练的驾驶模型应用于真实世界的驾驶挑战。其中主要的空白是代理所观察到的是由模拟器渲染的帧它们在外观上与真实世界帧不同。因此提出了将虚拟帧转换为现实帧的现实翻译网络。受图像-图像翻译网络工作的启发我们的网络包括两个模块即虚拟-解析和解析-现实网络。第一个模块将虚拟帧映射到场景解析图像。第二个模块将场景解析转换为与输入虚拟帧具有相似的场景结构的真实帧。这两个模块可以产生保持输入虚拟帧场景解析结构的真实帧。最后我们在通过现实翻译网络获得的真实帧上运用强化学习的方法训练自动驾驶代理。我们所采用了[2]等人提出的方法使用异步的 actor-critic 强化学习算法在赛车模拟器 TORCS [3]中训练了一辆自动驾驶汽车。在这部分我们首先展现了现实翻译网络,然后讨论了如何在强化学习框架下对驾驶代理进行训练。图 2虚拟世界图像左 1 和左 2和真实世界图像右 1 和右 2的图像分割实例3.1 现实翻译网络由于没有配对过的虚拟和真实世界图像使用[1]的直接映射虚拟世界图像到真实世界图像将是不合适的。然而由于这两种类型的图像都表达了驾驶场景我们可以通过场景分析来翻译它们。受[1]的启发我们的现实翻译网络由两个图像翻译网络组成第一个图像翻译网络将虚拟图像转化为图像的分割。第二个图像翻译网络将分割后图像转化为现实世界中的对应图像。由[1]等人提出的图像至图像的翻译网络基本上是一个有条件的生成对抗网络GAN。传统的 GAN 网络和有条件的 GAN 网络的区别在于传统 GAN 网络是学习一种从随机噪声矢量 z 到输出图像 s 的映射Gz → s而有条件的 GAN 网络是同时吸收了图像 x 和噪声向量 z生成另一个图像 sG{x, z} → s且 s 通常与 x 属于不同的领域例如将图像翻译成其分割。有条件的 GAN 网络的任务目标可以表达为G 是试图最小化目标的生成器D 是与 G 相违背的试图最大化目标的对抗判别器。换句话说argmima(G,D)为了抑制模糊添加了 L1 的损失正则化可以表达为 因此图像-图像翻译网络的总体目标是λ 是正则化的权重。我们的网络由两个图像-图像的转换网络组成这两个网络使用公式3作为相同的损失函数。第一个网络将虚拟图像x翻译成它们的分割 sG1{x,} → S第二个网络将分割的图像 s 转换成它们的现实对应的 y: G2:{ s,} → y是噪声,以避免确定性的输出。对于 GAN 神经网络的结构我们使用的是与[1]相同的生成器和判别器结构。3.2 训练自主驾驶汽车的强化学习我们使用传统的强化学习解决方案异步优势 Actor-ArbitorA3C来训练自动驾驶汽车这种方法在多种机器学习任务中表现的很出色。A3C 算法是将几种经典的强化学习算法与异步并行线程思想相结合的一种基本的行动 Actor-Critic。多个线程与环境的无关副本同时运行生成它们自己的训练样本序列。这些 Actor-learners 继续运行好像他们正在探索未知空间的不同部分。对于一个线程参数在学习迭代之前同步完成后更新。A3C 算法实现的细节见[2]。为了鼓励代理更快地驾驶和避免碰撞我们定义了奖励函数为 Vt 是在第 t 步时代理的速度(m/s)α 是代理的速度方向与轨迹切线之间的轮廓红色部分是代理中心和轨迹中点之间的距离β、γ 是常数并在训练的一开始就定义了。我们在训练时设置 β0.006γ-0.025。我们做了两组实验来比较我们的方法和其他强化学习方法以及有监督学习方法的性能。第一组实验涉及真实世界驾驶数据的虚拟到现实的强化学习第二组实验涉及不同虚拟驾驶环境下的迁移学习。我们实验中使用的虚拟模拟器是 TORCS。图 3强化学习网络结构。该网络是一个端到端的将状态表示映射到动作概率输出的网络图 4虚拟到真实图像翻译的例子。奇数列是从 TORCS 截取的虚拟图像。偶数列是根据左边的虚拟图像相对应合成的真实世界图像。3.3 真实世界驾驶数据下的虚拟到现实强化学习在本实验中我们用现实翻译网络训练了本文所提出的强化学习模型。我们首先训练虚拟到真实的图像翻译网络然后利用受过训练的网络对模拟器中的虚拟图像进行滤波。随后将这些真实的图像输入 A3C 算法以训练驾驶策略。最后经过训练的策略在真实世界驾驶数据上进行了测试以评估其转向角度预测精度。为便于比较我们还训练了一个有监督学习模型来预测每个驾驶测试视频框架的转向角度。该模型是一种具有我们的强化学习模型中相同的策略网络设计结构的深度神经网络DNN。网络输入是四个连续框架的序列网络输出的是动作概率向量向量中的元素表示直行、左转、右转的概率。有监督学习模型的训练数据不同于用于评价模型性能的测试数据。另外也训练了另一个基线强化学习模型B-RLB-RL 和我们的方法的唯一区别是虚拟世界图像是由代理直接作为状态输入的。同时也在相同的真实世界驾驶数据上测试了B-RL 模型。数据集真实世界驾驶视频数据来自[4]这是在晴天收集的每一帧都有详细的转角标注的数据集。这个数据集大概有 45000 张图片其中 15000 张用于训练有监督学习另外选出来的 15000 张进行测试。为了训练我们的现实翻译网络我们从 TORCS 中的 Aalborg 环境收集了虚拟图像以及他们的分割。共收集了 1673 张涵盖了整个 Aalborg 环境的驾驶照片。图 5不同环境间的迁移学习。Orcle 曾在 CGTrac2 中接受过训练和测试所以它的性能是最好的。我们的模型比领域随机化 RL 方法更有效。领域随机化方法需要在多个虚拟环境中进行培训这就需要大量的人工的工程工作。场景分割我们使用了[5]中的图像语义分割网络设计及其在 CityScape 图像分割数据集[6]上经过训练的分割网络从[5]中分割 45000 张真实世界的驾驶图像。该网络在 11 个类别的 CityScape 数据集上训练并迭代了 30000 次。图像翻译网络训练我们使用收集的虚拟-分割图像对和分割-真实图像对训练了虚拟-解析和解析-真实两个网络。如图 1 所示翻译网络采用编码-解码器的方式。在图像翻译网络中我们使用了可以从编码器到解码器跳跃连接两个独立分开层的 U-Net 体系结构具有相同的输出特征图形状。生成器的输入尺寸是 256×256。每个卷积层有 4×4 大小的卷积核步长为 2。每一卷积层后都有一个 slope 为 0.2 的 LeakyReLU 层每一个反卷积层后都应用一个 Relu 层。此外在每一个卷积层与反卷积层后都应用一个 BatchNormalization 层。编码器的最终输出与输出尺寸为 3×256×256 并接着 tanh 激活函数的卷积层连接。我们用了全部的 1673 个虚拟-分割图像对来训练一个虚拟-分割网络。因为 45000 张真实图像有所冗余我们从 45000 张图像中选择了 1762 张图像和它们的分割来训练解析-真实的图像翻译网络。为了训练这个图像翻译模型我们使用了 Adam 优化器初始学习率为 0.0002冲量设为 0.5batchsize 设为 16训练了 200 次迭代直到收敛。强化训练我们训练中使用的 RL 网络结构类似于[2]中的 actor 网络是有 4 个层并且每层间使用 Relu 激活函数的卷积神经网络如图 3 所示。该网络将 4 个连续 RGB 帧作为状态输入并输出 9 个离散动作这些动作对应于「直线加速」「加速向左」、「加速向右」、「直走和刹车」、「向左和刹车」、「向右和刹车」、「向左走」和「向右走」。我们用 0.01 个异步线程和 RMSPop 优化器对强化学习代理进行了训练初始学习率为 0.01γ0.9ε0.1。评估真实的驾驶数据集提供了每帧的转向角度注释。然而在 TORCS 虚拟环境中执行的动作只包含「左转」「向右走」「直走」或它们与「加速」「刹车」的组合。因此我们定义了一个标签映射策略将转向角度标签翻译成虚拟模拟器中的动作标签。我们把-1010中的转向角度与「直走」的动作联系起来。由于小转向角度不能在短时间内导致明显的转弯转向角度小于 -10 度映射到动作「向左」转向角度超过 10 度映射到动作「向右」。通过将我们的方法产生的输出动作与地面真实情况相比较我们可以获得驾驶动作预测的准确率。虚拟驾驶环境下的迁移学习我们进一步进行了另一组实验并获得了不同虚拟驾驶环境之间的迁移学习的结果。在这个实验中我们训练了三名强化学习代理。第一个代理在 TORCS 中的 Cg-Track2 环境中接受了标准的 A3C 算法训练并频繁地在相同的环境中评估其性能。我们有理由认为这种代理的性能是最好所以我们称之为「Oracle」。第二个代理用我们提出现实翻译网络的强化学习方法来训练。但是它在 TORCS 的 E-track1 环境中接受训练然后在 Cg-track2 中进行评估。需要注意的是E-track1 的视觉外观不同于 Cg-Track2。第三个代理是用类似于[22]的领域随机化方法训练的在 Cg-track2 中该代理接受了 10 种不同的虚拟环境的训练并进行了评估。为了使用我们的方法训练我们得到了 15000 张分割图像给 E-track1 和 Cg-track2 去训练虚拟-解析和解析-真实的图像翻译网络。图像翻译训练的细节和强化学习的细节与第 3.1 部分相同。3.4 结果图像分割结果我们使用在 Cityscape 数据集上训练的图像分割模型来分割虚拟和真实的图像。例子如图 2 所示。图中表示尽管原始的虚拟图像和真实的图像看起来很不一样但它们的场景解析结果非常相似。因此将场景解析作为连接虚拟图像和真实图像的过渡过程是合理的。现实翻译网络的定性结果图 4 显示了我们的图像翻译网络的一些有代表性的结果。奇数列是 TORCS 中的虚拟图像偶数列则翻译成真实的图像。虚拟环境中的图像似乎比翻译的图像更暗因为训练翻译网络的真实图像是在晴天截取的。因此我们的模型成功地合成了与原始地面真实图像相类似的真实图像。强化训练结果在真实世界驾驶数据上学习到的虚拟-现实的强化学习结果见表 1。结果表明我们提出的方法总体性能优于基线B-RL方法强化学习代理在虚拟环境中接受训练看不到任何现实的数据。有监督学习方法的整体性能最好。然而需要用大量的有监督标记数据训练。表 1 三种方法的动作预测准确率 不同虚拟环境下的迁移学习结果见图 5。显然标准 A3COracle在同一环境中训练和测试的性能最好。然而我们的模型比需要在多个环境中进行训练才能进行泛化的域随机化方法更好。如[7]所述领域随机化需要大量的工程工作来使其泛化。我们的模型成功地观察了从 E-track1 到 Cg-Track2 的翻译图像这意味着该模型已经在一个看起来与测试环境非常相似的环境中进行了训练从而性能有所提高。4 总结通过实验证明利用合成图像作为强化学习的训练数据代理在真实环境中的泛化能力比单纯的虚拟数据训练或领域随机化训练更好。下一步将是设计更好的图像-图像翻译网络和更好的强化学习框架,以超越有监督学习的表现。由于场景解析的桥梁虚拟图像可以在保持图像结构的同时翻译为真实的图像。在现实框架上学习的强化学习模型可以很容易地应用于现实环境中。我们同时注意到分割图的翻译结果不是唯一的。例如分割图指示一辆汽车但它不指定该汽车的颜色。因此我们未来的工作之一是让解析-真实网络的输出呈现多种可能的外观比如颜色质地等。这样强化学习训练中的偏差会大幅度减少。我们第一个提供了例子通过与我们提出的图像-分割-图像框架合成的真实环境交互训练驾驶汽车强化学习算法。通过使用强化学习训练方法可以得到一辆能置身于现实世界中的自动驾驶车辆。5 参考文献[1]Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-imagetranslation with conditional adversarial networks. CoRR, abs/1611.07004, 2016.URL http://arxiv.org/abs/1611.07004.[2]Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, AlexGraves, Timothy P. Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu.Asynchronous methods for deep reinforcement learning. CoRR, abs/1602.01783,2016. URL http: //arxiv.org/abs/1602.01783.[3]Bernhard Wymann, Eric Espié, Christophe Guionneau, ChristosDimitrakakis, Rémi Coulom,and Andrew Sumner. Torcs, the open racing car simulator.Software available at http://torcs. sourceforge. net, 2000.[4]Sully Chen. Autopilot-tensorflow,2016. URL https://github.com/ SullyChen/Autopilot-TensorFlow.[5] VijayBadrinarayanan, Alex Kendall, and Roberto Cipolla. Segnet: A deep convolutionalencoder-decoder architecture for image segmentation. arXiv preprintarXiv:1511.00561, 2015.[6]MariusCordts,Mohamed Omran,Sebastian Ramos,Timo Rehfeld,Markus Enzweiler, RodrigoBenenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes datasetfor semantic urban scene understanding. CoRR, abs/1604.01685, 2016. URL http://arxiv.org/abs/1604.01685.[7]Fereshteh Sadeghi and Sergey Levine. (cad)$ˆ2$rl: Real single-image flightwithout a single real image. CoRR,abs/1611.04201, 2016. URL http://arxiv.org/abs/1611.04201.未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”