当前位置：首页 > news >正文

福州仓山区网站建设电商网站设计与开发

news 2025/11/14 12:54:33

福州仓山区网站建设,电商网站设计与开发,网站规划与网页设计第二版,wordpress加载完再显示图片分类目录#xff1a;《深入理解强化学习》总目录强化学习的历史早期的强化学习#xff0c;我们称其为标准强化学习。最近业界把强化学习与深度学习结合起来#xff0c;就形成了深度强化学习#xff08;Deep ReinforcemetLearning#xff09;。因此#xff0c;深度强化…分类目录《深入理解强化学习》总目录强化学习的历史早期的强化学习我们称其为标准强化学习。最近业界把强化学习与深度学习结合起来就形成了深度强化学习Deep ReinforcemetLearning。因此深度强化学习是深度学习和强化学习的组合。我们可将标准强化学习和深度强化学习类比于传统的计算机视觉和深度计算机视觉。如下图所示传统的计算机视觉由两个过程组成定一张图片我们先要提取它的特征使用一些设计好的特征比如方向梯度直方图Histogram of Oriental GradientHOG、可变现的组件模型Deformable Part ModelDPM。提取这些特征后我们再单独训练一个分类器。这个分类器可以是支持向量机Support Vector MachineSVM或Boosting然后就可以辨别这张图片是狗还是猫。 2012年Krizhevsky等人提出了AlexNet。AlexNet在ImageNet分类比赛中取得冠军迅速引起了人们对于卷积神经网络的广泛关注。大家就把特征提取以及分类两者合到一块儿去了就是训练一个神经网络。这个神经网络既可以做特征提取也可以做分类它可以实现端到端训练如上图所示它的参数可以在每一个阶段都得到极大的优化这是一个非常重要的突破。我们也可以把神经网络放到强化学习里面标准强化学习比如TD-Gammon玩Backgammon游戏的过程其实就是设计特征然后训练价值函数的过程如图下图所示。标准强化学习先设计很多特征这些特征可以描述现在整个状态。得到这些特征后我们就可以通过训练一个分类网络或者分别训练一个价值估计函数来采取动作。深度强化学习自从我们有了深度学习有了神经网络就可以把智能体玩游戏的过程改进成一个端到端训练End-to-end Training的过程如下图所示。我们不需要设计特征直接输入状态就可以输出动作。我们可以用一个神经网络来拟合价值函数或策略网络省去特征工程Feature Engineering的过程。为什么强化学习在这几年有很多的应用比如玩游戏以及机器人的一些应用并且可以击败人类的顶尖棋手呢这有如下几点原因。首先我们有了更多的算力Computation Power有了更多的GPU可以更快地做更多的试错尝试。其次通过不同尝试智能体在环境里面获得了很多信息然后可以在环境里面取得很大的奖励。最后我们通过端到端训练把特征提取和价值估计或者决策一起优化这样就可以得到一个更强的决策网络。接下来介绍一些强化学习里面比较有意思的例子如下图所示走路智能体这个智能体往前走一步就会得到一个奖励。这个智能体有不同的形态可以学到很多有意思的功能。比如像人一样的智能体学习怎么在曲折的道路上往前走。结果非常有意思这个智能体会把手举得非常高因为举手可以让它的身体保持平衡它就可以更快地在环境里面往前走。而且我们也可以增加环境的难度加入一些扰动智能体就会变得更鲁棒。机械臂抓取因为我们把强化学习应用到机械臂自动抓取需要大量的预演所以我们可以使用多个机械臂进行训练。分布式系统可以让机械臂尝试抓取不同的物体盘子里面物体的形状是不同的这样就可以让机械臂学到一个统一的动作然后针对不同的抓取物都可以使用最优的抓取算法。因为抓取的物体形状的差别很大所以使用一些传统的抓取算法不能把所有物体都抓起来。传统的抓取算法对每一个物体都需要建模这样是非常费时的。但通过强化学习我们可以学到一个统一的抓取算法其适用于不同的物体。机械臂翻魔方OpenAI 在2018年的时候设计了一款带有“手指”的机械臂它可以通过翻动手指使得手中的木块达到预期的设定。人的手指其实非常灵活怎么使得机械臂的手指也具有这样灵活的能力一直是个问题。OpenAI先在一个虚拟环境里面使用强化学习对智能体进行训练再把它应用到真实的机械臂上。这在强化学习里面是一种比较常用的做法即我们先在虚拟环境里面得到一个很好的智能体然后把它应用到真实的机器人中。这是因为真实的机械臂通常非常容易坏而且非常贵一般情况下没办法大批量地购买。OpenAI在2019年对其机械臂进行了进一步的改进这个机械臂在改进后可以玩魔方了。穿衣服的智能体很多时候我们要在电影或者一些动画中实现人穿衣服的场景通过手写执行命令让机器人穿衣服非常困难穿衣服也是一种非常精细的操作。我们可以训练强化学习智能体来实现穿衣服功能。我们还可以在里面加入一些扰动智能体可以抵抗扰动。可能会有失败的情况failure case出现这样智能体就穿不进去衣服。参考文献 [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022. [2] Richard S. Sutton, Andrew G. Barto. 强化学习第2版[M]. 电子工业出版社, 2019 [3] Maxim Lapan. 深度强化学习实践原书第2版[M]. 北京华章图文信息有限公司, 2021 [4] 王琦, 杨毅远, 江季. Easy RL强化学习教程 [M]. 人民邮电出版社, 2022

查看全文

http://www.zqtcl.cn/news/751378/