当前位置: 首页 > news >正文

我们的爱情网站制作长春老火车站

我们的爱情网站制作,长春老火车站,网站网页设计模板,企业培训视频作者 | Thomas Simonini编译 | 专知整理 | Yongxi摘要#xff1a;由于Alpha Go的成功#xff0c;强化学习始终是人们谈论的焦点。现在Thomas Simonini在国外blog网站上发布了系列强化学习教程#xff0c;以下是本系列的第一篇#xff0c;简单介绍了强化学习的基本概念。An … 作者 | Thomas Simonini编译 | 专知整理 | Yongxi摘要由于Alpha Go的成功强化学习始终是人们谈论的焦点。现在Thomas Simonini在国外blog网站上发布了系列强化学习教程以下是本系列的第一篇简单介绍了强化学习的基本概念。An introduction to Reinforcement Learning我们基于TensorFlow制作了一门深度强化学习的视频课程【1】主要介绍了如何使用TensorFlow实现强化学习问题求解。强化学习是机器学习的一种重要分支通过“agent ”学习的方式得出在当前环境下所应该采取的动作并观察得到的结果。最近几年我们见证了了许多研究领域的巨大进展例如包括2014年的“DeepMind and the Deep Q learning architecture”【2】2016年的“beating the champion of the game of Go with AlphaGo”【3】2017年的“OpenAI and the PPO”【4】 在这个系列文章中我们将关注于深度学习问题中各类不同的求解方法。包括Q-learningDeep Q-learning策略梯度Actor Critic以及PPO。 在第一篇文章中你将会学到强化学习是什么为什么说“奖励”是最重要的思想。强化学习的三个方法。深度强化学习中的“深度”是什么意思在进入深度学习实现的主题之前一定要把这些元素弄清楚。强化学习背后的思想是代理agent将通过与环境environment的动作action交互进而获得奖励reward。从与环境的交互中进行学习这一思想来自于我们的自然经验想象一下当你是个孩子的时候看到一团火并尝试接触它。火很温暖你感觉很开心奖励1。你就会觉得火是个好东西。可一旦你尝试去触摸它。哎呦火把你的手烧伤了惩罚-1.你才明白只有与火保持一定距离才会产生温暖才是个好东西但如果太过靠近的话就会烧伤自己。这一过程是人类通过交互进行学习的方式。强化学习是一种可以根据行为进行计算的学习方法。 强化学习的过程 举个例子思考如何训练agent 学会玩超级玛丽游戏。这一强化学习过程可以被建模为如下的一组循环过程。agent从环境中接收到状态S0。此案例中这句话意思是从超级玛丽游戏中得到的第一帧信息基于状态S0agent执行A0操作。右移环境转移至新状态S1。新一帧环境给予R1奖励。没死1 强化学习循环输出状态、行为、奖励的序列。整体的目标是最大化全局reward的期望。奖励假设是核心思想在强化学习中为了得到最好的行为序列我们需要最大化累积reward期望。每个时间步的累积reward可以写作等价于然而在现实世界中我们不能仅仅加入奖励。这种奖励来的太快且发生的概率非常大因此比起长期奖励来说更容易预测。另一个例子中agent 是老鼠对手是猫目标是在被猫吃掉之前先吃掉最多的奶酪。从图中可以看到吃掉身边的奶酪要比吃掉猫旁边的奶酪要容易许多。由于一旦被猫抓住游戏即将结束因此猫身边的奶酪奖励会有衰减。我们对折扣的处理如下所示定义gamma为衰减比例在0-1之间Gamma越大衰减越小。这意味着agent 的学习过程更关注于长期的回报。另一方面更小的gamma会带来更大的衰减。这意味着我们的agent 关心于短期的回报。 衰减后的累计奖励期望为每个时间步间的奖励将与gamma参数相乘获得衰减后的奖励值。随着时间步骤的增加猫距离我们更近因此为未来的奖励概率将变得越来越小。事件型或者持续型任务任务是强化学习问题中的基础单元我们可以有两类任务事件型与持续型。事件型任务在这一情况中我们有一个起始点和终止点终止状态。这会创建一个事件一组状态、行为、奖励以及新奖励。对于超级玛丽的情况来说一个事件从游戏开始进行记录直到角色被杀结束。持续型任务持续型任务意味着任务不存在终止状态。在这一案例中agent 将学习如何选择最好的动作并与环境同步交互。例如通过agent 进行自动股票交易。在这个任务中并不存在起始点和终止状态直到我们主动终止之前agent 将一直运行下去。蒙特卡洛与时间差分学习方法接下来将学习两种方法蒙特卡洛方法在事件结束后收集奖励进而计算未来奖励的最大期望。时间差分学习在每一个时间步进行估计计算。蒙特卡洛方法当时间结束时agent 达到“终止状态”agent 将看到全部累积奖励进而计算它将如何去做。在蒙特卡洛方法中奖励只会在游戏结束时进行收集。从一个新游戏开始agent 将会随着迭代的进行完成更好的决策。举例如下如果我们在如上环境中总是从相同位置开始当被猫抓到或者移动超过20步时事件终止。在事件的结尾我们得到一组状态、行为、奖励以及新状态。agent 将对整体奖励Gt求和。基于上面的公式对V(st)求和根据更新的认知开始新的游戏随着执行的事件越来越多agent 学习的结果将越来越好。时间查分学习每步更新对于时序差分学习不需要等到每个事件终止便可以根据未来奖励的最大期望估计进行更新。这种方法叫做TD(0)或者单步TD方法在每个步骤间隔进行值函数更新。TD方法在每一步进行值函数评估更新。在t1时立刻观察到奖励Rt1并得到当前的评估值V(st1)。TD 的目标是得到评估值并根据单步的估计值完成前一个估计值V(st)更新。探索/开发间的平衡在继续了解其他细节之前我们必须介绍一个非常重要的主题探索与开发之间的平衡。探索是为了发现环境的更多信息开发是为了根据已知信息去最大化奖励值。记住我们agent 的目标是为了最大化累积奖励的期望然而我们可能陷入到一个常见的陷阱中。在游戏中老鼠可以获得无限的小奶酪1次获得1个但在迷宫的上部有一个超大的奶酪包裹1次可获得1000个。然而如果我们只关注于奖励agent 将永远无法达到奶酪包裹处。并且它将会仅去探索最近的奖励来源即使这个奖励特别小开发exploitation。但如果agent 进行一点小小的探索工作就有可能获得更大的奖励。这就是探索与开发的平衡问题。我们必须定义出一个规则帮助agent 去解决这个平衡。我们将在未来文章中通过不同策略去解决这一问题。强化学习的三种方法现在我们定义了强化学习的主要元素接下来将介绍三种解决强化学习问题的方法包括基于值的方法、基于策略的方法与基于模型的方法。 基于值的方法在基于值的强化学习方法中目标是优化值函数V(s)。值函数的作用是告诉我们在每个状态下未来最大化的奖励期望。值是每个状态条件下从当前开始在未来所能取得的最大总回报的值。agent 将使用值函数去在每一步选择采用哪个状态。在迷宫问题中在每一步将选择最大值-7-6-5等等。基于策略的方法在基于策略的强化学习方法中我们希望能直接优化策略函数π(s) 。策略的定义是在给定时间的agent 行为。通过学习到策略函数可以让我们对每个状态映射出最好的相关动作。两种策略确定策略在给定状态下总是返回相同动作。随机策略输出一个动作的概率分布。如同我们看到的策略直接指出了每一步的最优行为。基于模型的方法在基于模型的强化学习中我们对环境建模这意味着我们创造了环境的模型。问题是每种行为都需要不同的模型表示这就是为什么在接下来的文章中并没有提及此类方法的原因。 深度强化学习的介绍深度强化学习采用深度神经网络以解决强化学习问题。在例子中在下一篇文章我们将采用Q-learning与深度Q-learning。你将会看到显著地不同在第一种方法中我们将使用一个传统算法那去创建Q值表以帮助我们找到每种状态下应采用的行为。第二种方法中我们将使用神经网络得到某状态下的近似奖励Q 值。这篇文章里有很多信息在继续进行之前一定要真正掌握住基础知识。重点这篇文章是这一免费的强化学习博文专栏的第一部分。关于更多的资源见此链接【5】.下一次我们将基于Q-learning训练agent 去玩Frozen Lake 游戏。https://youtu.be/q2ZOEFAaaI0https://deepmind.com/research/dqn/ https://deepmind.com/research/alphago/ https://blog.openai.com/openai-baselines-ppo/ https://simoninithomas.github.io/Deep_reinforcement_learning_Course/原文链接https://medium.freecodecamp.org/an-introduction-to-reinforcement-learning-4339519de419未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.zqtcl.cn/news/79253/

相关文章:

  • 南通网站开发招聘网站交换链接怎么做
  • 东莞企业做网站自考在线做试卷的网站
  • 企业自助网站建设wordpress 购物商城
  • 18款禁用黄a免费优化公司治理
  • 上传网站数据库吗企业网站的建设 摘要
  • 网站2级域名 还是子目录华丽的网站模板
  • 巴中自助网站建设宁波网站推广宣传
  • 沈阳做企业网站珠海集团网站制作外包
  • 阿里云 企业网站选哪种什么网站用php做的
  • 社交型网站首页面设计分析建设网站需要专业
  • 俄文网站策划社群营销的十大案例
  • 四川省住建设厅网站如何建立网上授课平台
  • 在线视频网站开发沧州网站建设优化公司
  • 关于域名用于非网站用途常州网站建设优化
  • 广州市手机网站建设平台vi设计论文
  • 营销型网站建设哪家便宜网站建设毕业设计文献综述
  • 做淘客网站怎么样杭州优化外包
  • 网站的优化与推广分析设计类公司简介网页
  • 广告网站建设实训报告网站多ip 建设
  • h5游戏是什么意思成都专业网站建设优化团队
  • 金融网站 改版方案怎么做关注网站
  • 怎么简单做网站排名wordpress分享到 滑动
  • 福建做网站公司排名企业网站建设注意事项
  • 个人注什么域名的网站长春网站制作网络推广
  • 长沙做网站团队wordpress tag链接优化
  • 免飞网站wordpress取消邮件验证码
  • 描述建设一个网站的具体步骤互联网创业有哪些项目
  • 网站建设的学习重庆关键词seo排名
  • 做个网站多少钱一年wordpress 回复提醒
  • 物流网站前端模板下载新项目开发流程