当前位置: 首页 > news >正文

合肥做装修哪个网站好企业模板

合肥做装修哪个网站好,企业模板,网站页面设计报价模板,百度认证证书一、广义策略迭代 策略迭代包括两个同时进行的交互过程#xff0c;一个使价值函数与当前策略保持一致#xff08;策略评估#xff09;#xff0c;另一个使策略在当前价值函数下变得贪婪#xff08;策略改进#xff09;。在策略迭代中#xff0c;这两个过程交替进行…一、广义策略迭代 策略迭代包括两个同时进行的交互过程一个使价值函数与当前策略保持一致策略评估另一个使策略在当前价值函数下变得贪婪策略改进。在策略迭代中这两个过程交替进行每个过程在上一个过程完成之前开始但这并不是必需的。例如在价值迭代中仅在每次策略改进之间执行一次策略评估的迭代。在异步DP方法中评估和改进过程以更精细的粒度交错。在某些情况下单个状态在一个过程中更新后才会返回另一个过程。只要两个过程都继续更新所有状态最终结果通常是相同的-收敛到最优价值函数和最优策略。 我们使用术语广义策略迭代GPI来指让策略评估和策略改进过程相互影响的一般思想而不考虑这两个过程的粒度和其他细节。几乎所有的强化学习方法都可以很好地描述为GPI。即所有方法都具有可识别的策略和价值函数策略总是相对于价值函数进行改进价值函数总是被驱动到该策略的价值函数。图1显示了GPI的整体架构。图1展示了广义策略迭代价值和策略函数相互作用直到它们达到最优从而彼此一致。 图1 很容易看出如果评估过程和改进过程都稳定下来即不再产生变化那么价值函数和策略必定是最佳的。只有当价值函数与当前策略一致时价值函数才会稳定下来而只有当策略对当前价值函数贪婪时策略才会稳定下来。因此只有当已经找到一个策略该策略对其自身的评估函数表现出贪婪时这两个过程才会稳定下来。这意味着贝尔曼最优性方程成立因此策略和价值函数都是最优的。 通用策略迭代中的评估和改进过程可以被视为既相互竞争又相互合作。从某种意义上说它们相互竞争因为它们朝着相反的方向拉动。使策略对价值函数表现出贪婪通常会使价值函数对已改变的策略不正确而使价值函数与策略一致通常会导致该策略不再贪婪。然而从长远来看这两个过程相互作用找到一个单一的联合解决方案最优价值函数和最优策略。 二、典型示例 可以将通用策略迭代中评估和改进过程之间的相互作用视为两个约束或目标——例如作为二维空间中的两条线如图2。 图2 尽管真实的几何比这要复杂得多但该图表明了真实情况下会发生什么。每个过程都驱动价值函数或策略朝向代表两个目标之一的直线的其中一条。这两个目标相互作用因为两条线不是正交的。直接朝向一个目标会导致远离另一个目标的移动。然而不可避免的是联合过程会更加接近整体最优目标。该图中箭头对应于策略迭代的行为每个箭头都将系统完全实现两个目标之一。在通用策略迭代中人们也可以向每个目标迈出更小的、不完整的步骤。无论哪种情况这两个过程共同实现了整体最优的目标尽管任何一个过程都不是直接尝试实现该目标。
http://www.zqtcl.cn/news/439173/

相关文章:

  • 域名是建网站之前申请吗怎么查看网站开发语言
  • 网站建设业务的延伸性查企业信息查询平台官网免费
  • 网站如何制作的渭南网站建设推广
  • 网站的ico怎么做简单房地产网站
  • 做室内设计通常上的网站关键词挖掘查询工具爱站网
  • 大理住房和城乡建设部网站为食堂写个网站建设
  • 做网站要icp备案吗软件定制开发 报价
  • 外国网站上做雅思考试dw做网站的导航栏
  • 公司网站建设的作用网站建设网上商城心得体会
  • 珠海网站建设的公司网站生成app
  • 营销网站建设的价格私人网站建设成本
  • 企业网站制作模板免费下载淘宝指数查询官网手机版
  • 做服装外单的网站购物网站首页图片
  • 网站建设到运营赚钱上海网络哪家比较好
  • 做网站要求高吗超炫网站
  • 贵卅省住房和城乡建设厅网站怎么快速仿wordpress站
  • 苏州网站建设排名clef wordpress
  • 罗定建设局网站汽车装饰网站源码
  • 网站用什么切版商城网站怎么建
  • 设计网站公司多少钱wordpress获取所有标签
  • 怎么看一个网站是哪个公司做的电子商务网站设计与规划
  • 邯郸哪里做网站优化网站建设如何排版
  • 济南网站建设设计制作公司找人做网站价格
  • 阿里网站年费续费怎么做分录大型的网站开发
  • 中山做网站费用广西壮族自治区住房和建设厅网站
  • vs2015做网站如何添加控件建设网站计划 ppt
  • 简述网站设计流程贵阳小程序开发软件公司
  • 营销网站建设的原则设计网站页面要注意什么
  • 上海怎么做网站国外网站 设计
  • 开发公司土地评估费计入土地价款优化搜狐的培训