当前位置: 首页 > news >正文

阿里云做视频网站犯法吗两个人做aj的视频教程

阿里云做视频网站犯法吗,两个人做aj的视频教程,合肥市做网站的公司有哪些,网页设计的基本结构一、广义策略迭代 策略迭代包括两个同时进行的交互过程#xff0c;一个使价值函数与当前策略保持一致#xff08;策略评估#xff09;#xff0c;另一个使策略在当前价值函数下变得贪婪#xff08;策略改进#xff09;。在策略迭代中#xff0c;这两个过程交替进行…一、广义策略迭代 策略迭代包括两个同时进行的交互过程一个使价值函数与当前策略保持一致策略评估另一个使策略在当前价值函数下变得贪婪策略改进。在策略迭代中这两个过程交替进行每个过程在上一个过程完成之前开始但这并不是必需的。例如在价值迭代中仅在每次策略改进之间执行一次策略评估的迭代。在异步DP方法中评估和改进过程以更精细的粒度交错。在某些情况下单个状态在一个过程中更新后才会返回另一个过程。只要两个过程都继续更新所有状态最终结果通常是相同的-收敛到最优价值函数和最优策略。 我们使用术语广义策略迭代GPI来指让策略评估和策略改进过程相互影响的一般思想而不考虑这两个过程的粒度和其他细节。几乎所有的强化学习方法都可以很好地描述为GPI。即所有方法都具有可识别的策略和价值函数策略总是相对于价值函数进行改进价值函数总是被驱动到该策略的价值函数。图1显示了GPI的整体架构。图1展示了广义策略迭代价值和策略函数相互作用直到它们达到最优从而彼此一致。 图1 很容易看出如果评估过程和改进过程都稳定下来即不再产生变化那么价值函数和策略必定是最佳的。只有当价值函数与当前策略一致时价值函数才会稳定下来而只有当策略对当前价值函数贪婪时策略才会稳定下来。因此只有当已经找到一个策略该策略对其自身的评估函数表现出贪婪时这两个过程才会稳定下来。这意味着贝尔曼最优性方程成立因此策略和价值函数都是最优的。 通用策略迭代中的评估和改进过程可以被视为既相互竞争又相互合作。从某种意义上说它们相互竞争因为它们朝着相反的方向拉动。使策略对价值函数表现出贪婪通常会使价值函数对已改变的策略不正确而使价值函数与策略一致通常会导致该策略不再贪婪。然而从长远来看这两个过程相互作用找到一个单一的联合解决方案最优价值函数和最优策略。 二、典型示例 可以将通用策略迭代中评估和改进过程之间的相互作用视为两个约束或目标——例如作为二维空间中的两条线如图2。 图2 尽管真实的几何比这要复杂得多但该图表明了真实情况下会发生什么。每个过程都驱动价值函数或策略朝向代表两个目标之一的直线的其中一条。这两个目标相互作用因为两条线不是正交的。直接朝向一个目标会导致远离另一个目标的移动。然而不可避免的是联合过程会更加接近整体最优目标。该图中箭头对应于策略迭代的行为每个箭头都将系统完全实现两个目标之一。在通用策略迭代中人们也可以向每个目标迈出更小的、不完整的步骤。无论哪种情况这两个过程共同实现了整体最优的目标尽管任何一个过程都不是直接尝试实现该目标。
http://www.zqtcl.cn/news/114163/

相关文章:

  • 如何建造企业网站北京金山办公软件公司
  • dedecms织梦搬家公司网站模板贵阳国家经济技术开发区门户网站
  • 网站架构设计师网络工程师的就业前景
  • 网站建设所需人员世界各国o2o响应式网站
  • 成都网站设计最加科技企业宣传片观后感
  • 人社门户网站建设方案非官方网站建设
  • 深圳系统网站开发做家具定制的设计网站
  • 网站制作学费多少钱网络推广的常用方法
  • 个人作品网站模板百度上做网站需要钱吗
  • 苏州网站建设行业研究思路 网站建设
  • 金泉网做网站找谁网站的结构布局
  • 网站开发摊销年限柳州网站建设哪家
  • 佛山市和城乡建设局网站首页武建安装公司新闻
  • 如何宣传商务网站网页制作与设计自考
  • 在国内的服务器上建设国外网站响应式单页网站模板
  • 平湖市住房建设局网站国外代理ip
  • 铁路建设监理网站地推项目发布平台
  • 我的世界做指令的网站网站如何在推广
  • 过年做那个网站致富盘锦网站建设vhkeji
  • 网站semseo先做哪个关键词投放
  • 药品招商网站大全南阳做网站公司电话
  • 优秀手机网站大学生创新产品设计作品
  • 备案期间关闭网站宝应人才网
  • 响应式网站一般做几个版本官网+wordpress
  • 太原网站建设方案服务佛山市建设工程有限公司
  • 智能网站建设平台php mysql 网站源码
  • 夏天做那些网站能致富百度关键词价格怎么查询
  • 厦门微信网站专业从事网站开发公司
  • 网站标题的写法湖南如何做网络营销
  • 设计做兼职的网站求推荐医院英文网站建设