当前位置: 首页 > news >正文

企业网站微信公众号的建设事迹wordpress发信插件

企业网站微信公众号的建设事迹,wordpress发信插件,网站跳出率太高,服务器价格一览表分类目录#xff1a;《深入理解强化学习》总目录 策略评估是指给定马尔可夫决策过程和策略#xff0c;我们可以估算出价值函数的值。本文将阐述如果我们只有马尔可夫决策过程#xff0c;我们应该如何寻找最佳的策略#xff0c;从而得到最佳价值函数#xff08;Optimal Val…分类目录《深入理解强化学习》总目录 策略评估是指给定马尔可夫决策过程和策略我们可以估算出价值函数的值。本文将阐述如果我们只有马尔可夫决策过程我们应该如何寻找最佳的策略从而得到最佳价值函数Optimal Value Function的方法。最佳价值函数的定义为 V ∗ ( s ) max ⁡ π V π ( s ) V^*(s)\max_\pi V_\pi(s) V∗(s)πmax​Vπ​(s) 最佳价值函数是指我们搜索一种策略 π \pi π让每个状态的价值最大。 V ∗ V^* V∗就是到达每一个状态它的值的最大化情况。 在这种最大化情况中我们得到的策略就是最佳策略即 π ∗ ( s ) arg ⁡ max ⁡ π V π ( s ) \pi^*(s)\arg\max_\pi V_\pi(s) π∗(s)argπmax​Vπ​(s) 最佳策略使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个最佳价值函数就可以认为某个马尔可夫决策过程的环境可解。在这种情况下最佳价值函数是一致的环境中可达到的上限的值是一致的但这里可能有多个最佳策略多个最佳策略可以取得相同的最佳价值。当取得最佳价值函数后我们可以通过对Q函数进行最大化来得到最佳策略 π ∗ ( a ∣ s ) { 1 , a arg ⁡ max ⁡ a ∈ A Q ∗ ( s , a ) 0 , 其它 \pi^*(a|s)\left\{ \begin{aligned} 1, \quad a \arg\max_{a\in A} Q^*(s, a) \\ 0, \quad\text{其它} \\ \end{aligned} \right. π∗(a∣s)⎩ ⎨ ⎧​1,0,​aarga∈Amax​Q∗(s,a)其它​ 综上所述我们定义最优动作价值函数 Q ∗ ( s , a ) max ⁡ π Q π ( s , a ) Q^*(s, a)\max_\pi Q^\pi(s, a) Q∗(s,a)πmax​Qπ(s,a) 为了使 Q ∗ ( s , a ) Q^*(s, a) Q∗(s,a)最大我们需要在当前的状态动作对 ( s , a ) (s, a) (s,a)之后都执行最优策略。于是我们得到了最优状态价值函数和最优动作价值函数之间的关系 Q ∗ ( s , a ) r ( s , a ) γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V ∗ ( s ) Q^*(s, a)r(s, a)\gamma\sum_{s\in S}P(s|s, a)V^*(s) Q∗(s,a)r(s,a)γs′∈S∑​P(s′∣s,a)V∗(s) 这与在普通策略下的状态价值函数和动作价值函数之间的关系是一样的。另一方面最优状态价值是选择此时使最优动作价值最大的那一个动作时的状态价值 V ∗ ( s ) max ⁡ a ∈ A Q ∗ ( s , a ) V^*(s)\max_{a\in A}Q^*(s, a) V∗(s)a∈Amax​Q∗(s,a) 综上所述当Q函数收敛后因为Q函数是关于状态与动作的函数所以如果在某个状态采取某个动作可以使得Q函数最大化那么这个动作就是最佳的动作。如果我们能优化出一个Q函数 Q ∗ ( s , a ) Q^*(s, a) Q∗(s,a)就可以直接在Q函数中取一个让Q函数值最大化的动作的值就可以提取出最佳策略。 策略搜索 最简单的策略搜索方法就是穷举。假设状态和动作都是有限的那么每个状态我们可以采取 A A A种动作的策略总共就是 ∣ A ∣ ∣ S ∣ |A|^{|S|} ∣A∣∣S∣个可能的策略。我们可以把策略穷举一遍算出每种策略的价值函数对比一下就可以得到最佳策略。 但是穷举非常没有效率所以我们要采取其他方法。搜索最佳策略有两种常用的方法策略迭代和价值迭代。寻找最佳策略的过程就是马尔可夫决策过程的控制过程。马尔可夫决策过程控制就是去寻找一个最佳策略使我们得到一个最大的价值函数值即 π ∗ ( s ) arg ⁡ max ⁡ π V π ( s ) \pi^*(s)\arg\max_\pi V_\pi(s) π∗(s)argπmax​Vπ​(s) 对于一个事先定好的马尔可夫决策过程当智能体采取最佳策略的时候最佳策略一般都是确定的而且是稳定的它不会随着时间的变化而变化。但最佳策略不一定是唯一的多种动作可能会取得相同的价值。我们可以通过策略迭代和价值迭代来解决马尔可夫决策过程的控制问题。 参考文献 [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022. [2] Richard S. Sutton, Andrew G. Barto. 强化学习第2版[M]. 电子工业出版社, 2019 [3] Maxim Lapan. 深度强化学习实践原书第2版[M]. 北京华章图文信息有限公司, 2021 [4] 王琦, 杨毅远, 江季. Easy RL强化学习教程 [M]. 人民邮电出版社, 2022
http://www.zqtcl.cn/news/817754/

相关文章:

  • 珠海pc网站建设wordpress子主题安全
  • 布吉企业网站建设网站维护与建设内容
  • 专业图书商城网站建设七初SEO网站建设
  • 南通公司网站模板建站wordpress设置主页
  • 小企业网站建设哪找广州app开发平台
  • 建设部国家标准网站免费网站建设 免备案
  • 网站后台批量上传图片ue5培训机构哪家强
  • 合肥制作网站在哪里建网站
  • 网站开发话术合同管理软件系统
  • 洛阳建设网站公司vue 微信公众号开发
  • 网页的网站建设什么网站可以做免费广告
  • 秦都区建设局网站网络推广如何收费
  • 户外保险网站网站开发市场情况
  • 嘉兴企业网站排名网站快速排名服务
  • 8步快速搭建个人网站视频网站备案号被收回
  • 沈阳网站建设 景乔科技wap入口
  • 做网站服务器要用多大怎么在58建设企业的网站
  • 购物网站用户管理景观设计公司资质
  • 县检察院门户网站建设情况门户网站衰落的原因
  • 菏泽网站建设哪好大型企业网络搭建
  • t恤定制网站厦门制作网站企业
  • 上海建站优化建设网站个人简介范文
  • 青岛网站建设公司排名做收集信息的网站
  • 有空间与域名后怎么做网站电影网站建设费用
  • 网站建设销售找客源app制作培训
  • ps制作网站产品图片ps平面设计主要做什么
  • 怎样更新网站泉州网站开发公司
  • 蕲春县住房和城乡建设局网站广东建设局网站首页
  • 网站优化工作室共享经济型网站开发
  • 自己做网站好还是购买网站好网站建设平台报价