当前位置：首页 > news >正文

企业网站微信公众号的建设事迹wordpress发信插件

news 2025/11/15 5:05:49

企业网站微信公众号的建设事迹,wordpress发信插件,网站跳出率太高,服务器价格一览表分类目录#xff1a;《深入理解强化学习》总目录策略评估是指给定马尔可夫决策过程和策略#xff0c;我们可以估算出价值函数的值。本文将阐述如果我们只有马尔可夫决策过程#xff0c;我们应该如何寻找最佳的策略#xff0c;从而得到最佳价值函数#xff08;Optimal Val…分类目录《深入理解强化学习》总目录策略评估是指给定马尔可夫决策过程和策略我们可以估算出价值函数的值。本文将阐述如果我们只有马尔可夫决策过程我们应该如何寻找最佳的策略从而得到最佳价值函数Optimal Value Function的方法。最佳价值函数的定义为 V ∗ ( s ) max ⁡ π V π ( s ) V^*(s)\max_\pi V_\pi(s) V∗(s)πmaxVπ(s) 最佳价值函数是指我们搜索一种策略 π \pi π让每个状态的价值最大。 V ∗ V^* V∗就是到达每一个状态它的值的最大化情况。在这种最大化情况中我们得到的策略就是最佳策略即 π ∗ ( s ) arg ⁡ max ⁡ π V π ( s ) \pi^*(s)\arg\max_\pi V_\pi(s) π∗(s)argπmaxVπ(s) 最佳策略使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个最佳价值函数就可以认为某个马尔可夫决策过程的环境可解。在这种情况下最佳价值函数是一致的环境中可达到的上限的值是一致的但这里可能有多个最佳策略多个最佳策略可以取得相同的最佳价值。当取得最佳价值函数后我们可以通过对Q函数进行最大化来得到最佳策略 π ∗ ( a ∣ s ) { 1 , a arg ⁡ max ⁡ a ∈ A Q ∗ ( s , a ) 0 , 其它 \pi^*(a|s)\left\{ \begin{aligned} 1, \quad a \arg\max_{a\in A} Q^*(s, a) \\ 0, \quad\text{其它} \\ \end{aligned} \right. π∗(a∣s)⎩ ⎨ ⎧1,0,aarga∈AmaxQ∗(s,a)其它综上所述我们定义最优动作价值函数 Q ∗ ( s , a ) max ⁡ π Q π ( s , a ) Q^*(s, a)\max_\pi Q^\pi(s, a) Q∗(s,a)πmaxQπ(s,a) 为了使 Q ∗ ( s , a ) Q^*(s, a) Q∗(s,a)最大我们需要在当前的状态动作对 ( s , a ) (s, a) (s,a)之后都执行最优策略。于是我们得到了最优状态价值函数和最优动作价值函数之间的关系 Q ∗ ( s , a ) r ( s , a ) γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V ∗ ( s ) Q^*(s, a)r(s, a)\gamma\sum_{s\in S}P(s|s, a)V^*(s) Q∗(s,a)r(s,a)γs′∈S∑P(s′∣s,a)V∗(s) 这与在普通策略下的状态价值函数和动作价值函数之间的关系是一样的。另一方面最优状态价值是选择此时使最优动作价值最大的那一个动作时的状态价值 V ∗ ( s ) max ⁡ a ∈ A Q ∗ ( s , a ) V^*(s)\max_{a\in A}Q^*(s, a) V∗(s)a∈AmaxQ∗(s,a) 综上所述当Q函数收敛后因为Q函数是关于状态与动作的函数所以如果在某个状态采取某个动作可以使得Q函数最大化那么这个动作就是最佳的动作。如果我们能优化出一个Q函数 Q ∗ ( s , a ) Q^*(s, a) Q∗(s,a)就可以直接在Q函数中取一个让Q函数值最大化的动作的值就可以提取出最佳策略。策略搜索最简单的策略搜索方法就是穷举。假设状态和动作都是有限的那么每个状态我们可以采取 A A A种动作的策略总共就是 ∣ A ∣ ∣ S ∣ |A|^{|S|} ∣A∣∣S∣个可能的策略。我们可以把策略穷举一遍算出每种策略的价值函数对比一下就可以得到最佳策略。但是穷举非常没有效率所以我们要采取其他方法。搜索最佳策略有两种常用的方法策略迭代和价值迭代。寻找最佳策略的过程就是马尔可夫决策过程的控制过程。马尔可夫决策过程控制就是去寻找一个最佳策略使我们得到一个最大的价值函数值即 π ∗ ( s ) arg ⁡ max ⁡ π V π ( s ) \pi^*(s)\arg\max_\pi V_\pi(s) π∗(s)argπmaxVπ(s) 对于一个事先定好的马尔可夫决策过程当智能体采取最佳策略的时候最佳策略一般都是确定的而且是稳定的它不会随着时间的变化而变化。但最佳策略不一定是唯一的多种动作可能会取得相同的价值。我们可以通过策略迭代和价值迭代来解决马尔可夫决策过程的控制问题。参考文献 [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022. [2] Richard S. Sutton, Andrew G. Barto. 强化学习第2版[M]. 电子工业出版社, 2019 [3] Maxim Lapan. 深度强化学习实践原书第2版[M]. 北京华章图文信息有限公司, 2021 [4] 王琦, 杨毅远, 江季. Easy RL强化学习教程 [M]. 人民邮电出版社, 2022

查看全文

http://www.zqtcl.cn/news/817754/