摄影师招聘网站,惠州招聘网,网站开发软件排名,ftp 企业网站分类目录#xff1a;《深入理解强化学习》总目录 不同于马尔可夫奖励过程#xff0c;在马尔可夫决策过程中#xff0c;由于动作的存在#xff0c;我们额外定义一个动作价值函数#xff08;Action-value Function#xff09;。我们用 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a)…分类目录《深入理解强化学习》总目录 不同于马尔可夫奖励过程在马尔可夫决策过程中由于动作的存在我们额外定义一个动作价值函数Action-value Function。我们用 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a)表示在马尔可夫决策过程遵循策略 π \pi π时对当前状态 s s s执行动作 a a a得到的期望回报 Q π ( s , a ) E π [ G t ∣ S t s , A t a ] Q_\pi(s, a)E_\pi[G_t|S_ts, A_ta] Qπ(s,a)Eπ[Gt∣Sts,Ata]
在使用策略 π \pi π中状态 s s s的价值等于在该状态下基于策略 π \pi π采取所有动作的概率与相应的价值相乘再求和的结果 V π ( s ) ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V_\pi(s)\sum_{a\in A}\pi(a|s)Q_\pi(s, a) Vπ(s)a∈A∑π(a∣s)Qπ(s,a)
使用策略 π \pi π时状态 s s s下采取动作的价值等于即时奖励加上经过衰减后的所有可能的下一个状态的状态转移概率与相应的价值的乘积 Q π ( s , a ) r ( s , a ) γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) Q_\pi(s, a)r(s, a)\gamma\sum_{s\in S}P(s|s, a)V_\pi(s) Qπ(s,a)r(s,a)γs′∈S∑P(s′∣s,a)Vπ(s′)
参考文献 [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022. [2] Richard S. Sutton, Andrew G. Barto. 强化学习第2版[M]. 电子工业出版社, 2019 [3] Maxim Lapan. 深度强化学习实践原书第2版[M]. 北京华章图文信息有限公司, 2021 [4] 王琦, 杨毅远, 江季. Easy RL强化学习教程 [M]. 人民邮电出版社, 2022