当前位置：首页 > news >正文

电子商务网站建设精品课程免费做字体的网站

news 2025/11/15 8:48:34

电子商务网站建设精品课程,免费做字体的网站,公众号开发者密码怎么获得,微信小程序制作软件免费马尔可夫决策过程马尔可夫含义马尔可夫性质在给定历史状态 s 0 , … , s t s_0,\dots,s_t s0,…,st的情况下#xff0c;某个状态的未来只与当前状态 s t s_t st有关#xff0c;与历史的状态无关。 p ( s t 1 ∣ s t ) p ( s t 1 ∣ s 0 , s 1 , … , s t…马尔可夫决策过程马尔可夫含义马尔可夫性质在给定历史状态 s 0 , … , s t s_0,\dots,s_t s0,…,st的情况下某个状态的未来只与当前状态 s t s_t st有关与历史的状态无关。 p ( s t 1 ∣ s t ) p ( s t 1 ∣ s 0 , s 1 , … , s t ) p(s_{t1}|s_t)p(s_{t1}|s_0,s_1,\dots,s_t) p(st1∣st)p(st1∣s0,s1,…,st) 即一个状态的下一个状态只取决于它的当前状态而与它当前状态之前的状态都没有关系。马尔可夫过程: 一组具有马尔可夫性质的随机变量序列 s 1 , … , s t s_1,\dots,s_t s1,…,st其中下一个时刻的状态只 s t 1 s_{t1} st1取决于当前状态 s t s_t st。我们设状态的历史为 h t s 1 , s 2 , s 3 , … , s t h_t{s_1,s_2,s_3,\dots,s_t} hts1,s2,s3,…,st h t h_t ht包含了之前的所有状态则马尔可夫过程满足条件 p ( s t 1 ∣ s t ) p ( s t 1 ∣ h t ) p(s_{t1}|s_t)p(s_{t1}|h_t) p(st1∣st)p(st1∣ht) 马尔可夫链: 即概率论和数理统计中具有马尔可夫性质且存在于离散的指数集index set和状态空间state space内的随机过程stochastic process。离散时间的马尔可夫过程也成为马尔可夫链。贝尔曼方程 V π ( s ) E π [ G t ∣ S t s ] E π [ R t 1 γ R t 2 γ 2 R t 3 ⋯ ∣ S t s ] E [ R t 1 ∣ s t s ] γ E [ R t 2 γ R t 3 γ 2 R t 4 ⋯ ∣ S t s ] R ( s ) γ E [ G t 1 ∣ S t s ] R ( s ) γ E [ V π ( s t 1 ) ∣ S t s ] R ( s ) γ ∑ s ′ ∈ S P ( S t 1 s ′ ∣ S t s ) V π ( s ′ ) R ( s ) γ ∑ s ′ ∈ S p ( s ′ ∣ s ) V π ( s ′ ) \begin{aligned} V_{\pi}(s) \mathbb{E}_{\pi}\left[G_t \mid S_ts\right] \\ \mathbb{E}_{\pi}\left[R_{t1}\gamma R_{t2}\gamma^2 R_{t3}\cdots \mid S_ts\right] \\ \mathbb{E}\left[R_{t1} \mid s_ts\right]\gamma \mathbb{E}\left[R_{t2}\gamma R_{t3}\gamma^2 R_{t4}\cdots \mid S_ts\right] \\ R(s)\gamma \mathbb{E}\left[G_{t1} \mid S_ts\right] \\ R(s)\gamma \mathbb{E}\left[V_{\pi}\left(s_{t1}\right) \mid S_ts\right] \\ R(s)\gamma \sum_{s^{\prime} \in S} P\left(S_{t1}s^{\prime} \mid S_{t}s\right) V_{\pi}\left(s^{\prime}\right)\\ R(s)\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s\right) V_{\pi}\left(s^{\prime}\right) \end{aligned} Vπ(s)Eπ[Gt∣Sts]Eπ[Rt1γRt2γ2Rt3⋯∣Sts]E[Rt1∣sts]γE[Rt2γRt3γ2Rt4⋯∣Sts]R(s)γE[Gt1∣Sts]R(s)γE[Vπ(st1)∣Sts]R(s)γs′∈S∑P(St1s′∣Sts)Vπ(s′)R(s)γs′∈S∑p(s′∣s)Vπ(s′) 定义了当前状态与未来状态的迭代关系表示当前状态的价值函数可以通过下个状态的价值函数来计算。也即动态规划方程。即 V ( s ) R ( s ) γ ∑ s ′ ∈ S P ( s ′ ∣ s ) V ( s ′ ) V(s)R(s)\gamma\sum_{s\in S}P(s|s)V(s) V(s)R(s)γs′∈S∑P(s′∣s)V(s′) 其中 R ( s ) R(s) R(s)表示奖励函数, P ( S t 1 s ′ ∣ S t s ) P(S_{t1}s|S_ts) P(St1s′∣Sts)表示转移概率矩阵。动态规划算法其可用来计算价值函数的值。通过一直迭代对应的贝尔曼方程最后使其收敛。当最后更新的状态与上一个状态差距不大的时候动态规划算法的更新就可以停止。蒙特卡洛算法可用来计算价值函数的值。当得到一个马尔可夫奖励过程后从某一状态开始与环境进行交互这样就产生一个轨迹从而得到一个折扣后的奖励 g g g。当积累该奖励到一定数量后用它直接除以轨迹数量就会得到其价值函数的值。用于免模型预测价值函数需要观测全部状态后再进行处理。 V π ( s ) E π [ R t γ R t 1 γ 2 R t 2 ⋯ ∣ S t s ] E π [ G t ∣ S t s ] (4.1) \tag{4.1} \begin{aligned} V_\pi(s) \mathbb{E}_{\pi}[R_{t}\gamma R_{t1}\gamma^2 R_{t2} \cdots |S_ts ] \\ \mathbb{E}_{\pi}[G_t|S_ts ] \end{aligned} Vπ(s)Eπ[RtγRt1γ2Rt2⋯∣Sts]Eπ[Gt∣Sts](4.1) Q函数其定义的是某一个状态和某一个动作所对应的有可能得到的回报的期望。 Q π ( s , a ) R ( s , a ) γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V ( s ′ ) Q_{\pi}(s,a)R(s,a)\gamma\sum_{s\in S}P(s|s,a)V(s) Qπ(s,a)R(s,a)γs′∈S∑P(s′∣s,a)V(s′) 问题为什么在马尔可夫奖励过程中需要有折扣因子首先是有些马尔可夫过程是环状的它并没有终点所以我们想避免无穷的奖励。另外我们想把不确定性也表示出来希望尽可能快地得到奖励而不是在未来的某个时刻得到奖励。如果这个奖励是有实际价值的我们可能更希望立刻就得到奖励而不是后面才可以得到奖励。在有些时候折扣因子也可以设为0。当它被设为0后我们就只关注它当前的奖励。我们也可以把它设为1设为1表示未来获得的奖励与当前获得的奖励是一样的。请问如果数据流不具备马尔可夫性质怎么办应该如何处理如果不具备马尔可夫性即下一个状态与之前的状态也有关若仅用当前的状态来求解决策过程势必导致决策的泛化能力变差。为了解决这个问题可以利用循环神经网络对历史信息建模获得包含历史信息的状态表征表征过程也可以使用注意力机制等手段最后在表征状态空间求解马尔可夫决策过程问题。表格型方法概念强化学习是一个与时间相关的序列决策的问题。概率函数与奖励函数概率函数定量地表达状态转移的概率其可以表现环境的随机性。但是实际上我们经常处于一个未知的环境中即概率函数和奖励函数是未知的。时序差分法它结合了动态规划和蒙特卡罗的思想通过不断更新状态值函数或者动作值函数来学习最优策略。时序差分算法的特点是它不需要知道环境的完整模型也不需要等待一个完整的回合结束而是在每一步都可以进行学习和更新。 KaTeX parse error: \tag works only in display equations Sarsa法 Sarsa算法是一种时序差分学习的方法它是一种在线的强化学习算法即它在学习的过程中遵循和改进同一个策略。Sarsa算法的名称来源于它的更新公式即 Q ( s , a ) ← Q ( s , a ) α ( r γ Q ( s ′ , a ′ ) − Q ( s , a ) ) Q(s,a) \leftarrow Q(s,a) \alpha (r \gamma Q(s,a) - Q(s,a)) Q(s,a)←Q(s,a)α(rγQ(s′,a′)−Q(s,a)) 其中 s s s表示当前状态 a a a表示当前动作 r r r表示当前奖励 s ′ s s′表示下一个状态 a ′ a a′表示下一个动作 α \alpha α表示学习率 γ \gamma γ表示折扣因子 Q Q Q表示动作值函数。 Sarsa算法的步骤如下初始化 Q ( s , a ) Q(s,a) Q(s,a)为任意值通常为0。选择一个初始状态 s s s并根据 Q Q Q和一个探索性的策略例如 ϵ \epsilon ϵ-贪心策略选择一个动作 a a a。重复以下步骤直到达到终止状态或者达到最大步数执行动作 a a a观察得到的奖励 r r r和下一个状态 s ′ s s′。根据 Q Q Q和同样的探索性的策略选择下一个动作 a ′ a a′。根据上述的更新公式更新 Q ( s , a ) Q(s,a) Q(s,a)。将 s s s更新为 s ′ s s′将 a a a更新为 a ′ a a′。重复步骤2和3直到 Q Q Q收敛或者达到最大回合数。 Sarsa算法的优点是它可以处理部分可观测Partially Observable的环境即不需要知道环境的完整模型Model也可以适应环境的变化Change。Sarsa算法的缺点是它的收敛速度较慢且可能陷入局部最优Local Optimum。问题为什么我们可以使用未来的总奖励来评价当前动作是好是坏因为在现实世界中奖励往往是延迟的所以强化学习需要学习远期的奖励。我们一般会从当前状态开始把后续有可能会收到的奖励加起来计算当前动作的Q值让Q值可以真正代表当前状态下动作的真正价值。但有的时候我们把目光放得太长远并不好。如果任务很快就结束那么考虑到最后一步的奖励无可厚非。但如果任务是一个持续的没有尽头的任务即持续式任务continuing task我们把未来的奖励全部相加作为当前的状态价值就很不合理。蒙特卡洛法与时序差分法区别蒙特卡洛方法是基于回合的更新即只有在一个回合结束后才可以进行学习和更新而时序差分方法是基于单步的更新即每一步都可以进行学习和更新。蒙特卡洛方法是基于采样的估计即利用真实的回报来更新估计值而时序差分方法是基于自助的估计即利用当前的估计值来更新下一个估计值。蒙特卡洛方法只能处理离散的任务即有终止状态的任务而时序差分方法可以处理连续的任务即没有终止状态的任务。蒙特卡洛方法对初始值的选择比较鲁棒即最终的学习结果不受初始值的影响而时序差分方法对初始值的选择比较敏感即不同的初始值可能导致不同的学习结果。简述同策略和异策略的区别呢同策略和异策略的根本区别在于生成样本的策略和参数更新时的策略是否相同。对于同策略行为策略和要优化的策略是同一策略更新了策略后就用该策略的最新版本对数据进行采样对于异策略其使用任意行为策略来对数据进行采样并利用其更新目标策略。例如Q学习在计算下一状态的预期奖励时使用了最大化操作直接选择最优动作而当前策略并不一定能选择到最优的动作因此这里生成样本的策略和学习时的策略不同所以Q学习算法是异策略算法相对应的Sarsa算法则是基于当前的策略直接执行一次动作选择然后用动作和对应的状态更新当前的策略因此生成样本的策略和学习时的策略相同所以Sarsa算法为同策略算法。

查看全文

http://www.zqtcl.cn/news/671407/