当前位置: 首页 > news >正文

网站推广的方法有金蝶软件公司官网

网站推广的方法有,金蝶软件公司官网,网站设计招标评标标准及办法,网站做的比较好的贸易公司一、说明 关于马尔可夫过程#xff0c;如何将马尔可夫决策转化成决策依据#xff0c;这里介绍的基本的思想路径#xff0c;为读者将来设计和应用决策模型提供理论上的参考。 这是了解强化学习的一系列基础文章的后续文章。如果您有兴趣了解强化学习#xff0c;请查看此处。… 一、说明 关于马尔可夫过程如何将马尔可夫决策转化成决策依据这里介绍的基本的思想路径为读者将来设计和应用决策模型提供理论上的参考。 这是了解强化学习的一系列基础文章的后续文章。如果您有兴趣了解强化学习请查看此处。 二、马尔可夫过程 让我们尝试通过一个简单的例子来理解马尔可夫过程。顺便说一句我真的希望印度能赢得世界杯 好吧回到这个例子假设下表代表了印度板球队在世界杯比赛中的历史表现。 | | Winning | Losing | Drawing | |---------|---------|--------|---------| | Winning | 0.6 | 0.1 | 0.3 | | Losing | 0.3 | 0.4 | 0.3 | | Drawing | 0.4 | 0.2 | 0.4 | 注意以上表格是转移矩阵指把当前状态向量输入后输出预测出可能的结果向量。  这里有 3 种可能的状态获胜、失败和平局。现在让我们想象一下球队目前的状态是“胜利”。使用上表中的转移概率 赢得下一场比赛的概率 0.6输掉下一场比赛的概率 0.1打平下一场比赛的概率 0.3 如果球队目前处于“获胜”状态并且我们想要预测两场比赛后的状态我们可以连续应用这些概率。 一场比赛后 获胜概率 0.6失败的概率 0.1打平概率 0.3 两场比赛后 获胜概率 (0.6 * 0.6) (0.1 * 0.3) (0.3 * 0.4) 0.36 0.03 0.12 0.51失败概率 (0.6 * 0.1) (0.1 * 0.4) (0.3 * 0.2) 0.06 0.04 0.06 0.16打平概率 (0.6 * 0.3) (0.1 * 0.3) (0.3 * 0.4) 0.18 0.03 0.12 0.33 因此在两场比赛之后如果球队以“获胜”状态开始则他们仍有 51% 的机会获胜16% 的机会输球33% 的机会平局。 这个简单的马尔可夫过程示例演示了如何根据板球队的历史表现概率对锦标赛中板球队比赛的潜在结果进行建模从而帮助根据当前状态预测其未来状态。 因此这构成了随机强化学习问题的基础我们可以使用马尔可夫决策过程对环境进行建模。 三、马尔可夫奖励过程 现在我们了解了马尔可夫过程马尔可夫奖励过程是一个马尔可夫过程我们可以将奖励与马尔可夫过程的状态转换联系起来但不涉及决策或行动。马尔可夫奖励过程的关键组成部分是 状态、转移概率、奖励、折扣因子 折扣系数 (γ) 代表未来奖励相对于即时奖励的重要性。有助于在价值评估中权衡未来奖励。 让我们继续前面的例子来了解这个马尔可夫过程的价值函数。我们假设状态之间转换的奖励是 | | Winning | Losing | Drawing | |---------|---------|--------|---------| | Winning | 10 | -5 | 0 | | Losing | 8 | 0 | 2 | | Drawing | 5 | -3 | 0 | 状态的价值函数使用以下公式计算 MRP 的价值函数计算 其中γ 表示折扣因子 s 表示下一个状态s 表示当前状态。 上面的方程被称为贝尔曼方程它可以帮助我们迭代计算每个状态的价值函数提供马尔可夫奖励过程中从不同状态开始的预期累积奖励的估计。 马尔可夫决策过程 马尔可夫决策过程是马尔可夫奖励过程行动。该流程的主要组成部分是 {S, A, P, R, γ} 其中马尔可夫决策过程成分之上的附加成分是与每个状态转换相关的又名动作。 四、马尔可夫决策过程中的策略 在马尔可夫决策过程MDP中策略规定了代理在不同状态下选择操作的策略或规则。策略定义代理的行为并通过指定代理在给定状态下应采取的操作来指导决策。 3.1 保单类型 确定性策略 (π) 确定性策略为每个状态选择特定的操作。它将每个状态映射到单个操作。示例在状态s中策略可能指定“执行操作a 1​”。 随机策略 (π) 随机策略提供每个状态的操作的概率分布。它指定在一个状态中选择每个可能动作的概率。示例在状态s中策略可能指示“以 0.6 的概率采取行动 1​以0.3 的概率采取行动 2​以0.1的概率采取行动 3​” 。 在州 s 采取行动 a 的政策 因此对于给定的策略 (π)计算与状态相关的价值函数的贝尔曼方程可以表示为 3.2 政策特点 探索与利用策略在探索尝试不同的操作来收集信息和利用利用已知的操作以获得即时奖励之间取得平衡。最优性最优策略随着时间的推移最大化预期累积奖励。 最优策略 π* 状态价值根据引导智能体走向更高价值状态从长远来看会带来更高奖励的状态的能力来评估策略。 五、马尔可夫决策过程中的政策改进和评估 让我们考虑一个简单的网格世界场景来说明马尔可夫决策过程 (MDP) 中的策略评估和策略改进。 想象一个代理在 3x3 网格世界中导航。代理可以向上、向下、向左或向右移动并且每一步都会收到 -1 的奖励直到到达最终状态它会收到 10 的奖励。 5.1 政策评估 设置 考虑代理在网格中随机移动的初始策略。 2.价值迭代方程策略评估 价值函数V ( s )估计当前策略下每个状态的预期累积奖励。V ( s )的贝尔曼期望方程为 V ( s ) Σ(a) π ( a ∣ s ) Σ( s ′, r) ​p ( s ′, r ∣ s , a )[ r  γ ⋅ V ( s ′)] 在哪里 π ( a ∣ s ) 是根据策略在状态s下采取动作a的概率。p ( s , r ∣ s , a ) 是在状态 s 中采取动作 a 时以奖励r转移到状态s 的概率。γ是折扣因子。 3、迭代 迭代所有状态根据贝尔曼方程更新值估计直到收敛。 5.2 政策改进 有多种技术和算法可用于马尔可夫决策过程 (MDP) 中强化学习的策略改进。这些方法的重点是增强代理的策略以随着时间的推移实现更高的累积奖励。 贪心策略改进 方法选择在每个状态下最大化价值函数的行动。流程根据当前价值函数更新策略以支持具有最高估计值的行动。目标旨在通过偏向看似最有回报的行动使政策更具剥削性。 5.3 政策迭代 方法政策评估和政策改进步骤交替进行。流程迭代评估当前策略并根据评估进行更新。目标通过基于价值估计迭代细化策略努力收敛到最优策略。 5.4 值迭代 方法使用贝尔曼最优方程通过迭代更新确定价值函数。过程通过重复应用贝尔曼方程直到收敛来计算每个状态的值估计。目标专注于获得最优价值函数以便根据这些估计来改进政策。 除了这些技术之外还有基于 Q 的学习、蒙特卡罗策略改进和 Actor-Critic 方法来改进策略我们将在另一篇文章中讨论这些方法。 六、可观察和部分可观察马尔可夫过程 可观察马尔可夫决策过程MDP是强化学习中的一个场景其中代理在决策过程中可以完全访问环境的当前状态。简单来说 代理确切地知道环境中每一时刻发生的事情。它具有有关当前情况的清晰且完整的信息。决策仅依赖于当前状态不需要过去的额外信息。这种类型的 MDP 是理想化的代表代理的观察完美反映环境状态的场景允许基于准确的信息直接做出决策。 在部分可观察马尔可夫决策过程POMDP中代理缺乏对环境状态的完整和直接访问。相反它收到的观察结果不明确且不完整无法完全揭示真实状态。这种不确定性给决策带来了挑战因为智能体必须根据观察和过去的行动维持对可能状态的信念。 关键点 信息不完整代理缺乏有关环境状态的完整详细信息。不确定的观察结果收到的观察结果没有精确地指定状态从而导致模糊性。信念空间代理根据观察到的信息维护可能状态的概率 在 POMDP 中工作 信念更新使用观察和过去的知识不断更新关于可能状态的信念。政策制定制定考虑不确定性的策略以根据对潜在状态的信念做出决策。 希望到目前为止您已经对马尔可夫过程、价值函数有了基本的了解并对与马尔可夫过程相关的策略有了直观的了解。 参考资料 机器学习5关于期望的深入讨论_对一个概率分布求期望有什么 机器学习系列4期望到底是个啥_机器学习中的期望乐观度  回到未来使用马尔可夫转移矩阵分析时间序列数据_马尔科夫转移概率矩阵应用案例  souptik.reach.095。
http://www.zqtcl.cn/news/227513/

相关文章:

  • wordpress Apache升级优化营商环境的意义
  • 单页式网站系统wordpress自定义字段怎么用
  • 南宁网站设计要多少钱修改wordpress中的 功能 小工具
  • 南昌高端网站开发费用表域名价格排行
  • 怎么接网站开发外包中国观鸟记录的网站架构
  • 青海省住房和城乡建设厅的官方网站网站举报能不能查到举报人
  • dw做的网站如何上传云服务器网址生成app一键生成器
  • 山西建设厅网站密钥房山营销型网站建设
  • 网站空间多少钱哪里接单做网站
  • 建设部网站资质人员查询页面设计的对称方法包括哪几种形式
  • 滁州网站建设哪个好点iis发布网站无法访问
  • 网站项目建设的定义百度站长平台清退
  • ip开源网站FPGA可以做点什么建设网站的工作职责
  • 重庆微信网站开发公司建设网站技术标准
  • 网站开发浏览器银川市建设诚信平台网站
  • 找合伙人做红木家具网站建设银行员工学习网站
  • iis的默认网站没有自动启动长春小程序开发制作
  • 佛山住房和城乡建设部网站wordpress 英文主题
  • 零食网站策划书厦门建设网站的公司
  • 自己做的网站怎么发布到网上湖南做网站 干净磐石网络
  • steam网站代做设计公司招聘信息
  • 网站开发 书籍无广告自助建站
  • 青岛电子商务网站建设wordpress购物车会员
  • 大理建网站沉默是金吉他谱
  • 门户网站需要多少费用wordpress的中文插件安装
  • 男做基视频网站怎么做网上直营店网站
  • 网站栏目排序个人站长网站应该如何定位
  • phpcms wap网站搭建学网站开发难吗
  • 做一个网页一般多少钱seo实训思考与总结
  • 怎么用wordpress做搜索网站wordpress 作品集插件