当前位置: 首页 > news >正文

网站开发电销常遇到问题门户网站需要多大的服务器

网站开发电销常遇到问题,门户网站需要多大的服务器,工业设计专业就业前景怎么样,排名优化公司口碑哪家好一、说明 关于马尔可夫过程#xff0c;如何将马尔可夫决策转化成决策依据#xff0c;这里介绍的基本的思想路径#xff0c;为读者将来设计和应用决策模型提供理论上的参考。 这是了解强化学习的一系列基础文章的后续文章。如果您有兴趣了解强化学习#xff0c;请查看此处。… 一、说明 关于马尔可夫过程如何将马尔可夫决策转化成决策依据这里介绍的基本的思想路径为读者将来设计和应用决策模型提供理论上的参考。 这是了解强化学习的一系列基础文章的后续文章。如果您有兴趣了解强化学习请查看此处。 二、马尔可夫过程 让我们尝试通过一个简单的例子来理解马尔可夫过程。顺便说一句我真的希望印度能赢得世界杯 好吧回到这个例子假设下表代表了印度板球队在世界杯比赛中的历史表现。 | | Winning | Losing | Drawing | |---------|---------|--------|---------| | Winning | 0.6 | 0.1 | 0.3 | | Losing | 0.3 | 0.4 | 0.3 | | Drawing | 0.4 | 0.2 | 0.4 | 注意以上表格是转移矩阵指把当前状态向量输入后输出预测出可能的结果向量。  这里有 3 种可能的状态获胜、失败和平局。现在让我们想象一下球队目前的状态是“胜利”。使用上表中的转移概率 赢得下一场比赛的概率 0.6输掉下一场比赛的概率 0.1打平下一场比赛的概率 0.3 如果球队目前处于“获胜”状态并且我们想要预测两场比赛后的状态我们可以连续应用这些概率。 一场比赛后 获胜概率 0.6失败的概率 0.1打平概率 0.3 两场比赛后 获胜概率 (0.6 * 0.6) (0.1 * 0.3) (0.3 * 0.4) 0.36 0.03 0.12 0.51失败概率 (0.6 * 0.1) (0.1 * 0.4) (0.3 * 0.2) 0.06 0.04 0.06 0.16打平概率 (0.6 * 0.3) (0.1 * 0.3) (0.3 * 0.4) 0.18 0.03 0.12 0.33 因此在两场比赛之后如果球队以“获胜”状态开始则他们仍有 51% 的机会获胜16% 的机会输球33% 的机会平局。 这个简单的马尔可夫过程示例演示了如何根据板球队的历史表现概率对锦标赛中板球队比赛的潜在结果进行建模从而帮助根据当前状态预测其未来状态。 因此这构成了随机强化学习问题的基础我们可以使用马尔可夫决策过程对环境进行建模。 三、马尔可夫奖励过程 现在我们了解了马尔可夫过程马尔可夫奖励过程是一个马尔可夫过程我们可以将奖励与马尔可夫过程的状态转换联系起来但不涉及决策或行动。马尔可夫奖励过程的关键组成部分是 状态、转移概率、奖励、折扣因子 折扣系数 (γ) 代表未来奖励相对于即时奖励的重要性。有助于在价值评估中权衡未来奖励。 让我们继续前面的例子来了解这个马尔可夫过程的价值函数。我们假设状态之间转换的奖励是 | | Winning | Losing | Drawing | |---------|---------|--------|---------| | Winning | 10 | -5 | 0 | | Losing | 8 | 0 | 2 | | Drawing | 5 | -3 | 0 | 状态的价值函数使用以下公式计算 MRP 的价值函数计算 其中γ 表示折扣因子 s 表示下一个状态s 表示当前状态。 上面的方程被称为贝尔曼方程它可以帮助我们迭代计算每个状态的价值函数提供马尔可夫奖励过程中从不同状态开始的预期累积奖励的估计。 马尔可夫决策过程 马尔可夫决策过程是马尔可夫奖励过程行动。该流程的主要组成部分是 {S, A, P, R, γ} 其中马尔可夫决策过程成分之上的附加成分是与每个状态转换相关的又名动作。 四、马尔可夫决策过程中的策略 在马尔可夫决策过程MDP中策略规定了代理在不同状态下选择操作的策略或规则。策略定义代理的行为并通过指定代理在给定状态下应采取的操作来指导决策。 3.1 保单类型 确定性策略 (π) 确定性策略为每个状态选择特定的操作。它将每个状态映射到单个操作。示例在状态s中策略可能指定“执行操作a 1​”。 随机策略 (π) 随机策略提供每个状态的操作的概率分布。它指定在一个状态中选择每个可能动作的概率。示例在状态s中策略可能指示“以 0.6 的概率采取行动 1​以0.3 的概率采取行动 2​以0.1的概率采取行动 3​” 。 在州 s 采取行动 a 的政策 因此对于给定的策略 (π)计算与状态相关的价值函数的贝尔曼方程可以表示为 3.2 政策特点 探索与利用策略在探索尝试不同的操作来收集信息和利用利用已知的操作以获得即时奖励之间取得平衡。最优性最优策略随着时间的推移最大化预期累积奖励。 最优策略 π* 状态价值根据引导智能体走向更高价值状态从长远来看会带来更高奖励的状态的能力来评估策略。 五、马尔可夫决策过程中的政策改进和评估 让我们考虑一个简单的网格世界场景来说明马尔可夫决策过程 (MDP) 中的策略评估和策略改进。 想象一个代理在 3x3 网格世界中导航。代理可以向上、向下、向左或向右移动并且每一步都会收到 -1 的奖励直到到达最终状态它会收到 10 的奖励。 5.1 政策评估 设置 考虑代理在网格中随机移动的初始策略。 2.价值迭代方程策略评估 价值函数V ( s )估计当前策略下每个状态的预期累积奖励。V ( s )的贝尔曼期望方程为 V ( s ) Σ(a) π ( a ∣ s ) Σ( s ′, r) ​p ( s ′, r ∣ s , a )[ r  γ ⋅ V ( s ′)] 在哪里 π ( a ∣ s ) 是根据策略在状态s下采取动作a的概率。p ( s , r ∣ s , a ) 是在状态 s 中采取动作 a 时以奖励r转移到状态s 的概率。γ是折扣因子。 3、迭代 迭代所有状态根据贝尔曼方程更新值估计直到收敛。 5.2 政策改进 有多种技术和算法可用于马尔可夫决策过程 (MDP) 中强化学习的策略改进。这些方法的重点是增强代理的策略以随着时间的推移实现更高的累积奖励。 贪心策略改进 方法选择在每个状态下最大化价值函数的行动。流程根据当前价值函数更新策略以支持具有最高估计值的行动。目标旨在通过偏向看似最有回报的行动使政策更具剥削性。 5.3 政策迭代 方法政策评估和政策改进步骤交替进行。流程迭代评估当前策略并根据评估进行更新。目标通过基于价值估计迭代细化策略努力收敛到最优策略。 5.4 值迭代 方法使用贝尔曼最优方程通过迭代更新确定价值函数。过程通过重复应用贝尔曼方程直到收敛来计算每个状态的值估计。目标专注于获得最优价值函数以便根据这些估计来改进政策。 除了这些技术之外还有基于 Q 的学习、蒙特卡罗策略改进和 Actor-Critic 方法来改进策略我们将在另一篇文章中讨论这些方法。 六、可观察和部分可观察马尔可夫过程 可观察马尔可夫决策过程MDP是强化学习中的一个场景其中代理在决策过程中可以完全访问环境的当前状态。简单来说 代理确切地知道环境中每一时刻发生的事情。它具有有关当前情况的清晰且完整的信息。决策仅依赖于当前状态不需要过去的额外信息。这种类型的 MDP 是理想化的代表代理的观察完美反映环境状态的场景允许基于准确的信息直接做出决策。 在部分可观察马尔可夫决策过程POMDP中代理缺乏对环境状态的完整和直接访问。相反它收到的观察结果不明确且不完整无法完全揭示真实状态。这种不确定性给决策带来了挑战因为智能体必须根据观察和过去的行动维持对可能状态的信念。 关键点 信息不完整代理缺乏有关环境状态的完整详细信息。不确定的观察结果收到的观察结果没有精确地指定状态从而导致模糊性。信念空间代理根据观察到的信息维护可能状态的概率 在 POMDP 中工作 信念更新使用观察和过去的知识不断更新关于可能状态的信念。政策制定制定考虑不确定性的策略以根据对潜在状态的信念做出决策。 希望到目前为止您已经对马尔可夫过程、价值函数有了基本的了解并对与马尔可夫过程相关的策略有了直观的了解。 参考资料 机器学习5关于期望的深入讨论_对一个概率分布求期望有什么 机器学习系列4期望到底是个啥_机器学习中的期望乐观度  回到未来使用马尔可夫转移矩阵分析时间序列数据_马尔科夫转移概率矩阵应用案例  souptik.reach.095。
http://www.zqtcl.cn/news/485078/

相关文章:

  • 微商如何做网站引流上海市有哪些公司
  • 服务类型网站开发需要哪些技术中国设计师网效果图
  • 电子商务网站建设技术有哪些方面做婚礼请柬的网站有哪些
  • 做暖暖欧美网站全国职工素质建设工程专题网站
  • 策划对于企业网站建设来说网站开发新加坡
  • 做仪表行业推广有哪些网站个人网站备案模板
  • 做微网站是订阅号还是服务号号网站建设叫什么软件
  • 美团初期是怎么建网站特效视频素材网站
  • 网站建设行业市场分析刚创业 建网站
  • 网站推广昔年下拉wordpress 首页添加链接地址
  • 网站年费推荐专业做网站公司
  • 邵东微网站建设设计网页图片
  • 沈阳高端做网站建设应用软件商店
  • 05网站首页设计说明
  • 给企业做网站运营手机做简单的网站
  • 做网站卖广告国家公示企业信息查询系统
  • 西安网站建设公司找哪家如何做平台推广赚钱
  • 网站优化个人工作室怎么找网站开发公司
  • 如何把网站一个栏目做301跳转推广途径
  • 房山做网站北京本地网络推广平台
  • 网站建设 麓谷政法网站建设有哪些不足
  • 湖北网站建设路建设工程安全事故在哪个网站查
  • 建筑公司查询网站网站开发 系统需求文档
  • 温州做网站的公司有哪些宝塔搭建wordpress主机地址
  • 重庆商务网站建设南昌新力中心 nanchang sinic center
  • 潍坊建设厅官方网站店铺网络营销策划方案
  • 东营聊城网站建设博客论坛用wordpress
  • 哈尔滨中国建设银行网站首页seo快速入门教程
  • 网站建设项目环境影响评价目录南宁网站建设索王道下拉
  • 广州富邦物流网站建设南宁住房和城乡建设部网站