当前位置: 首页 > news >正文

网站空间怎么收费怎么做页眉页脚

网站空间怎么收费,怎么做页眉页脚,台州手机模板建站,搜索引擎优化的报告【通俗理解】最优控制之旅——强化学习中的策略优化 关键词提炼 #最优控制 #强化学习 #状态值函数 #奖励函数 #折扣因子 #贝尔曼方程 #策略迭代 #值迭代 #动态规划 #马尔可夫决策过程 第一节#xff1a;最优控制的类比与核心概念 1.1 最优控制的类比 最优控制就像是一位精…【通俗理解】最优控制之旅——强化学习中的策略优化 关键词提炼 #最优控制 #强化学习 #状态值函数 #奖励函数 #折扣因子 #贝尔曼方程 #策略迭代 #值迭代 #动态规划 #马尔可夫决策过程 第一节最优控制的类比与核心概念 1.1 最优控制的类比 最优控制就像是一位精明的旅行者在未知的旅途中他需要选择最佳的路径以到达目的地。每一步他都要根据当前的位置、可能的目的地和沿途的风景奖励来做出决策。 强化学习中的最优控制也是如此它试图找到一种策略使得从任意状态出发都能获得最大的累积奖励。 1.2 相似公式比对 贝尔曼方程 V ( s ) max ⁡ a ∑ s ′ P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) γ V ( s ′ ) ] V(s) \max_a \sum_{s} P(s | s, a)[R(s, a, s) \gamma V(s)] V(s)amax​s′∑​P(s′∣s,a)[R(s,a,s′)γV(s′)]它描述了状态值函数V(s)是如何通过当前状态的奖励和后续状态的值函数来计算的。动态规划中的值迭代 V k 1 ( s ) max ⁡ a ∑ s ′ P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) γ V k ( s ′ ) ] V_{k1}(s) \max_a \sum_{s} P(s | s, a)[R(s, a, s) \gamma V_k(s)] Vk1​(s)amax​s′∑​P(s′∣s,a)[R(s,a,s′)γVk​(s′)]它迭代更新每个状态的值函数直至收敛。 第二节最优控制的核心概念与应用 2.1 核心概念 核心概念定义比喻或解释状态值函数V(s)表示从状态s出发遵循某种策略所能获得的期望累积奖励。就像旅行者从某个地点出发预计能获得的沿途风景的总评分。奖励函数R(s, a, s’)表示在状态s下采取动作a后转移到状态s’所能获得的即时奖励。就像旅行者从一地到另一地所能欣赏到的风景的美丽程度。折扣因子γ表示未来奖励在当前价值计算中的重要性。γ越接近0越重视当前奖励。就像旅行者更看重眼前的风景还是更期待未来的美景。 2.2 优势与劣势 全局最优能够找到从任意状态出发的全局最优策略而不仅仅是局部最优。适应性强化学习算法能够适应环境的变化即使环境是未知的或部分可知的。计算复杂度对于大规模或连续状态空间的问题计算复杂度可能非常高需要有效的近似方法。 2.3 与实际生活的类比 最优控制在现实生活中的应用就像是一位精明的投资者他需要根据市场的当前状态如股票价格、经济指标等来做出投资决策以最大化长期的投资回报。强化学习中的最优策略就是这位投资者的决策指南。 第三节公式探索与推演运算 3.1 贝尔曼方程的解释 贝尔曼方程是强化学习的核心它描述了状态值函数V(s)是如何通过当前状态的奖励和后续状态的值函数来计算的。这个方程是递归的意味着它考虑了所有可能的未来状态并根据折扣因子γ来权衡当前奖励和未来奖励的重要性。 3.2 策略迭代与值迭代 策略迭代首先初始化一个策略然后计算该策略下的状态值函数再根据状态值函数更新策略如此迭代直至策略收敛。值迭代直接迭代更新状态值函数直至收敛然后根据最终的状态值函数确定最优策略。 这两种方法都是求解最优策略的有效手段策略迭代更直观而值迭代计算上可能更高效。 3.3 具体实例与推演 假设有一个简单的格子世界目标是从起点走到终点每一步可以选择向上、下、左、右移动一格每移动一格获得-1的奖励表示消耗了能量或时间到达终点获得0的奖励表示任务完成。我们可以使用贝尔曼方程来迭代计算每个状态的值函数并找到最优策略。 第四节相似公式比对 贝尔曼方程 与 动态规划中的值迭代 共同点都用于计算状态值函数并寻求最优策略。不同点贝尔曼方程是一个更一般的框架适用于更广泛的问题而值迭代是动态规划中的一种具体算法通常用于求解具有离散状态空间的问题。 强化学习中的Q学习 与 贝尔曼方程 相似点Q学习也使用了一个类似的递归方程来更新动作值函数并寻求最优策略。差异Q学习是一种无模型的强化学习方法它不需要知道环境的动态即状态转移概率和奖励函数而是通过试错来学习而贝尔曼方程通常用于已知环境动态的情况。 第五节核心代码与可视化 这段代码使用numpy和matplotlib库来求解一个简单的强化学习问题并绘制了状态值函数随迭代次数变化的曲线。通过可视化我们可以直观地看到值迭代算法如何逐步收敛到最优策略。 import numpy as np import matplotlib.pyplot as plt# 定义状态空间、动作空间、状态转移概率和奖励函数 states [0, 1, 2] # 简单的状态空间0起点1中间点2终点 actions [-1, 1] # 动作空间向左移动一格向右移动一格 P {0: {0: [0.5, 1], 1: [0.5, 1]}, 1: {0: [1, 2], 1: [1, 2]}, 2: {0: [2, 0], 1: [2, 0]}} # 状态转移概率 R {0: {0: -1, 1: -1}, 1: {0: -1, 1: -1}, 2: {0: 0, 1: 0}} # 奖励函数 gamma 0.9 # 折扣因子# 初始化状态值函数 V np.zeros(len(states))# 值迭代算法 for iteration in range(10):V_new np.zeros(len(states))for s in states:V_new[s] max([sum([P[s][a][1] s_prime * (R[s][a] gamma * V[s_prime]) for s_prime in states]) for a in actions])V V_newprint(fIteration {iteration1}: V {V})# 可视化状态值函数的变化 plt.plot(range(1, 11), [V[0] for _ in range(10)], labelState 0) plt.plot(range(1, 11), [V[1] for _ in range(10)], labelState 1) plt.plot(range(1, 11), [V[2] for _ in range(10)], labelState 2) plt.xlabel(Iteration) plt.ylabel(Value Function) plt.title(Value Function Iteration) plt.legend() plt.show()这段代码首先定义了一个简单的强化学习问题包括状态空间、动作空间、状态转移概率和奖励函数。然后它使用值迭代算法来迭代计算状态值函数并打印出每次迭代后的状态值函数。最后它使用matplotlib库来绘制状态值函数随迭代次数变化的曲线以便我们可以直观地看到算法的收敛过程。
http://www.zqtcl.cn/news/846292/

相关文章:

  • 西乡网站建设政务网站开发协议
  • 美食网站开发环境北京app网站建设
  • 郑州网站建设推广渠道重庆网站建设公司下载
  • 宜宾营销型网站建设网站建设需要什么资质
  • 重庆建网站有哪些学跨境电商要多少钱
  • 上海建设钢结构工程网站深圳电器公司排名
  • 淄博网站建设找淄深网江苏省建设斤网站
  • 免费行情软件app网站红色西安做网站印象网络
  • 宁波网站建设小程序开发聊城wap网站建设
  • 陇南网站网站建设泰安网站的建设
  • 哪个网站有介绍拿到家做的手工活建设银行网站怎么修改手机号码吗
  • 网站地图怎么用淘宝客推广网站建设
  • 外贸零售网站建设购物网站支付功能怎么做
  • 淘宝客如何做自己的网站西宁工程建设招聘信息网站
  • 天津都有哪些制作网站郑州官网首页
  • 个人网站开发模式海南省建设公司官网
  • edu网站开发做爰视频在线观看免费网站
  • 安防公司网站模板网站建设模板下载
  • 贵阳网站建设方案维护一 建设茶叶网站前的市场分析
  • 山东东营建设网官方网站百度电脑版
  • 做网站前途如何海尔网站建设推广
  • 投资公司网站建设万网域名安装wordpress
  • 高端网站建设企业官网建设wordpress相似推荐
  • php网站开发师招聘wordpress怎么换头像
  • 门禁考勤网站建设广西建设
  • 互助盘网站怎么做的织梦免费企业网站
  • 做羊毛毡的网站电子商务网站建设品牌
  • 用vue做商城网站常用的js教做发型的网站
  • 江西省寻乌县建设局网站广州网站建设一般多少钱
  • 做网站公司郑州郑州的网站建设公司哪家好网站开发word