当前位置: 首页 > news >正文

网站建设图文片如何进行网站设计规划

网站建设图文片,如何进行网站设计规划,常熟网站制作设计,泉州网站优化排名推广表格型方法 概念 强化学习是一个与时间相关的序列决策的问题。 概率函数与奖励函数 概率函数定量地表达状态转移的概率#xff0c;其可以表现环境的随机性。但是实际上#xff0c;我们经常处于一个未知的环境中#xff0c;即概率函数和奖励函数是未知的。 时序差分法 …表格型方法 概念 强化学习是一个与时间相关的序列决策的问题。 概率函数与奖励函数 概率函数定量地表达状态转移的概率其可以表现环境的随机性。但是实际上我们经常处于一个未知的环境中即概率函数和奖励函数是未知的。 时序差分法 它结合了动态规划和蒙特卡罗的思想通过不断更新状态值函数或者动作值函数来学习最优策略。时序差分算法的特点是它不需要知道环境的完整模型也不需要等待一个完整的回合结束而是在每一步都可以进行学习和更新。 KaTeX parse error: \tag works only in display equations Sarsa法 Sarsa算法是一种时序差分学习的方法它是一种在线的强化学习算法即它在学习的过程中遵循和改进同一个策略。Sarsa算法的名称来源于它的更新公式即 Q ( s , a ) ← Q ( s , a ) α ( r γ Q ( s ′ , a ′ ) − Q ( s , a ) ) Q(s,a) \leftarrow Q(s,a) \alpha (r \gamma Q(s,a) - Q(s,a)) Q(s,a)←Q(s,a)α(rγQ(s′,a′)−Q(s,a)) 其中 s s s表示当前状态 a a a表示当前动作 r r r表示当前奖励 s ′ s s′表示下一个状态 a ′ a a′表示下一个动作 α \alpha α表示学习率 γ \gamma γ表示折扣因子 Q Q Q表示动作值函数。 Sarsa算法的步骤如下 初始化 Q ( s , a ) Q(s,a) Q(s,a)为任意值通常为0。选择一个初始状态 s s s并根据 Q Q Q和一个探索性的策略例如 ϵ \epsilon ϵ-贪心策略选择一个动作 a a a。重复以下步骤直到达到终止状态或者达到最大步数 执行动作 a a a观察得到的奖励 r r r和下一个状态 s ′ s s′。根据 Q Q Q和同样的探索性的策略选择下一个动作 a ′ a a′。根据上述的更新公式更新 Q ( s , a ) Q(s,a) Q(s,a)。将 s s s更新为 s ′ s s′将 a a a更新为 a ′ a a′。 重复步骤2和3直到 Q Q Q收敛或者达到最大回合数。 Sarsa算法的优点是它可以处理部分可观测Partially Observable的环境即不需要知道环境的完整模型Model也可以适应环境的变化Change。Sarsa算法的缺点是它的收敛速度较慢且可能陷入局部最优Local Optimum。 问题 为什么我们可以使用未来的总奖励来评价当前动作是好是坏 因为在现实世界中奖励往往是延迟的所以强化学习需要学习远期的奖励。我们一般会从当前状态开始把后续有可能会收到的奖励加起来计算当前动作的Q值让Q值可以真正代表当前状态下动作的真正价值。 但有的时候我们把目光放得太长远并不好。如果任务很快就结束那么考虑到最后一步的奖励无可厚非。但如果任务是一个持续的没有尽头的任务即持续式任务continuing task我们把未来的奖励全部相加作为当前的状态价值就很不合理。 蒙特卡洛法与时序差分法区别 蒙特卡洛方法是基于回合的更新即只有在一个回合结束后才可以进行学习和更新而时序差分方法是基于单步的更新即每一步都可以进行学习和更新。 蒙特卡洛方法是基于采样的估计即利用真实的回报来更新估计值而时序差分方法是基于自助的估计即利用当前的估计值来更新下一个估计值。 蒙特卡洛方法只能处理离散的任务即有终止状态的任务而时序差分方法可以处理连续的任务即没有终止状态的任务。 蒙特卡洛方法对初始值的选择比较鲁棒即最终的学习结果不受初始值的影响而时序差分方法对初始值的选择比较敏感即不同的初始值可能导致不同的学习结果。 简述同策略和异策略的区别呢 同策略和异策略的根本区别在于生成样本的策略和参数更新时的策略是否相同。对于同策略行为策略和要优化的策略是同一策略更新了策略后就用该策略的最新版本对数据进行采样对于异策略其使用任意行为策略来对数据进行采样并利用其更新目标策略。例如Q学习在计算下一状态的预期奖励时使用了最大化操作直接选择最优动作而当前策略并不一定能选择到最优的动作因此这里生成样本的策略和学习时的策略不同所以Q学习算法是异策略算法相对应的Sarsa算法则是基于当前的策略直接执行一次动作选择然后用动作和对应的状态更新当前的策略因此生成样本的策略和学习时的策略相同所以Sarsa算法为同策略算法。
http://www.zqtcl.cn/news/929019/

相关文章:

  • 网站开发教程全集网站内外链建设
  • 购物网站排名数商云科技
  • 哪种网站百度网盘登录入口官网
  • 做淘宝网站多少钱wordpress 七牛云存储
  • 做淘宝网站多少钱江苏省建设厅网站建筑电工证
  • 深圳网站建设 贴吧广州档案馆建设网站
  • 专注网站建设电商商城网站建设
  • 黄石专业网站建设推广一起做网店 网站打不开
  • 网站session 验证江西星子网
  • 成都高校网站建设服务公司小树建站平台
  • 宁波网站建设 慕枫科技顺德网站设计制作
  • 企业网站如何宣传wordpress 链接修改插件
  • 站长工具官网查询视频网站建设工具
  • 建设彩票网站制作网站服务器
  • 购物网站建设网站怎么购买国外的域名
  • 在线网站排名工具跨境电商卖什么产品最赚钱
  • 电商网页设计网站什么是网络营销产生的现实基础
  • 网站开发需要注意的阿里云做网站可以免备案吗
  • 网站开发后端菜鸟教程本地安装wordpress nginx
  • 网站做端口映射域名怎么做网站
  • 港口建设征收 申报网站网站内容建设与管理
  • 长沙企业网站建设较好的公司个人社保缴费比例
  • 网站备案信息页面惠安网站建设报价
  • 东莞做微网站建设十大免费软件下载
  • 做的很好的黑白网站成都小程序开发
  • 发布做任务网站wordpress新建用户
  • 郑州市东区建设环保局官方网站工作简历模板免费下载
  • 虾皮跨境电商网站公司网站建设费计入什么费用
  • 东光有做网站的吗公司装修图片大全
  • 一个域名下多个网站项目网手游