当前位置: 首页 > news >正文

下载站源码cms一级a做受片免费网站

下载站源码cms,一级a做受片免费网站,seo诊断服务,咖啡网站建设参考 Reinforcement Learning, Second Edition An Introduction By Richard S. Sutton and Andrew G. Barto强化学习与监督学习 强化学习与其他机器学习方法最大的不同#xff0c;就在于前者的训练信号是用来评估#xff08;而不是指导#xff09;给定动作的好坏的。 …参考 Reinforcement Learning, Second Edition An Introduction By Richard S. Sutton and Andrew G. Barto强化学习与监督学习 强化学习与其他机器学习方法最大的不同就在于前者的训练信号是用来评估而不是指导给定动作的好坏的。 强化学习评估性反馈 有监督学习指导性反馈 价值函数 最优价值函数是给定动作 a a a 的期望可以理解为理论最优 q ∗ ( a ) ≐ E [ R t ∣ A t a ] q_*(a) \doteq\mathbb{E}[R_t|A_ta] q∗​(a)≐E[Rt​∣At​a] 我们将算法对动作 a a a 在时刻 t t t 时的价值的估计记作 Q t ( a ) Q_t(a) Qt​(a)我们希望它接近 q ∗ ( a ) q_*(a) q∗​(a) 利用Exploit与探索Explore 利用选择最高估计价值的动作贪心 探索选择非贪心的动作 动作-价值方法基于价值的方法 思想对价值进行估计来选择动作。 采样平均方法 Q t ( a ) ≐ t 时刻前执行动作 a 得到的收益总和 t 时刻前执行动作 a 的次数 ∑ i 1 t − 1 R i 1 A i a ∑ i 1 t − 1 1 A i a Q_t(a)\doteq \frac{t时刻前执行动作a得到的收益总和}{t时刻前执行动作a的次数}\frac{\sum_{i1}^{t-1} R_i \mathbf{1}_{A_ia}}{\sum_{i1}^{t-1} \mathbf{1}_{A_ia}} Qt​(a)≐t时刻前执行动作a的次数t时刻前执行动作a得到的收益总和​∑i1t−1​1Ai​a​∑i1t−1​Ri​1Ai​a​​ 贪心动作选择 最简单的动作选择规则是选择具有最高估计值的动作即贪心动作 A t ≐ arg ⁡ max ⁡ a Q t ( a ) A_{t}\ \doteq \ {\arg \max_a}\ Q_{t}(a) At​ ≐ argamax​ Qt​(a) 缺点不能持续探索虽然可以乐观初始化在开始阶段进行探索 乐观初始化对于纯粹贪心策略可以把每一个初始值 Q 0 ( a ) Q_0(a) Q0​(a)都设置得更大从而鼓励算法在算法刚开始的时候尝试其他状态。因为一开始获得奖励之后都把 Q 0 ( a ) Q_0(a) Q0​(a)降低了。 ϵ \epsilon ϵ-贪心方法 以小概率 ϵ \epsilon ϵ随机选择动作 1 − ϵ 1-\epsilon 1−ϵ 贪心选择 两者都并不是完美的 贪心动作虽然在当前时刻看起来最好但实际上其他一些动作可能从长远看更好 ϵ \epsilon ϵ-贪心算法会尝试选择非贪心的动作但是这是一种盲目的选择因为它不大会去选择接近贪心或者不确定性特别大的动作 增量更新、平稳/非平稳问题 为了计算效率采用增量更新 Q n 1 Q n 1 n [ R n − Q n ] Q_{n1} Q_n \frac{1}{n}[R_n - Q_n ] Qn1​Qn​n1​[Rn​−Qn​] 此时 α 1 n \alpha \frac{1}{n} αn1​适合平稳分布的问题但是如果 bandit 背后的分布是会变化的那么 α \alpha α 应该采用 1 n \frac{1}{n} n1​ 从而给更靠近的奖励更大的权重。 UCB 置信度上界 (upper confidence bound, UCB)——平衡了 探索与利用 A t ≐ a r g max ⁡ a [ Q t ( a ) c ln ⁡ t N t ( a ) ] A_{t}\ \doteq \ {\mathrm{arg}}\max_a\left[Q_{t}(a)c\sqrt{\frac{\ln t}{N_{t}(a)}}\,\right] At​ ≐ argamax​[Qt​(a)cNt​(a)lnt​ ​] 左边利用平均奖励大的动作 右边鼓励探索访问次数少的动作但是同时要考虑到其他非 a a a 的状态的访问次数用 t t t近似。每次选 a a a之外的动作时在分子上的 ln ⁡ t \ln t lnt增大而 N t ( a ) N_t(a) Nt​(a) 却没有变化所以不确定性增加了 UCB一般来说比贪心、 ϵ \epsilon ϵ-贪心 要好。 UCB 的缺点 处理非平稳问题时需要一些更复杂的 tricks, 不能仅仅使用这样的策略。处理不了很大的状态空间。 上下文赌博机Contextual Bandit 普通的赌博机算法每一次选择新动作的时候没有额外的环境信息。 上下文赌博机算法每一次选择新动作的时候有额外的环境信息。 也许你面对的是一个真正的老虎机、它的外观颜色与它的动作价值集合一一对应动作价值集合改变的时候外观颜色也会改变.那么现在你可以学习一些任务相关的操作策略例如用你所看到的颜色作 为信号把每个任务和该任务下最优的动作直接关联起来比如如果为红色 则选择1号臂 如果为绿色则选择2号臂。有了这种任务相关的策略在知道任务编号信息时你通常要比不知道任务编号信息时做得更好。 ——《RL》 上下文赌博机介于多臂赌博机问题和完整强化学习问题之间。它与完整强化学习问题的相似点是它需要学习一种策略但它又与多臂赌博机问题相似体现在每个动作只影响即时收益。 总结 在多臂赌博机问题来说一般来说UCB是比贪心 ϵ \epsilon ϵ-贪心更好的
http://www.zqtcl.cn/news/980943/

相关文章:

  • 唐山公司网站建设 中企动力唐山宽带动态ip如何做网站访问
  • 个人商城网站怎么做电商网站及企业微信订烟
  • 温州市网站优化广告平面设计教程
  • 南通制作网站的有哪些公司吗sae 部署wordpress
  • 友情链接对网站的影响wordpress admin init
  • 渭南网站开发做网红用哪个网站
  • 湖北建设网站wordpress 翻页电子书
  • 网站设计命名规范厦门建站比较好的公司
  • 用vs2010做网站登入前端培训费用大概多少郑州
  • 网站建设后的效果评估杭州网站制作公司
  • 3网站建设公司影楼修图用什么软件
  • 手机网站的内容模块多用户商城开源左
  • 库尔勒网站建站宝盒合作
  • 五河网站建设哪家好wordpress获取文章作者
  • 怎么修改网站内容wordpress ajax接口
  • 绵阳市城乡建设和规划局网站重庆网站建设公司有哪些
  • 宿迁网站建设公司排名展厅设计企业
  • 做家具定制的设计网站开阿里巴巴网站建设流程
  • 站长统计软件广州免费核酸在哪里做
  • 做soho一定要做网站吗在百度网站备案查询上显示未备案是什么意思
  • 移动公司营销网站设计html旅游网站模板
  • 专业生产车间设计图纸网站ui设计师证
  • 如何建网站教程视频10种网络营销方法
  • 网站内链优化的角度wordpress缓存插件破解版
  • 南宁网站建设哪个好天津网站建设咨询
  • 网站开发常用中间件计算机语言python
  • 学习html5的网站软件系统开发怎样容易
  • 做企业网站用什么华为弹性云服务器创建wordpress
  • 重庆手机网站开发网站建设的条件是什么
  • 舟山建设网站公司wordpress的总结