当前位置: 首页 > news >正文

肇庆网站推广排名财政局门户网站建设方案

肇庆网站推广排名,财政局门户网站建设方案,新建网站如何推广,三网合一网站 东莞参考#xff1a;https://blog.csdn.net/koulongxin123/article/details/122676149 1.什么是强化学习#xff1f; (1)定义 基于环境的反馈而行动#xff0c;通过不断与环境的交互、试错#xff0c;最终完成特定目的或者使得整体行动收益最大化#xff08;是一种通过与环境…参考https://blog.csdn.net/koulongxin123/article/details/122676149 1.什么是强化学习 (1)定义 基于环境的反馈而行动通过不断与环境的交互、试错最终完成特定目的或者使得整体行动收益最大化是一种通过与环境交互学习最优的状态到行动的映射关系即在某个状态下采取所有行为的概率分布以会的最大累计期望回报的学习方法。强化学习不需要训练数据的label但是它需要每一步行动环境给予的反馈是奖励还是惩罚。反馈可以量化基于反馈不断调整训练对象的行为。 2特点 没有监督者只有量化奖励信号反馈延迟只有进行到最后才知道当下的动作是好是坏强化学习属于顺序决策根据时间一步步决策行动训练数据不符合独立同分布条件每一步行动影响下一步状态以及奖励 2.强化学习框架智能体-环境 1智能体强化学习系统 可以感知环境的状态State并根据反馈的奖励Reward学习选择一个合适的动作Action来最大化长期总收益。对于推荐系统智能体为推荐系统本身它包括基于深度学习的推荐模型、探索(explore )策略以及相关的数据存储(memory )。 智能体的组成 强化学习的智能体可能有一个或多个如下的组成成分 策略函数policy function把输入的状态变成行为 价值函数value function对当前状态进行评估对后续收益的影响 简直函数是未来奖励的一个预测用来评估状态的好坏折扣因子希望尽可能在短的时间里面得到尽可能多的奖励 模型model表现智能体对环境的理解 类型 基于价值的智能体value-based agent 显示的学习价值函数隐式的学习策略。它维护一个价值表格或价值函数并以此选取价值最大的动作。常用算法Q-Learning   、Sarsa A.基于策略的智能体policy-based agent 直接学习策略。当学习好环境以后在每个状态都会得到一个最佳行为。常用算法策略梯度算法 B.有模型智能体model-based agent 根据环境经验对环境进行建模构建一个虚拟世界同时在虚拟世界和现实世界学习。 要求能对环境建模。即能预测下一步的状态和奖励 C.免模型智能体model-free agent 不对环境进行建模直接与真实环境交互来学习最优策略。 目前大部分深度强化学习都采用免模型学习。 2环境与智能体交互的外部 环境会接收智能体执行的一系列动作对这一系列动作进行评价并转换为一种可量化的信号反馈给智能体。 动作智能体的行为表征动作空间在给定的环境中有效动作的集合 分类 1离散动作空间discrete action space智能体的动作数量是有限的 2连续动作空间continuos action space在连续空间中动作是实值的向量 状态智能体从环境获取的信息奖励 奖励信号定义了强化学习问题的目标在每个时间步骤内环境向强化学习发出的标量值即为奖励它能定义智能体表现好坏类似人类感受到快乐或是痛苦。因此我们可以体会到奖励信号是影响策略的主要因素。我们将奖励的特点总结为以下三点 奖励是一个标量的反馈信号它能表征在某一步智能体的表现如何智能体的任务就是使得一个时段内积累的总奖励值最大 3.策略智能体根据状态进行下一步动作的函数 定义 是一个函数把输入的状态变成行为。 分类 随机性策略stochastic policy π函数π ( a∣s ) P ( A t  a∣S t s ) 表示在状态s下输出动作为a的概率。然后通过采样得到一个动作。 确定性策略deterministic policy 采取最有可能的动作即a ∗ arg maxa π ( a∣s ) 问题比较随机性策略和确定性策略的优缺点 强化学习一般使用随机性策略因为 随机性能更好的探索环境随机性策略的动作具有多样性不是唯一确定的确定性策略对相同环境做出相同的动作这会导致很容易被预测 状态转移概率智能体做出动作后进入下一状态的概率 3.学习与规划 A.学习learning 由于环境初始时是未知的智能体需要不断与环境交互逐渐改进策略 B.规划planning 获得学习好的模型后智能体不需要实时与环境交互就能知道未来环境。可以根据当前状态根据模型寻找最优策略。 C.解决思路 先学习环境如何工作建立模型。再利用模型进行规划。 4.探索和利用 探索通过试错来理解采取的某个行为能否得到好的奖励。 利用直接采取已知的可以得到很好奖励的行为。 探索看某个行为的奖励利用选取已知可以取得最好奖励的行为 探索和利用窘境exploration-exploitation dilemma探索即估计摇臂的优劣和利用即选择当前最优摇臂) 这两者是矛盾的因为尝试次数即总投币数有限加强了一方则会自然削弱另一方
http://www.zqtcl.cn/news/678985/

相关文章:

  • wordpress 拍卖插件找文网优化的技术团队
  • 建站素材网自助餐火锅网站建设
  • 企业型网站建设方案农村电商网站设计与发展现状
  • 建站快车凡科企业网站建设合同(一)
  • 阜平网站建设在广州做seo找哪家公司
  • 怎么做农家乐联盟网站六安建设机械网站
  • 网站开发行业标准江苏网站开发公司
  • 服装技术支持东莞网站建设如何加强企业网站建设论文
  • 中英双语网站怎么做深圳勘察设计协会
  • 用dw做网站维护教程梧州网站建设制作
  • 网站代运营公司有哪些深圳小区封闭最新通知
  • 江西网站设计服务网站开发所需费用明细
  • 深圳网站建设公司jm3q编程网站免费中文版
  • 泉州专门制作网站如何在小红书上做推广
  • 网站改版活动微网站开发一般费用多少钱
  • 网站关键词挖掘顺德网站制作案例价位
  • 广广东网站建设企业网站无锡
  • 广州网站备案号wordpress模板专题页
  • 西安做网站哪里价格低综合查询
  • 电商需要多少投入沈阳网站关键词优化
  • 速拓科技是做网站百度推广登陆入口官网
  • 十大高端网站设计网站开发培训达内
  • 河北云网站建设怎么让别人找你做网站
  • 怎么自己在电脑上做网站网络服务有哪些与对生活的影响
  • asp网站采集和平东路网站建设
  • 深圳市 交易建设中心网站越南的网站建设
  • 微网站建设方式构建网站系统
  • 优秀网站的要素有公司名字寓意好的字
  • 学习型网站空间网站模板免费下载酒店管理系统
  • icp备案网站用不了备案期间关闭网站