当前位置：首页 > news >正文

肇庆网站推广排名财政局门户网站建设方案

news 2025/11/14 12:58:51

肇庆网站推广排名,财政局门户网站建设方案,新建网站如何推广,三网合一网站东莞参考#xff1a;https://blog.csdn.net/koulongxin123/article/details/122676149 1.什么是强化学习#xff1f; (1)定义基于环境的反馈而行动#xff0c;通过不断与环境的交互、试错#xff0c;最终完成特定目的或者使得整体行动收益最大化#xff08;是一种通过与环境…参考https://blog.csdn.net/koulongxin123/article/details/122676149 1.什么是强化学习 (1)定义基于环境的反馈而行动通过不断与环境的交互、试错最终完成特定目的或者使得整体行动收益最大化是一种通过与环境交互学习最优的状态到行动的映射关系即在某个状态下采取所有行为的概率分布以会的最大累计期望回报的学习方法。强化学习不需要训练数据的label但是它需要每一步行动环境给予的反馈是奖励还是惩罚。反馈可以量化基于反馈不断调整训练对象的行为。 2特点没有监督者只有量化奖励信号反馈延迟只有进行到最后才知道当下的动作是好是坏强化学习属于顺序决策根据时间一步步决策行动训练数据不符合独立同分布条件每一步行动影响下一步状态以及奖励 2.强化学习框架智能体-环境 1智能体强化学习系统可以感知环境的状态State并根据反馈的奖励Reward学习选择一个合适的动作Action来最大化长期总收益。对于推荐系统智能体为推荐系统本身它包括基于深度学习的推荐模型、探索(explore )策略以及相关的数据存储(memory )。智能体的组成强化学习的智能体可能有一个或多个如下的组成成分策略函数policy function把输入的状态变成行为价值函数value function对当前状态进行评估对后续收益的影响简直函数是未来奖励的一个预测用来评估状态的好坏折扣因子希望尽可能在短的时间里面得到尽可能多的奖励模型model表现智能体对环境的理解类型基于价值的智能体value-based agent 显示的学习价值函数隐式的学习策略。它维护一个价值表格或价值函数并以此选取价值最大的动作。常用算法Q-Learning 、Sarsa A.基于策略的智能体policy-based agent 直接学习策略。当学习好环境以后在每个状态都会得到一个最佳行为。常用算法策略梯度算法 B.有模型智能体model-based agent 根据环境经验对环境进行建模构建一个虚拟世界同时在虚拟世界和现实世界学习。要求能对环境建模。即能预测下一步的状态和奖励 C.免模型智能体model-free agent 不对环境进行建模直接与真实环境交互来学习最优策略。目前大部分深度强化学习都采用免模型学习。 2环境与智能体交互的外部环境会接收智能体执行的一系列动作对这一系列动作进行评价并转换为一种可量化的信号反馈给智能体。动作智能体的行为表征动作空间在给定的环境中有效动作的集合分类 1离散动作空间discrete action space智能体的动作数量是有限的 2连续动作空间continuos action space在连续空间中动作是实值的向量状态智能体从环境获取的信息奖励奖励信号定义了强化学习问题的目标在每个时间步骤内环境向强化学习发出的标量值即为奖励它能定义智能体表现好坏类似人类感受到快乐或是痛苦。因此我们可以体会到奖励信号是影响策略的主要因素。我们将奖励的特点总结为以下三点奖励是一个标量的反馈信号它能表征在某一步智能体的表现如何智能体的任务就是使得一个时段内积累的总奖励值最大 3.策略智能体根据状态进行下一步动作的函数定义是一个函数把输入的状态变成行为。分类随机性策略stochastic policy π函数π ( a∣s ) P ( A t a∣S t s ) 表示在状态s下输出动作为a的概率。然后通过采样得到一个动作。确定性策略deterministic policy 采取最有可能的动作即a ∗ arg maxa π ( a∣s ) 问题比较随机性策略和确定性策略的优缺点强化学习一般使用随机性策略因为随机性能更好的探索环境随机性策略的动作具有多样性不是唯一确定的确定性策略对相同环境做出相同的动作这会导致很容易被预测状态转移概率智能体做出动作后进入下一状态的概率 3.学习与规划 A.学习learning 由于环境初始时是未知的智能体需要不断与环境交互逐渐改进策略 B.规划planning 获得学习好的模型后智能体不需要实时与环境交互就能知道未来环境。可以根据当前状态根据模型寻找最优策略。 C.解决思路先学习环境如何工作建立模型。再利用模型进行规划。 4.探索和利用探索通过试错来理解采取的某个行为能否得到好的奖励。利用直接采取已知的可以得到很好奖励的行为。探索看某个行为的奖励利用选取已知可以取得最好奖励的行为探索和利用窘境exploration-exploitation dilemma探索即估计摇臂的优劣和利用即选择当前最优摇臂) 这两者是矛盾的因为尝试次数即总投币数有限加强了一方则会自然削弱另一方

查看全文

http://www.zqtcl.cn/news/678985/