昆明做网站要多少钱,如何搭建服务器做网站,广西水利电力建设集团网站,wordpress三主题公园目录
1. DRL的核心概念
2. 算法分类
1、免模型学习和有模型学习#xff08;理不理解所处的环境#xff09;
2、基于策略#xff08;概率#xff09;的方法和基于价值的方法
3、回合更新和单步更新#xff1a;
4、在线学习和离线学习
文献
1. Deep Reinforcement L…目录
1. DRL的核心概念
2. 算法分类
1、免模型学习和有模型学习理不理解所处的环境
2、基于策略概率的方法和基于价值的方法
3、回合更新和单步更新
4、在线学习和离线学习
文献
1. Deep Reinforcement Learning: A Survey
1.1 大纲
1.2 重点提炼
2. Neural architecture search with reinforcement learning 1. DRL的核心概念
状态和观察(states and observations)
动作空间(action spaces)
策略(policies)
行动轨迹(trajectories)
不同的回报公式(formulations of return)
强化学习优化问题(the RL optimization problem)
值函数(value functions) 参考强化学习中的核心概念 2. 算法分类 分类方法 1、免模型学习和有模型学习理不理解所处的环境 Model-FreeQ-Learning、Sarsa、Policy Gradients Model-Based多了为现实世界建模的过程多了一个虚拟环境、可通过想象。 2、基于策略概率的方法和基于价值的方法 Policy-Based输出下一步采取的各种行动的概率根据概率选取行动每种action都可能选到通过概率分布可以处理连续动作。Policy Gradients Value-Based输出所有行动的价值根据最高价值选择动作。不能处理连续的动作。Q-Learning、Sarsa。 Actor-Critic结合概率和价值的另一种方法 Actor根据概率做出动作 Critic根据动作给出价值 3、回合更新和单步更新 回合更新玩完整个游戏才能总结过程中的转折点然后学习。基础版Policy Gradients、Monte-Carlo Learning 单步更新边玩边学习。升级版Policy Gradients、Sarsa、Q-Learning 4、在线学习和离线学习 On-PolicySarsa、Sarsa(λ) Off-PolicyQ-Learning 、Deep Q Network 在线学习Online Learning和离线学习Offline Learning是两种在机器学习领域中常见的学习范式。它们主要的区别在于学习过程中数据的访问方式和应用环境。 在线学习 在线学习是一种连续的学习方式即用户不断接收并处理新数据。在在线学习情况下模型基于一个接一个地单独训练样本进行训练和更新这使得它能实时地学习和适应新的数据变化。 可以处理大量无法一次性存储在内存中的数据是一种典型的大数据处理方式。 在线学习特别适合那些需要实时反馈和更新的任务例如信用卡涉诈等金融领域应用网络安全搜索引擎优化等。 离线学习 离线学习是指首先收集全部的训练数据然后基于这些训练数据一次性地训练模型。在离线学习中所有的训练数据必须在学习开始前就已经可用。 离线学习的一大优点是可以进行批处理一次调整参数使用的是全部数据。这使得它在处理规模较小并且不需要实时更新的情况下往往可以得到更好的学习结果。 离线学习适应于数据量相对较小且基本稳定无需频繁更新的场景如一些传统的分类回归任务等。 在强化学习中这两种学习方式也有不同的表现。如离线强化学习Offline RL是一种在不再与环境交互的情况下仅使用过去的经验进行学习的方法。这是一种有效利用资源降低训练成本的策略尤其在实验成本高昂或环境交互有限的情况下。然而在不再收集新的经验的情况下离线RL需要面对无法探索新的可能性并可能过度拟合过去经验的问题。在线强化学习Online RL则是一种模型在与环境交互的过程中逐步学习和改进策略的学习方式能够实时探索新的策略并获得更好的性能但需要良好的探索策略以及较高的环境交互成本。 参考强化学习方法汇总 (Reinforcement Learning)_哔哩哔哩_bilibili 文献 1. Deep Reinforcement Learning: A Survey 1.1 大纲 1 引言 2 背景 2.1 强化学习Reinforcement Learning 2.1.1 马尔可夫决策过程Markov Decision Process 2.1.2 贝尔曼方程Bellman Equations 2.1.3 在线学习和离线学习On-Policy and Off-Policy Methods 2.1.4 动态规划方法Dynamic Programming Methods 2.1.5 蒙特卡罗方法Monte Carlo Methods 2.1.6 时间差分法Temporal Difference Methods 2.1.7 策略梯度理论Policy Gradient Theorem 2.1.8 演员评论家方法Actor-Critic Methods 2.2 深度学习Deep Learning 3 基于价值的DRL方法VALUE-BASED DRL METHODS 3.1 Deep Q-Learning 1Deep Q Network 2Experience Replay 3Target Network 3.2 Double DQN 3.3 Prioritized Experience Replay 3.4 Dueling Architecture 3.5 Noisy Network 3.6 Multistep Learning 3.7 Distributional Approach 3.8 Other Improvements and Variants 4 基于策略的 DRL方法POLICY-BASED DRL METHODS 4.1 优势演员批评家方法Advantage Actor-Critic Methods 4.2 基于信任域的方法Trust Region-Based Algorithms 4.3 确定性策略梯度Deterministic Policy Gradient 5 最大熵DRLMAXIMUM ENTROPY DRL 5.1 最大熵强化学习框架Maximum Entropy Reinforcement Learning Framework 5.2 Soft Q-Learning and SAC 6 进一步的研究主题 6.1 基于模型的方法Model-Based Methods 6.2 分层深度强化学习Hierarchical Deep Reinforcement Learning 6.3 多智能体深度强化学习Multiagent Deep Reinforcement Learning 6.4 从示范中学习Learning From Demonstrations 6.5 元强化学习Meta-Reinforcement Learning 6.6 离线强化学习Offline Reinforcement Learning 6.7 强化学习中的迁移学习Transfer Learning in Reinforcement Learning 1.2 重点提炼 深度强化学习DRL是深度学习DL和强化学习RL的结合主要应用于解决决策问题。在DRL的过程中一般需要以下几个重要的参数: 状态State: 状态是指智能体在环境中的当前情况这可能包括智能体自身的属性以及智能体与环境的相互作用。 动作Action: 动作是指智能体在环境中所采取的行为例如向前走、向后退、跳跃等。 策略Policy: 策略是指在特定状态下智能体选择某一动作的概率。在实践中我们希望通过学习找到强化学习问题的最优策略即为每种状态指定一个能使获得的总奖励最大化的动作。 奖励Reward: 奖励是指智能体在环境中采取某个动作后所得到的反馈通常以数值的形式给出。奖励的目的是在强化学习过程中引导智能体。 回报/累积奖励Return: 回报是指智能体在整个时间过程中获得的奖励之和可能包含立即奖励和未来奖励。 价值函数Value Function: 价值函数用来估计特定状态或特定状态-动作对的未来回报的期望值通常用于在确定策略时帮助智能体做出决策。 折扣因子Discount Factorγ: 折扣因子是用于确定未来奖励相对于立即奖励的相对重要性。折扣因子越接近1未来奖励对价值函数的影响越大。 可以用SAPRγ来描述强化学习过程。 基于学习目标进行分类 1、基于价值的算法 这些算法主要在于学习一个函数来估计每个状态或状态-动作对的价值。牵头的例子包括Q-learning和它的变体例如Deep Q Networks (DQN)。DQN结合了神经网络和Q学习的方法通过一个名为“经验重放的”机制来解决数据之间的关联性以及非稳定目标问题。 2、基于策略的算法 这些算法试图学习一个映射从观察到动作直接或间接的优化策略。一些示例包括策略梯度方法和自由能方程法它们可以处理连续的行动空间。 3、基于最大熵的算法 这些算法在优化一个目标函数的时候考虑了熵的增大从而保持一种策略的多样性。这可以增强探索行为以及防止过早的收敛。 不同的DRL算法有其各自的优点并且这些优点是相互补充的。他们研究了double DQN, prioritized experience replay, dueling network, noisy network, multistep learning, 和 distributional DQN所有这些扩展技术都有可取之处例如优化样本效率、增强稳定性、提高性能等。 区别 基于策略的算法和基于价值的算法是强化学习的两种主要类型并且他们在处理问题和训练方式上有一些重要的区别 基于价值的算法基于价值的强化学习方法如Q-learning或Deep Q Networks (DQN)主要关注的是学习一个价值函数这个价值函数可以评估在给定状态下执行特定动作的预期收益。通过学习这个价值函数代理可以选择最优的动作来执行即选择可以使价值函数值最大的那个动作。这种方法的好处是通常采样效率好但是不适用于连续的行动空间。 基于策略的算法基于策略的方法如Policy Gradients 或 REINFORCE利用梯度上升直接优化策略。策略被定义为一个映射函数从观察到动作的概率分布。其优势在于它们能处理连续的行动空间而且策略梯度算法旨在找到一种策略使得预期的总回报最优。但是策略梯度经常需要较大数量的样本来进行训练可能因此训练过程会慢一些。 总的来说两种方法各有其优势和局限性且根据应用的具体环境和需求它们可以相互补充。在实际问题中研究者常常会采用叫做Actor-Critic的方法这是一种结合价值和策略的方法以充分利用这两种优势。 深度强化学习DRL是合并深度学习和强化学习两个领域的研究成果形成的一种学习方法。将深度学习的强大学习表示能力和强化学习的环境交互策略迭代思想结合在一起。深度强化学习在许多领域已经取得了突破性的进展如游戏、机器人技术、自动驾驶等。 算法种类和特征深度强化学习算法主要分为基于价值的算法基于策略的算法以及基于最大熵的算法。其中基于价值的算法如Q-learning和它的变体DQN致力于学习一个函数用以估计每个状态或状态-动作对的价值。基于策略的算法如策略梯度方法和自由能方程法则试图学习一个映射从观察到动作并直接或间接的优化策略。基于最大熵的算法在优化目标的同时也考虑熵的最大化从而保持策略的多样性。 转移学习在强化学习中的应用转移学习也在强化学习中起着重要的作用。在许多情况下我们希望学习到的知识能够转换到其他任务或环境中。这要求算法能够抽取出更一般的知识而不仅仅是特定环境的知识。 论文阅读和理解在阅读深度强化学习相关论文时需要提出和解答一些关键问题如论文的主旨算法的详细过程实验的有效性等。 以上的总结都基于数据集中提供的信息。深度强化学习本身是一个快速发展的研究领域还有许多其他的深度强化学习技术比如DPGDDPGTRPOPPOSAC等。为了获取更全面的理解建议相关的论文和书籍。 2. Neural architecture search with reinforcement learning 注意论文中的哪些部分是搜索空间、搜索策略、评价结果的指标。 NAS算法自动搜索的基本思想围绕搜索空间、搜索策略以及评价搜索的指标三个维度展开搜索最优的网络先确定在哪些模块卷积池化等等里面搜索组合一个网络然后用什么样的方式组合我们的网络最后得出的网络我们如何评价它是否好用。 背景 手工设计网络需要丰富的经验与实验甚至有时手工设计显得非常困难。 方法 提出了一种神经网络搜索的方法NAS(Neural Architecture Search)利用循环神经网络RNN生成模型描述并且利用强化学习策略最大化验证集上的模型准确度。这种方法基于梯度用于找到非常好的 Architecture。 使用一个RNN网络作为controller生成一个对应的网络结构以及生成这种网络结构的概率P。以此网络结构作为基础训练子网络在相应的数据集上当发生收敛的时候在验证集得到准确值R计算梯度值并且最大化R的值进行梯度更新反向传播。 结果 在 CIFAR-10 数据集上测试错误率为 3.65提高了 0.09%速度提高了 1.05 倍。在 Penn Treebank 数据集上实现了 62.4 的测试集困惑度比之前最先进的模型好 3.6 的困惑度。该单元还可以转移到 PTB 上的字符语言建模任务并达到 1.214 的最先进的困惑度。 note 困惑度困惑度定义为测试集的概率的倒数并用单词数做归一化。 词序列的条件概率越高困惑度越低。根据语言模型最小化困惑相当于最大化测试集概率。 参考 【论文精读-NAS开山之作】Neural Architecture Search with Reinforcement Learning - 知乎 (zhihu.com) 【论文解读】 Neural Architecture Search with reinforcement learning-CSDN博客