优质网站策划,潍坊学网站建设,房地产论坛网站建设,华为官网手机商城来源#xff1a;AI科技评论摘要#xff1a;如何赋予机器自主学习的能力#xff0c;一直是人工智能领域的研究热点。强化学习与宽度学习如何赋予机器自主学习的能力#xff0c;一直是人工智能领域的研究热点。在越来越多的复杂现实场景任务中#xff0c;需要利用深度学习、… 来源AI科技评论摘要如何赋予机器自主学习的能力一直是人工智能领域的研究热点。 强化学习与宽度学习如何赋予机器自主学习的能力一直是人工智能领域的研究热点。在越来越多的复杂现实场景任务中需要利用深度学习、宽度学习来自动学习大规模输入数据的抽象表征并以此表征为依据进行自我激励的强化学习优化解决问题的策略。深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用使其被认为是迈向通用人工智能的重要途径。澳门大学讲座教授中国自动化学会副理事长陈俊龙在中国自动化学会第5期智能自动化学科前沿讲习班作了题目为「从深度强化学习到宽度强化学习结构算法机遇及挑战」的报告。陈俊龙教授的报告大致可以分为三个部分。首先讨论了强化学习的结构及理论包括马尔科夫决策过程、强化学习的数学表达式、策略的构建、估计及预测未来的回报。然后讨论了如何用深度神经网络学习来稳定学习过程及特征提取、如何利用宽度学习结构跟强化学习结合。最后讨论了深度、宽度强化学习带来的机遇与挑战。强化学习结构与理论陈教授用下图简单描述强化学习过程。他介绍道所谓强化学习就是智能体在完成某项任务时通过动作A与环境environment进行交互在动作A和环境的作用下智能体会产生新的状态同时环境会给出一个立即回报。如此循环下去经过数次迭代学习后智能体能最终地学到完成相应任务的最优动作。 提到强化学习就不得不提一下Q-Learning。接着他又用了一个例子来介绍了强化学习Q-Learning的原理。Q-learning原文地址https://blog.csdn.net/Maggie_zhangxin/article/details/73481417假设一个楼层共有5个房间房间之间通过一道门连接如下图所示。房间编号为0~4楼层外的可以看作是一个大房间编号5。可以用图来表示上述的房间将每一个房间看作是一个节点每道门看作是一条边。在任意一个房间里面放置一个智能体并希望它能走出这栋楼也可以理解为进入房间5。可以把进入房间5作为最后的目标并为可以直接到达目标房间的门赋予100的奖励值那些未与目标房间相连的门则赋予奖励值0。于是可以得到如下的图。根据上图可以得到奖励表如下其中-1代表着空值表示节点之间无边相连。再添加一个类似的Q矩阵代表智能体从经验中所学到的知识。矩阵的行代表智能体当前的状态列代表到达下一状态的可能动作。然后陈教授又介绍了Q-Learning的转换规则即Q(state, action)R(state, action) Gamma * Max(Q[next state, all actions])。依据这个公式矩阵Q中的一个元素值就等于矩阵R中相应元素的值与学习变量Gamma乘以到达下一个状态的所有可能动作的最大奖励值的总和。为了具体理解Q-Learning是怎样工作的陈教授还举了少量的例子。首先设置Gamma为0.8初始状态是房间1。对状态1来说存在两个可能的动作到达状态3或者到达状态5。通过随机选择选择到达状态5。智能体到达了状态5将会发生什么观察R矩阵的第六行有3个可能的动作到达状态1,4或者5。根据公式Q(1, 5) R(1, 5) 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] 100 0.8 * 0 100由于矩阵Q此时依然被初始化为0Q(5, 1), Q(5, 4), Q(5, 5) 全部是0因此Q(1, 5) 的结果是100因为即时奖励R(1,5) 等于100。下一个状态5现在变成了当前状态因为状态5是目标状态故算作完成了一次尝试。智能体的大脑中现在包含了一个更新后的Q矩阵。对于下一次训练随机选择状态3作为初始状态。观察R矩阵的第4行有3个可能的动作到达状态1,2和4。随机选择到达状态1作为当前状态的动作。现在观察矩阵R的第2行具有2个可能的动作到达状态3或者状态5。现在计算Q 值Q(3, 1) R(3, 1) 0.8 * Max[Q(1, 2), Q(1, 5)] 0 0.8 *Max(0, 100) 80使用上一次尝试中更新的矩阵Q得到Q(1, 3) 0 以及 Q(1, 5) 100。因此计算的结果是Q(3,1)80。现在矩阵Q如下。 智能体通过多次经历学到更多的知识之后Q矩阵中的值会达到收敛状态。如下。通过对Q中的所有的非零值缩小一定的百分比可以对其进行标准化结果如下。一旦矩阵Q接近收敛状态我们就知道智能体已经学习到了到达目标状态的最佳路径。至此陈教授已经把Q-learning简单介绍完了。通过上文的介绍大致可以总结出强化学习的六个特点无监督只有奖励信号不需要指导学习者不停的试错奖励可能延迟牺牲短期收益换取更大的长期收益需要探索和开拓目标导向的智能体与不确定的环境间的交互是个全局性的问题四个要素一、策略做什么1确定策略aπs2随机策略πa|sp[ata|sts]st∈Sat∈ASt∑πa|s1二、奖励函数r在状态转移的同时环境会反馈给智能体一个奖励三、累积奖励函数V一个策略的优劣取决于长期执行这一策略后的累积奖励常见的长期累积奖励如下四、模型用于表示智能体所处环境是一个抽象概念对于行动决策十分有用。所有的强化学习任务都是马尔科夫决策过程陈教授对MDP的介绍如下。一个马尔可夫决策过程由一个五元组构成M SApγr。其中S是状态集A是动作集p是状态转移概率γ是折扣因子r是奖励函数。陈教授在介绍强化学习这部分的最后提到了目前强化学习面临的两大挑战。信度分配之前的动作会影响当前的奖励以及全局奖励探索开拓使用已有策略还是开发新策略Q-Learning可以解决信度分配的问题。第二个问题则可以使用ε-greedy算法SoftMax算法Bayes bandit算法UCB算法来处理等。值函数对未来奖励的一个预测可分为状态值函数和行为值函数。1. 状态值函数 Vπs从状态s出发按照策略π采取行为得到的期望回报也被称为Bellman方程。2. 行为价值函数Qπsa从状态s出发采取行为a后然后按照策略π采取行动得到的期望回报同样被称为动作‐值函数的Bellman方程。 类似的给出了相应的最优值函数为1. 最优值函数V*s是所有策略上的最大值函数2. 最优行为值函数Q*sa是在所有策略上的最大行为值函数从而的到Bellman最优方程及对应的最优策略陈教授介绍了求解强化学习的方法可分为如下两种情况模型已知的方法动态规划模型未知的方法蒙特卡洛方法时间差分算法陈教授进一步主要介绍了时间差分算法中两种不同的方法 异策略时间差分算法Q‐learning和同策略时间差分算法Sarsa 两者的主要区别在于at1的选择上的不同普通的Q‐learning是一种表格方法适用于状态空间和动作空间是离散且维数比较低的情况当状态空间和动作空间是高维连续的或者出现一个从未出现过的状态普通的Q‐learning是无法处理的。为了解决这个问题陈教授进一步介绍了深度强化学习方法。 深度强化学习深度强化学习是深度神经网络与强化学习的结合方法 利用深度神经网络逼近值函数利用强化学习的方法进行更新根据解决问题思路的不同可分为1基于价值网络状态作为神经网络的输入经过神经网络分析后输出时当前状态可能执行的所有动作的值函数即利用神经网络生成Q值。2基于策略网络状态作为神经网络的输入经过神经网络分析后输出的是当前状态可能采取的动作确定性策略或者是可能采取的每个动作的概率随机性策略。陈教授也提到了Deepmind公司在2013年的Playing Atari with Deep Reinforcement Learning (DRL) 提出的DQN算法Deep Q‐learning是利用深度神经网络端到端的拟合Q值采用Q‐learning算法对值函数更新。DQN利用经验回放对强化学习过程进行训练通过设置目标网络来单独处理时间差分算法中的TD偏差。基于上面内容陈教授进一步介绍了另外一种经典的时间差分算法即Actor-Critic的方法该方法结合了值函数比如Q learning和策略搜索算法Policy Gradients的优点其中Actor指策略搜索算法Critic指Qlearning或者其他的以值为基础的学习方法因为Critic是一个以值为基础的学习法所以可以进行单步更新计算每一步的奖惩值与传统的PolicyGradients相比提高了学习效率策略结构Actor主要用于选择动作而值函数结构Critic主要是用于评价Actor的动作agent根据Actor的策略来选择动作并将该动作作用于环境Critic则根据环境给予的立即奖赏根据该立即奖赏来更新值函数并同时计算值函数的时间差分误差TD-error通过将TDerror反馈给行动者actor指导actor对策略进行更好的更新从而使得较优动作的选择概率增加而较差动作的选择概率减小。宽度学习虽然深度结构网络非常强大但大多数网络都被极度耗时的训练过程所困扰。首先深度网络的结构复杂并且涉及到大量的超参数。另外这种复杂性使得在理论上分析深层结构变得极其困难。另一方面为了在应用中获得更高的精度深度模型不得不持续地增加网络层数或者调整参数个数。因此为了提高训练速度宽度学习系统提供了一种深度学习网络的替代方法同时如果网络需要扩展模型可以通过增量学习高效重建。陈教授还强调在提高准确率方面宽度学习是增加节点而不是增加层数。基于强化学习的高效性陈教授指出可以将宽度学习与强化学习结合产生宽度强化学习方法同样也可以尝试应用于文本生成、机械臂抓取、轨迹跟踪控制等领域。 报告的最后陈教授在强化学习未来会面临的挑战中提到了如下几点安全有效的探索过拟合问题多任务学习问题奖励函数的选择问题不稳定性问题未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”