网站被安全狗拦截,佛山免费网站设计,河北省建设工程信息网招标公告,王野虓来源#xff1a;arXiv摘要#xff1a;在自然界中#xff0c;动物往往会执行目标导向的行为#xff0c;尽管它们的传感器的范围有限。作者#xff1a;Greg Wayne、 Chia-Chun Hung、David Amos、Mehdi Mirza、Arun Ahuja、Agnieszka Grabska-Barwinska、Jack Rae、Piotr Mi… 来源arXiv摘要在自然界中动物往往会执行目标导向的行为尽管它们的传感器的范围有限。作者Greg Wayne、 Chia-Chun Hung、David Amos、Mehdi Mirza、Arun Ahuja、Agnieszka Grabska-Barwinska、Jack Rae、Piotr Mirowski、Joel Z. Leibo、Adam Santoro、Mevlana Gemici、Malcolm Reynolds、Tim Harley、Josh Abramson、Shakir Mohamed、Danilo Rezende、David Saxton、Adam Cain、Chloe Hillier、David Silver、Koray Kavukcuoglu、Matt Botvinick、Demis Hassabis、Timothy Lillicrap「雷克世界」编译嗯~是阿童木呀、KABUDA、EVA在自然界中动物往往会执行目标导向的行为尽管它们的传感器的范围有限。为了应对环境问题,它们会对环境进行探索并储存记忆保持对目前无法获得的重要信息的估计。类似地最近DeepMind提出了MERLIN这是一种集成的AI智能体架构它可在部分观察到的虚拟现实环境中操作并基于不同于现有的端到端的AI体系的原理将信息存储于记忆中。在自然界中动物往往会执行目标导向的行为尽管它们的传感器的范围有限。为了应对环境问题它们探索环境并储存记忆保持对目前无法获得的重要信息的估计。最近,人工智能(AI)智能体在这方面取得了进展,它们通过将强化学习算法与深度神经网络相合并学会从感官输入执行任务甚至达到了人类水平。这些结果激起了科学家们对相关想法的追求比如解释非人类动物的学习。然而我们证明了当有足够的信息隐藏在智能体的传感器中时当代的强化学习算法很难解决简单的任务这种属性被称为“局部可观测性”partial observability。处理局部观察到的任务的一个明显的需求是访问大量的记忆但是我们发现记忆不够正确的信息以正确的格式进行存储是至关重要的。我们开发了一个模型记忆、强化学习和推理网络Memory, RL, and Inference NetworkMERLIN。在这个模型中记忆的形成是由一个预测建模的过程进行指导的。MERLIN使在3D虚拟现实环境中解决任务变得容易在这种环境中局部可观测性是非常严重的而且必须在长时间内保持记忆。我们的模型展示了一个单一的学习智能体的架构它可以解决心理学和神经生物学中的典型行为任务而不需要对感官输入的维度和经验的持续时间做出强力的简化假设。智能体模型现如今人工智能研究正在经历一场复兴因为强化学习技术解决了优化序列决策的问题与深度神经网络相结合形成人工智能体从而可以通过处理复杂的感官数据做出最佳决策。同时科学家们开发了新的深度网络结构将重要的先验知识编码到学习问题中。其中一个重要的创新是利用外部记忆系统开发神经网络使得来自大量的历史事件中合成信息的计算能够被学习到。对于所提出模型进行的实验在强化学习智能体中带有外部记忆系统的神经网络已经进行了“端到端”的优化以最大化在任务环境中进行交互时获得的奖励数量。也就是说系统学会了如何从输入感官数据中选择相关信息将其存储在记忆中并仅从试验和错误的操作选择中读取出相关的内存条目从而使任务的奖励高于预期。虽然这种针对人工记忆的方法被证明是成功的但我们发现它不能解决心理学和神经科学中行为研究里的简单任务特别是那些涉及在相关刺激和后面决策之间存在长时间延迟的任务。这包括但不限于这些问题导航回到之前访问过的目标、快速奖励评估其中智能体必须在几乎没有曝光的情况下理解不同对象的值、以及潜在学习latent learning一个智能体在进行探索之前通过特定任务获得关于环境的未说明的知识。潜在学习我们提出了MERLIN这是一种集成的AI智能体架构它可在部分观察到的虚拟现实环境中操作并基于不同于现有端到端的AI体系的原理将信息存储于记忆中。它学习处理高维感官流对其进行压缩和存储并且回忆对任务奖励依赖性较小的事件。我们将来自外部记忆系统、强化学习和状态估计推理模型的成分汇聚在一起利用从心理学和神经科学的三种观点预测感觉编码Gluck和Myers的海马表象理论hippocampal representation theory时间语境模型和后继表象中获得的灵感将它们组合为一个统一的系统。为了测试MERLIN我们将它置于一组来自心理学和神经科学的典型任务中以此来表明它可以找到解决对现有AI构成严峻挑战的问题的方法。MERLIN给出了一种超越端到端RL限制的方法这可用于对未来计算智能体的记忆展开研究。强化学习使得从感官观察o到行动a找到一个策略π或映射变得形式化。强化学习的一个主要方法是考虑随机策略使该策略便于描述操作上的分布。在感知数据不完整的部分观察环境中直接将瞬时感知数据映射到动作的无记忆RL策略Memory-free RL policies会失败。因此在这项研究中我们将注意力集中于依赖记忆的策略上在这些策略中动作的分布依赖于过去观察到的全部序列。 端到端的学习问题会随着AI接近具有长期记忆的长效智能体前沿而变得更加紧迫。例如思考一个需要记住24小时前发生的事件的智能体。存储的记忆可以通过记忆读取操作来恢复但在整个时间间隔内如反向传播时间优化网络动态或信息存储的方法需要在24小时内记录网络状态的确切数据。这实际上是一个让人望而却步的规定它的神经可信度表明至少对于记忆和时间信用分配的其他方面而言存在比端到端梯度计算更好的算法解决方案。我们注意到MERLIN专门使用1.3s的窗口来解决需要更长时间间隔的任务即6分钟内最长任务长度的0.36%。当端到端RL具有足够大的网络、足够丰富的经验以及优化时它理论上可以学会将相关信息存储于记忆中以供后期决策使用但我们已经证实实际需求往往令人望而却步。正如我们在目标识别和视觉等领域所熟知的结构创新如卷积神经网络对于实际系统而言是至关重要的。尽管实现细节可能会发生变化但我们相信将记忆和预测建模相结合对于未来在AI乃至神经科学领域构建大型智能体模型而言至关重要。原文链接https://arxiv.org/pdf/1803.10760.pdf未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”