网站后台网址在哪输入,酷家乐网站做墙裙教程,wordpress国内访问,深圳做电商网站来源#xff1a;本文作者PENG Bo#xff08;http://t.cn/RY3MKSS#xff09;#xff0c;本文首发于作者的知乎专栏《技术备忘录》 读过AlphaGo Zero论文的同学#xff0c;可能都惊讶于它的方法的简单。另一方面#xff0c;深度神经网络#xff0c;是否能适用于国际象棋这… 来源本文作者PENG Bohttp://t.cn/RY3MKSS本文首发于作者的知乎专栏《技术备忘录》 读过AlphaGo Zero论文的同学可能都惊讶于它的方法的简单。另一方面深度神经网络是否能适用于国际象棋这样的与围棋存在诸多差异的棋类MCTS蒙特卡洛树搜索能比得上alpha-beta搜索吗许多研究者都曾对此表示怀疑。 但今天AlphaZero来了https://arxiv.org/pdf/1712.01815.pdf它破除了一切怀疑通过使用与AlphaGo Zero一模一样的方法同样是MCTS深度网络实际还做了一些简化它从零开始训练 4小时就打败了国际象棋的最强程序Stockfish 2小时就打败了日本将棋的最强程序Elmo 8小时就打败了与李世石对战的AlphaGo v18 在训练后它面对Stockfish取得100盘不败的恐怖战绩而且比之前的AlphaGo Zero也更为强大根据论文后面的表格训练34小时的AlphaZero胜过训练72小时的AlphaGo Zero。 这令人震惊因为此前大家都认为Stockfish已趋于完美它的代码中有无数人类精心构造的算法技巧。 然而现在Stockfish就像一位武术大师碰上了用枪的AlphaZero被一枪毙命。 在reddit的国象版面的讨论中Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm • r/chesshttp://t.cn/RY3x1kK大家纷纷表示AlphaZero已经不是机器的棋了是神仙棋非常优美富有策略性更能深刻地谋划maneuver完全是在调戏Stockfish。 喜欢国象的同学注意了AlphaZero不喜欢西西里防御。 训练过程极其简单粗暴。超参数网络架构都不需要调整。无脑上算力就能解决一切问题。 Stockfish和Elmo每秒种需要搜索高达几千万个局面。 AlphaZero每秒种仅需搜索几万个局面就将他们碾压。深度网络真是狂拽炫酷。 当然训练AlphaZero所需的计算资源也是海量的。这次Deepmind直接说了需要5000个TPU v1作为生成自对弈棋谱。 不过随着硬件的发展这样的计算资源会越来越普及。未来的AI会有多强大确实值得思考。 个人一直认为MCTS深度网络是非常强的组合因为MCTS可为深度网络补充逻辑性。我预测这个组合未来会在更多场合显示威力例如有可能真正实现自动写代码自动数学证明。 为什么说编程和数学因为这两个领域和下棋一样都有明确的规则和目标有可模拟的环境。 在此之前深度学习的调参党和架构党估计会先被干掉...... 目前的很多灌水论文电脑以后自己都可以写出来 也许在5到20年内我们会看到《Mastering Programming and Mathematics by General Reinforcement Learning》。然后许多人都要自谋出路了...... 未来智能实验室致力于研究互联网与人工智能未来发展趋势观察评估人工智能发展水平由互联网进化论作者计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。 未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎支持和加入我们。扫描以下二维码或点击本文左下角“阅读原文”