python 网站开发怎么部署,中国十大软件上市公司排名,2345百度百科,佳木斯建设局网站0 摘要
2048 是一款引人入胜的单人非确定性视频益智游戏#xff0c;由于简单的规则和难以掌握的游戏玩法#xff0c;近年来广受欢迎。由于 2048 可以方便地嵌入到离散状态马尔可夫决策过程框架中#xff0c;我们将其视为评估强化学习中现有和新方法的测试平台。为了开发一个…0 摘要
2048 是一款引人入胜的单人非确定性视频益智游戏由于简单的规则和难以掌握的游戏玩法近年来广受欢迎。由于 2048 可以方便地嵌入到离散状态马尔可夫决策过程框架中我们将其视为评估强化学习中现有和新方法的测试平台。为了开发一个强大的 2048 播放程序我们采用时间差异学习和系统的 n 元组网络。我们表明这种基本方法可以通过时间相干学习、具有权重提升的多级函数逼近器、轮播整形和冗余编码得到显着改进。此外我们演示了如何利用 n 元组网络的特性通过延迟衰减更新和应用无锁乐观并行性来轻松利用多个 CPU 内核来提高学习过程的算法有效性.通过这种方式我们能够开发出迄今为止最著名的 2048 播放程序这证实了所引入的离散状态马尔可夫决策问题方法的有效性。