创建公司网站内容总结,微信公众号的微网站怎么做,网页设计文字教程,网站的优化和推广方案怎么写来源#xff1a;CreateAMind摘要#xff1a;OpenAI昨日发布研究成果#xff0c;宣布Dota2 5v5在限定条件下#xff08;英雄阵容固定#xff0c;部分道具和功能禁用#xff09;战胜人类半职业选手。本文主要对其模型技术架构做一些分析总结。一、 模型输入与输出模型的输入… 来源CreateAMind摘要OpenAI昨日发布研究成果宣布Dota2 5v5在限定条件下英雄阵容固定部分道具和功能禁用战胜人类半职业选手。本文主要对其模型技术架构做一些分析总结。一、 模型输入与输出模型的输入是使用RAM(内存信息)如位置坐标技能血量数值状态等而不是图像像素信息。模型输入主要分为两个部分直接观测的信息场面其他英雄的绝对位置相对距离相对角度血量状态等。人工定义抽象的信息是否被攻击以及正在被谁攻击炮弹距离命中的时间朝向的cos与sin最近12帧内的英雄的血量变化等。模型的输出即是指AI所选择的动作包括移动攻击释放技能等。OpenAI将连续的动作离散化对应到网格并对各种技能定制化释放动作以减少动作空间的大小。以下图为例AI要释放一个攻击技能需要选取这个技能并选择一个目标单位周围网格内的一个位置值得注意的是在Dota2游戏内还有其他动作例如操控信使购买装备技能升级与天赋等这些都是人工定义好而不需AI决策的。而操控幻象分身召唤物等涉及更复杂的多单位操作则未在OpenAI当前版本的考虑范围内。二、 网络架构与训练方式网络架构架构局部如下图模型大图下载链接https://d4mucfpksywv.cloudfront.net/research-covers/openai-five/network-architecture.pdf总的来看大量信息通过连接(concatenate)与全连接层(dense)层进行综合作为1024维的LSTM的输入。LSTM综合时序信息并输出决策向量再用决策向量解构出详细动作。训练方式纯自我对弈训练。随机化训练随机初始状态血量速度移动等的训练以增强泛化能力。使用很高的γ0.9997。γ为奖励衰减值一般在其他环境中设置为0.980.998。大量计算128,000CPU256GPU能做到每天模拟玩180年的游戏。奖励(reward)设计总体奖励当前局面评估塔的情况等KDA个人战绩补兵表现等。合作奖励全队的表现作为自己奖励的一部分。分路对线的奖励与惩罚最开始分配一条路前期发育时如果偏离就会惩罚。三、 总结用强化学习玩Dota2需要面对4个挑战状态空间大局面不完全可见有视野限制动作空间大时间尺度大。近期论文中提出的解决方案大致有以下几个方向状态空间大解决方法如先用World Models抽象再进行决策。局面不完全可见一般认为需要进行一定的搜索如AlphaGo的MCTS蒙特卡洛树搜索。动作空间大可以使用模仿学习(Imitation Learning)或者与层次强化学习结合的方法。时间尺度大一般认为需要时间维度上的层次强化学习(Hierarchical Reinforcement Leanring)来解决这个问题。而神奇的是OpenAI没有使用上述任一方法而仅仅使用高γ值的PPO基础算法就解决了这些问题。这说明凭借非常大量的计算强化学习的基础算法也能突破这些挑战。OpenAI没有使用的WorldModelsMCTSILHRL等方法既是学术界研究的重点方向也是OpenAI-Five潜在的提升空间。这些更高效的方法若被合理应用可以加快模型的学习速度增强模型的迁移能力并帮助模型突破当前的限制。未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”