深圳网站平台哪家强,html手机版网站,wordpress 插件 推荐,推广方法策略与经验总结自我博弈#xff08;Self-Play#xff09;[1]是应用于智能体于智能体之间处于对抗关系的训练方法#xff0c;这里的对抗关系指的是一方的奖励上升必然导致另一方的奖励下降。通过轮流训练双方的智能体就能使得双方的策略模型的性能得到显著提升#xff0c;使得整个对抗系统…自我博弈Self-Play[1]是应用于智能体于智能体之间处于对抗关系的训练方法这里的对抗关系指的是一方的奖励上升必然导致另一方的奖励下降。通过轮流训练双方的智能体就能使得双方的策略模型的性能得到显著提升使得整个对抗系统达到正和博弈的效果。这种训练机制最早运用于跳棋游戏[2]后来在棋类MOBA类等对抗性策略游戏中被广泛应用例如AlphaGo、AlphaStar。
自我博弈有三个主要创新点。第一是探索课程在稀疏奖励的环境下将最终目标分割成若干个容易实现的小目标每个目标都基于一定的奖励使奖励变得稠密并对智能体的探索行为给予一定的奖励。但随着训练的进行探索奖励应当逐渐衰减为0。第二是对手抽样智能体在面对过强或过弱的对手时训练都会难以取得成效因此环境中需要存储对手不同时期的训练版本让较弱的一方有机会获胜较弱的一方策略提升的同时会反过来促进较强一方变得更强。第三是鲁棒学习策略为了防止智能体的策略拟合在某一种固定的对手身上需要给对手引入多样性给环境引入随机变量。
为了判断智能体的强弱使自我博弈使用水平相近的智能体进行对抗训练根据ML-Agents中的做法较好的解决方式是引入ELO评级系统这是一种计算零和游戏中两个玩家之间相对水平的方法。每一个玩家都有一个初始ELO分数通常为1200通过对战胜负结果更新ELO分数假定玩家A的初始ELO分数为玩家A的初始ELO分数为则玩家A的预期胜利概率为 E A 1 1 1 0 R B − R A 400 E_A \frac{1}{110^{\frac{R_B-R_A}{400}}} EA110400RB−RA1
比赛结束后玩家A的分数调整为 R A ′ R A K ( S A − E A ) R_A R_A K(S_A-E_A) RA′RAK(SA−EA)
自我博弈是强化学习的对抗性训练经常采用的训练方式是一个对抗双方模型交替训练的过程。智能体1和智能体2身为对抗双方可以在对手的早期模板中选择自己合适训练环境。也就是说对方的智能体在己方训练的时候相当于环境的一部分对手的策略也极大影响了自身的策略。 因此双方交替训练的时机以及选择对手的策略是影响自我博弈结果的重要因素当双方训练进度不一致时会造成双方的竞技水平不平衡不利于双方策略的学习。实验中智能体每隔一段时间会保存自己的副本在训练的时候会从敌方的副本中抽取一个当做训练的对手抽取的策略有很多种例如每个样本概率平均、最近的样本概率最大并线性变化等。
其中K为可调整的超参数是比赛结果赢了则值为1反之为0。 [1]Bansal T, Pachocki J, Sidor S, et al. Emergent complexity via multi-agent competition[J]. arXiv preprint arXiv:1710.03748, 2017. [2]Samuel A L. Some studies in machine learning using the game of checkers[J]. IBM Journal of research and development, 1959, 3(3): 210-229.