Facebook开源了它的ELF OpenGo项目,并为其添加了新功能。 Facebook的ELF OpenGo是AlphaGoZero/AlphaZero的重新实现。去年5月,ELF OpenGo发布,允许AI研究人员更好地了解AI系统的学习方式。这个开源机器人与顶级职业围棋球员的战绩为20胜0负,并且已被人工智能研究界广泛采用,以进行他们自己的围棋实验。
现在,Facebook AI Research团队宣布了与ELF OpenGo相关的新功能和研究成果。他们现在已经使用强化学习重新训练了ELF OpenGo模型,并且还发布了机器人的Windows可执行版本,可以用作Go玩家的训练辅助工具。还发布了一个独特的档案,展示了ELF OpenGo对87,000个专业围棋游戏的分析。这将有助于Go玩家详细评估他们的表现。他们还发布了2000万个自玩游戏和1500个中间模型的数据集。
Facebook研究人员在一篇新的研究论文中分享了他们对ELF OpenGo模型进行再培训的实验和学习。本文详细介绍了大量实验的结果,在评估过程中修改了各个特征,以便更好地理解这些算法的特性。
培训ELF OpenGo
ELF OpenGo在2,000个GPU上接受了9天的培训。据称,20块模型与AlphaGo Zero和Alpha Zero中描述的20块模型相当。该模型还提供了预训练的超人模型,用于训练模型的代码,包含2000万个自玩游戏,超过150万个训练小批量和辅助数据的综合训练轨迹数据集。
培训期间的模型行为
- 与其他模型相比,模型的强度存在很大差异。即使学习率降低,该属性仍然有效。
- 需要显着前瞻的移动来确定是否应该播放它们,例如“梯形”移动,模型慢慢学习并且永远不会完全掌握。
- 该模型可以快速学习游戏不同阶段的高质量动作。与表格RL的典型行为相反,学习游戏中期和结束游戏动作的进展速度几乎相同。
在Facebook博客文章中,这个RL模型背后的团队写道:“我们很高兴我们开发这个多功能平台有助于研究人员更好地理解AI,我们很高兴看到Go社区的玩家用它来磨练他们的技能并研究游戏。我们也很高兴能够将去年的版本扩展到更广泛的开源资源中“
题为“ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero”的研究论文可在arXiv上找到。
PDF论文可以到Linux公社资源站下载:
------------------------------------------分割线------------------------------------------
免费下载地址在 http://linux.linuxidc.com/
用户名与密码都是www.linuxidc.com
具体下载目录在 /2019年资料/2月/20日/Facebook开源ELF OpenGo项目,并使用强化学习重新训练模型/
下载方法见 http://www.linuxidc.com/Linux/2013-07/87684.htm
------------------------------------------分割线------------------------------------------
Linux公社的RSS地址:https://www.linuxidc.com/rssFeed.aspx
本文永久更新链接地址:https://www.linuxidc.com/Linux/2019-02/157001.htm