手机版
你好,游客 登录 注册
背景:
阅读新闻

OpenAI发布Neural MMO,一种用于强化学习代理的多主体游戏环境

[日期:2019-03-07] 来源:Linux公社  作者:醉落红尘 [字体: ]

周一,OpenAI的团队在Neural MMO(大型多人在线游戏)上发布了一款多主体游戏环境,用于增强学习代理。它将被用于在复杂的开放世界环境中训练人工智能。这个平台支持在一个持久的、开放的任务中使用大量的代理。

OpenAI发布Neural MMO,一种用于强化学习代理的多主体游戏环境

对Neural MMO的需求

从过去几年开始,人们开始探索MMO对真实事件建模的适用性。但多主体强化学习存在两个主要挑战。

首先,由于当前环境的复杂性和狭窄性,需要创建具有高度复杂性上限的开放式任务。OpenAI团队指定的另一个挑战是需要更多的基准测试环境,以便在大规模人群存在的情况下量化学习进度。

克服挑战的不同标准

该团队建议环境需要满足某些标准以克服挑战。

坚持

代理可以在其他学习代理存在的情况下同时学习,而无需环境重置。策略应该适应其他代理行为的快速变化,并考虑长时间的视野。

规模

Neural MMO支持大量且可变数量的实体。 OpenAI团队的实验考虑了100个并发服务器中每个服务器中128个并发代理的高达100M的生命周期。

效率

由于进入的计算障碍很低,因此可以在单个桌面CPU上训练有效的策略。

扩展

Neural MMO旨在更新新内容。其核心功能包括食物和水觅食系统,基于瓦片的地形的程序生成以及战略战斗系统。未来有开源驱动扩展的机会。

环境

玩家可以加入任何可用的服务器,每个服务器都包含一个可配置大小的自动生成的基于图块的游戏地图。一些瓷砖是可穿越的,例如食用森林瓷砖和草砖,而其他瓷砖,例如水和实心石,则不是。玩家必须获得食物和水,并避免其他代理人的战斗伤害,以维持他们的健康。该平台附带了程序环境生成器和可视化工具,用于地图图块访问分布,值函数和学习策略的代理程序代理依赖性。

该团队使用vanilla策略渐变训练了一个完全连接的架构,其中值函数基线和奖励折扣是唯一的增强功能。该团队通过计算所有玩家的最大值,将可变长度观测值(例如周围玩家列表)转换为单个长度向量。

要了解有关此新闻的更多信息,请查看OpenAI的官方博客文章。

Linux公社的RSS地址https://www.linuxidc.com/rssFeed.aspx

本文永久更新链接地址https://www.linuxidc.com/Linux/2019-03/157329.htm

linux
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款