您当前的位置:首页>
新闻动态

DeepMind强化学习重大突破:AI在多人射击游戏完胜人类!

浏览人数:5|上传时间:{$itemInfo['publish_time']|date='Y-m-d H:i:s',_ _ _奇迹娱乐出现到了今年欧冠淘汰赛中.奇迹娱乐登录菲律宾队是突出“归化”字眼的球队,现阵容有超过20位归化球员,近年来入选过国家队的归化球员总数更超过30人,并且已通过此前的世预赛亚洲40强赛等赛事得到了证明.奇迹娱乐官网热刺与多特蒙德这对也很有看头,两队战术都讲究速度,打起反击来都如同水银泻地,非常富有激情。!}##}|来源:奇迹娱乐-奇迹娱乐登录-奇迹娱乐官网

  编者按:本文来自微信公众号“新智元”(ID:AI_era),闻菲、肖琴编译。36氪经授权转载。

  继OpenAI之后,DeepMind也在多智能体强化学习方面秀肌肉:首次在第一人称射击游戏的多人模式中完胜人类,而且没有使用大量训练局数,轻松超过了人类水平。

  就在OpenAI宣布在5v5 DOTA 2中战胜人类玩家后没多久,今天,DeepMind也分享了他们在多智能体学习(multi-agent learning)方面的进展。

  CEO Hassabis在Twitter上分享:“我们最新的工作展示了智能体在复杂的第一人称多人游戏中达到人类水平,还能与人类玩家合作!”

  

  Hassbis说的这个游戏,就是《雷神之锤III竞技场》,这也是很多现代第一人称射击游戏的鼻祖,玩家或独立或组队在地图中厮杀,死亡后数秒在地图某处重生。当某一方达到胜利条件(在DeepMind的实验里就是抢夺更多的旗帜),或者游戏持续一定时间后即宣告回合结束。胜利条件取决于选择的游戏模式。

  虽然Hassbis在Twitter里说他们的AI“达到了人类水平”,实际上,从实验结果看,他们的AI已经超越了人类:在与由40个人类玩家组成的队伍对战时,纯AI的队伍完胜纯人类的队伍(平均多抢到16面旗),并且有95%的几率战胜AI与人混合组成的队伍。

  这个AI名叫“为了赢”(For the Win,FTW),只玩了将近45万场游戏,理解了如何有效地与人和其他的机器合作与竞争。

  研究人员对AI的唯一限定是,在5分钟时间里尽可能取得多的旗帜。对战的游戏地图是随机生成的,每场都会变,室内与室外的地形也不相同。组队的时候,AI可能与人组队,也可能与其他AI组队。对战的模式分为慢速和高速两种。

  在训练过程中,AI发展出了自己的奖励机制,学会了基地防守、尾随队友,或者守在敌人营地外偷袭等策略。

  DeepMind在他们今天发表的博客文章中写道,从多智能体的角度说,玩《雷神之锤III》这种多人视频游戏,需要与队友合作,与敌方竞争,还要对遭遇到的任何对战风格/策略保持鲁棒性。

  分析发现,游戏中,AI在“tagging”(碰触对方,将其送回地图上的初始地点)上比人类更加高效,80%的情况下能够成功(人类为48%)。

  而且有趣的是,对参与对战的人类玩家进行调查后发现,大家普遍认为AI是更好的team player,更善于合作。

  启元世界首席算法官、前Netflix资深算法专家王湘君告诉新智元:

  之前第一人称射击(FPS)游戏的研究更多是单人模式,这次DeepMind在FPS多人模式做出了重大突破,在没有使用大量训练局数的情况下就超过了人类水平。和之前OpenAI Five相比,DeepMind的Capture the Flag (CTF) 模型直接从pixel学习,没有作feature engineering和为每个agent单独训练模型,得益于以下创新:

  不过,FPS在策略学习上面的难度还是比Dota,星际这种RTS游戏小很多,CTF模型在长期策略游戏上效果还有待观察。

  在和人类对战模式之外,CTF模型同时在人机协作上有很好的效果。值得一提的是,启元世界在今年4月份北大ACM总决赛期间发布的基于星际争霸2的人机协作挑战赛,其智能体也率先具备了与人和AI组队协作的能力。人机协作在未来的人工智能研究领域将成为非常重要的一环。

  在多人视频游戏中掌握策略、战术理解和团队合作是人工智能研究的关键挑战。现在,由于强化学习取得的新进展,我们的智能体已经在《雷神之锤III竞技场》(Quake III Arena)游戏中达到了人类级别的表现,这是一个经典的3D第一人称多人游戏,也是一个复杂的多智能体环境。这些智能体展现出同时与人工智能体和人类玩家合作的能力。

  如下面的视频所示,4个训练好的智能体共同合作,成功夺到旗子。

  我们居住的星球上有数十亿人,每个人都有自己的个人目标和行动,但我们仍然能够通过团队、组织和社会团结起来,展现出显著的集体智慧。这是我们称之为多智能体学习(multi-agentlearning)的设置:许多个体的智能体必须能够独立行动,同时还要学会与其他智能体交互和合作。这是一个极其困难的问题——因为有了共适应智能体,世界在不断地变化。

  为了研究这个问题,我们选择了3D第一人称多人视频游戏。这些游戏是最流行的电子游戏类型,由于它们身临其境的游戏设计,以及它们在策略、战术、手眼协调和团队合作方面的挑战,吸引了数以百万计的玩家。我们的智能体面临的挑战是直接从原始像素中学习以产生操作。这种复杂性使得第一人称多人游戏成为人工智能社区一个非常活跃而且得到许多成果的研究领域。

  我们的这项工作关注的游戏是《雷神之锤III竞技场》(我们对其进行了一些美术上的修改,但所有游戏机制保持不变)。《雷神之锤III竞技场》是为许多现代第一人称视频游戏奠定了基础,并吸引了长期以来竞争激烈的电子竞技场面。我们训练智能体作为个体学习和行动,但必须能够与其他智能体或人类组成团队作战。

  CTF(Capture The Flag)的游戏规则很简单,但是动态很复杂。在Quake3里分成蓝红两队在给定的地图中竞赛。竞赛的目的是将对方的旗子带回来,并且碰触未被移动过的我方旗子,我队就得一分,称作一个capture。为了获得战术上的优势,他们可以会碰触地方的队员(tagging),把他们送回自己的地盘。在五分钟内capture到最多旗子的队伍获胜。

  从多智能体的角度看,CTF要求队员既要成功地与队友合作,又要与对方敌手竞争,同时在可能遇到的任何比赛风格中保持稳健性。

  为了使事情更有趣,我们设计了CTF的一种变体,令地图的布局在每一场竞赛中发生改变。这样,我们的智能体被迫要采用一般性策略,而不是记住地图的布局。此外,为了让游戏更加公平,智能体要以类似于人类的方式体验CTF的世界:它们观察一系列的像素图像,并通过模拟游戏控制器发出动作。

  

  智能体必须从头开始学习如何在不可见(unseen)的环境中观察、行动、合作和竞争,所有这些都来自每场比赛的一个强化信号:他们的团队是否获胜。这是一个具有挑战性的学习问题,它的解决方法基于强化学习的三个一般思路:

  

  由此产生的智能体,我们称之为For The Win(FTW)智能体,它学会了以非常高的标准玩CTF。最重要的是,学会的智能体策略对地图的大小、队友的数量以及团队中的其他参与者都具有稳健性。

  下面演示了FTW智能体互相竞争的室外程序环境游戏,以及人类和智能体竞争的室内程序环境的游戏。

  

  我们举办了一场比赛,包括40名人类玩家。在比赛中,人类和智能体都是随机配对的——可以作为敌手或者作为队友。

  

  FTW智能体学会的比强大的基线方法更强,并超过人类玩家的胜率。事实上,在一项对参与者的调查中,它们被认为比人类参与者更具有合作精神。

  

  除了性能评估之外,理解这些智能体的行为和内部表示的复杂性是很重要的。

  为了理解智能体如何表示游戏状态,我们研究了在平面上绘制的智能体的神经网络的激活模式。下图中的点表示游戏过程中的情况,近处的点表示类似的激活模式。这些点是根据高级CTF游戏状态进行着色的,在这些状态中智能体要问自己:智能体在哪个房间?旗子的状态是怎样的?可以看到哪些队友和敌手?我们观察到相同颜色的集群,表明智能体以类似的方式表示类似的高级游戏状态。

  

  智能体从未被告知游戏的规则,但是它可以学习基本的游戏概念,并能有效地建立CTF直觉。事实上,我们可以找到一些特定的神经元,它们可以直接编码一些最重要的游戏状态,比如当智能体的旗子被夺走时激活的神经元,或者当它的队友夺到对方的旗子时激活的神经元。我们在论文中进一步分析了智能体对记忆和视觉注意力的使用。

  除了这种丰富的表示,智能体还会如何行动呢?首先,我们注意到这些智能体的反应时间非常快,tagging也非常准确,这可以解释为它们的性能。但是,通过人为地降低tagging的准确度和反应时间,我们发现这只是它们成功的因素之一。

  

  通过无监督学习,我们建立了智能体和人类的原型行为( prototypical behaviours),发现智能体实际上学习了类似人类的行为,例如跟随队友并在对手的基地扎营。

  

  这些行为出现在训练过程中,通过强化学习和群体层面的进化,一些行为——比如跟随队友——随着智能体学会以更加互补的方式合作而减少。

  上面的视频展示了一群FTW智能体的训练进展。左上方显示的是30个智能体在训练和发展过程中的Elo等级分。右上角显示了这些进化事件的遗传树( genetic tree)。下方的图表显示了整个智能体训练过程中知识的发展,一些内部奖励,以及行为概率。

  最近,研究界在复杂游戏领域做出了非常令人印象深刻的工作,例如星际争霸2和Dota 2。我们的这篇论文聚焦于《雷神之锤III竞技场》的夺旗模式,它的研究贡献是具有普遍性的。我们很希望看到其他研究人员在不同的复杂环境中重建我们的技术。未来,我们还希望进一步改进目前的强化学习和群体训练方法。总的来说,我们认为这项工作强调了多智能体训练对促进人工智能发展的潜力:利用多智能体训练的自然设置,并促进强大的、甚至能与人类合作的智能体的开发。

  

  更多细节请阅读论文:

  https://deepmind.com/documents/224/capture_the_flag.pdf

  完整视频:

  https://youtu.be/dltN4MxV1RI