队伍2被攻陷! OpenAI五5 v5团战中战胜人类

  

  近日,OpenAI开发了一套“五OpenAI”算法,他们的五种神经网络算法已经可以在队伍2游戏中进行团队协作击败业余人员队伍。   

  

  OpenAI表示,虽然今天的游戏中仍有限制,但他们的目标是在8月份的国际比赛中击败一批顶尖的专业人士,当然只限于一些有限的“英雄”角色。   

  

  然而,队伍2是世界上最流行和最复杂的电子竞技游戏之一。   

     队伍2被攻陷! OpenAI五5 v5团战中战胜人类”>
  <p>
  <br/>
  </p>
  
  <p>
  OpenAI五每天都会玩180年的游戏,通过自我对抗来学习。它使用在256个128000个GPU和CPU内核上运行的扩展版近端策略优化进行训练,这是为他们去年发布的游戏更简单的单人版本而设置的更大规模版本的系统。在游戏中,会对每个英雄使用单独的LSTM并且不使用人类数据的情况下学习到可识别的策略。
  </p>
  <p>
  这场比赛OpenAI五与OpenAI员工团队进行对战,由专业评论员闪电战和OpenAI队伍团队成员克里斯蒂高秤进行了解说,不少的社区人员也相继围观。
  </p>
  <p>
  
  </p>
  <p>
  人工智能的一个里程碑是在像星际争霸或队伍这样复杂的视频游戏中超越人类的能力。相对于以前的人工智能里程碑,如国际象棋或围棋,复杂的视频游戏开始反映现实世界的混乱和连续性的本质。能够解决复杂视频游戏的系统具有很高的通用性,其应用程序不在游戏中。
  </p>
  <p>
  人工智能领域的一个里程碑是在像星际争霸或队伍这样的复杂电子游戏中超越人类的能力。相对于以前的人工智能里程碑,比如国际象棋或围棋,人们可能更为关注的是解决复杂电子游戏的系统将是高度通用的,而不仅仅是在游戏领域有应用。
  </p>
  <p>
  队伍2是一款实时战略游戏,由两名玩家组成,每个玩家控制一个称为“英雄”的角色。玩队伍的AI必须掌握以下几点:
  </p>
  <ul>
  <李>
  队伍。游戏以每30秒帧的速度运行,平均时间为45分钟,每场游戏的成绩为80000次。大多数行为(例如命令英雄移动到某个位置)单独产生只有较小的影响,但一些个别行为可能会在战略上影响游戏,有些策略甚至可以在整个游戏中产生重大影响。OpenAI五每四帧观察一次,产生20000次移动。而国际象棋通常在40步之前就结束,在150步移动之前移动,几乎每一次移动都是战略性的。
  李</>
  <李>
  。游戏中,地图的其他部分会隐藏在雾中,那么,对于隐藏的敌人和他们的战略,AI就需要根据不完整的数据进行推断,并且需要模拟对手可能在正在进行的状态。然而,象棋和围棋都是全信息游戏,相对来说容易一些。
  李</>
  <李>
  ,在队伍中,每个英雄可以采取数十个动作,许多动作都是针对另一个单位或地面上的某个位置。我们将每个英雄的空间分割成170000个可能的行动(并非每个都有效,例如使用冷却时间的法术)。而国际象棋中的平均动作数为35岁,在围棋中的平均动作数则是250年。
  李</>
  <李>
  ,队伍会在包含十个英雄,数十个建筑物,几十个人大单位以及诸如符文,树木和病房等游戏特征的大型地图上进行,由此可见,队伍的玩耍的过程很复杂。模型通过阀门的机器人API观察队伍游戏的状态,其中20000(大多是浮点)数字表示允许人类访问的所有信息。国际象棋棋盘自然表现为大约70个枚举值;一个围棋棋盘大概约有400个枚举值。
  李</>
  </ul>
  <p>
  队伍规则也非常复杂。该游戏已经被积极开发了十多年,游戏逻辑在数十万行代码中实现。这一逻辑执行的时间是几毫秒,而对于国际象棋或围棋则只需要几纳秒。游戏每两周更新一次,不断改变环境语义。
  </p>
  <p>
  
  </p>
  <p>
  OpenAI五的系统使用近端政策优化的大规模版本进行学习。OpenAI五和早期的1 v1机器人都完全依靠自我学习进行。他们从随机参数开始,不使用来自人类的数据。
  </p>
  
  <img src=队伍2被攻陷! OpenAI五5 v5团战中战胜人类