一种可以在游戏中不仅打败 AI 系统,还刷新人类玩家纪录的全新 “增强学习算法” 是怎样的技术?

2 月 24 日,来自 OpenAI 和 Uber AI 实验室的研究团队在 Nature 发表了题为《先返回,再探索》(First return, then explore)的相关论文。报告了一种被叫做 “Go-Explore”—— 增强学习算法的相关研究,该成果被认为是 AI 在机器学习领域向 “智能学习体” 一次实质性的飞跃。

打开网易新闻 查看更多图片

图丨相关论文(来源:Nature)

该算法挑战了雅达利(Atari 2600)经典游戏,包括《蒙特祖马的复仇》(Montezuma’s Revenge)和《玛雅人的冒险》(Pitfall)。实验证明,在这两款游戏中增强学习算法不仅打败 AI 系统,还刷新了人类玩家纪录,成为最终的 “领跑赢家”。

图|“分离” 状态的图解(来源:Nature)

在探索类游戏中,过往的 AI 通常有解决探索困难及其奖励稀数的问题,并且存在欺骗性奖励。相关研究人员为了解决奖励稀疏的问题,希望智能体去探索新区域、达到新状态,通常用一种在整个环境中人为均匀地分布的方法,这种方法被称为” 内在奖励”。

如图所示,不同的颜色代表不同的区域:内在奖励由绿色区域代表,无内在奖励的区域由白色区域代表,算法当前探索中的区域由紫色区域代表。

且必须通过精心设计,奖励机制才得以实现成功,而当遇到复杂环境(如很少给予反馈)时,现阶段的增强学习算法就很容易碰壁。

打开网易新闻 查看更多图片

图|Go-Explore 方法概览(来源:Nature)

Go-Explore 的作用原理是:首先,相当于有一个 “档案库” 使它能记住先前访问过的状态,选择要返回的状态(a),返回有希望的状态(不进行探索)(b);然后,从中进行探索(c),并且通过利用可靠的方法(包括通过引入确定性);最后,通过学习找到获得最终胜利的最佳方式(包括到达特定位置以及在电脑游戏中能够达到一定的等级)。

简单来说,Go-Explore 通过优化在复杂环境的探索方式来进行决策,从而能够做到可追溯过去,并且有解决复杂任务的能力。当发现游戏挑战失败时,算法会回到游戏的另一点尝试其他方法。该算法为了确定出现问题时应返回的时间点,将看起来相似的图像分组在一起。

实践证明,Go-Explore 是一种强大而通用的探索方法,具有 “先记住,再返回” 的状态,可以在此过程中进行探索。

图|Go-Explore 在 Atari 平台游戏中的强力表现(来源:Nature)

该软件在玩游戏时存储屏幕抓图,以记住尝试过的内容,将看起来相似的图像分组在一起,以识别游戏中应该返回的起点。

图|Go-Explore 可以解决一个具有挑战性的、稀疏奖励的模拟机器人任务(来源:Nature)

该算法在游戏使用新的屏幕抓取来达到新的高分,更新其起点记录,来达到是尽可能多得分的目的。通常情况,Atari 游戏不允许玩家重新访问任何时间点,但研究人员使用了模仿 Atari 系统的软件的模拟器,并具有随时保存并重新加载统计信息的功能。这意味着该算法可以从任何点开始玩游戏,而不是必须从头开始。

研究团队将算法设置为玩 55 种 Atari 游戏,这已成为强化学习算法的基准。在这些游戏中,它有 85.5%的时间超过了其他 AI 系统。 在蒙特祖玛的《复仇》中表现尤其出色,得分超过 43,000 分,几乎是之前成绩的 4 倍。在《玛雅人的冒险》中也刷新了人类玩家纪录,而此前的 AI 算法得分为 0。

一旦算法达到足够高的分数,研究人员便使用其提出的解决方案来复制策略并以相同的方式玩游戏,从而消除了使用仿真器重新加载保存状态的需要。由于该算法在解决每个游戏时创造了数十亿个屏幕抓图,因此这种替代方法的计算量更大。

“Go-Explore” 还可以像机器人那样完成复杂的任务,在这项任务中,它能够在用机械臂将东西抓住然后放到 4 个架子中的一个,任务的复杂性在于其中两个架子是在两扇门之后 “隐匿”。

研究人员指出,用强化学习与记忆档案相结合的方法可以用来解决更复杂的问题。“Go-Explore” 算法有望适用到到其他领域,如机器人、语言理解和药物设计。