AI向智能学习再迈进，Go-Explore新算法游戏完胜人类

一种可以在游戏中不仅打败 AI 系统，还刷新人类玩家纪录的全新 “增强学习算法” 是怎样的技术？

2 月 24 日，来自 OpenAI 和 Uber AI 实验室的研究团队在 Nature 发表了题为《先返回，再探索》（First return, then explore）的相关论文。报告了一种被叫做 “Go-Explore”—— 增强学习算法的相关研究，该成果被认为是 AI 在机器学习领域向 “智能学习体” 一次实质性的飞跃。

图丨相关论文（来源：Nature）

该算法挑战了雅达利（Atari 2600）经典游戏，包括《蒙特祖马的复仇》（Montezuma’s Revenge）和《玛雅人的冒险》（Pitfall）。实验证明，在这两款游戏中增强学习算法不仅打败 AI 系统，还刷新了人类玩家纪录，成为最终的 “领跑赢家”。

图｜“分离” 状态的图解（来源：Nature）

在探索类游戏中，过往的 AI 通常有解决探索困难及其奖励稀数的问题，并且存在欺骗性奖励。相关研究人员为了解决奖励稀疏的问题，希望智能体去探索新区域、达到新状态，通常用一种在整个环境中人为均匀地分布的方法，这种方法被称为” 内在奖励”。

如图所示，不同的颜色代表不同的区域：内在奖励由绿色区域代表，无内在奖励的区域由白色区域代表，算法当前探索中的区域由紫色区域代表。

且必须通过精心设计，奖励机制才得以实现成功，而当遇到复杂环境（如很少给予反馈）时，现阶段的增强学习算法就很容易碰壁。

图｜Go-Explore 方法概览（来源：Nature）

Go-Explore 的作用原理是：首先，相当于有一个 “档案库” 使它能记住先前访问过的状态，选择要返回的状态（a），返回有希望的状态（不进行探索）（b）；然后，从中进行探索（c），并且通过利用可靠的方法（包括通过引入确定性）；最后，通过学习找到获得最终胜利的最佳方式（包括到达特定位置以及在电脑游戏中能够达到一定的等级）。

简单来说，Go-Explore 通过优化在复杂环境的探索方式来进行决策，从而能够做到可追溯过去，并且有解决复杂任务的能力。当发现游戏挑战失败时，算法会回到游戏的另一点尝试其他方法。该算法为了确定出现问题时应返回的时间点，将看起来相似的图像分组在一起。

实践证明，Go-Explore 是一种强大而通用的探索方法，具有 “先记住，再返回” 的状态，可以在此过程中进行探索。

图｜Go-Explore 在 Atari 平台游戏中的强力表现（来源：Nature）

该软件在玩游戏时存储屏幕抓图，以记住尝试过的内容，将看起来相似的图像分组在一起，以识别游戏中应该返回的起点。

图｜Go-Explore 可以解决一个具有挑战性的、稀疏奖励的模拟机器人任务（来源：Nature）

该算法在游戏使用新的屏幕抓取来达到新的高分，更新其起点记录，来达到是尽可能多得分的目的。通常情况，Atari 游戏不允许玩家重新访问任何时间点，但研究人员使用了模仿 Atari 系统的软件的模拟器，并具有随时保存并重新加载统计信息的功能。这意味着该算法可以从任何点开始玩游戏，而不是必须从头开始。

研究团队将算法设置为玩 55 种 Atari 游戏，这已成为强化学习算法的基准。在这些游戏中，它有 85.5％的时间超过了其他 AI 系统。在蒙特祖玛的《复仇》中表现尤其出色，得分超过 43,000 分，几乎是之前成绩的 4 倍。在《玛雅人的冒险》中也刷新了人类玩家纪录，而此前的 AI 算法得分为 0。

一旦算法达到足够高的分数，研究人员便使用其提出的解决方案来复制策略并以相同的方式玩游戏，从而消除了使用仿真器重新加载保存状态的需要。由于该算法在解决每个游戏时创造了数十亿个屏幕抓图，因此这种替代方法的计算量更大。

“Go-Explore” 还可以像机器人那样完成复杂的任务，在这项任务中，它能够在用机械臂将东西抓住然后放到 4 个架子中的一个，任务的复杂性在于其中两个架子是在两扇门之后 “隐匿”。

研究人员指出，用强化学习与记忆档案相结合的方法可以用来解决更复杂的问题。“Go-Explore” 算法有望适用到到其他领域，如机器人、语言理解和药物设计。

AI向智能学习再迈进，Go-Explore新算法游戏完胜人类

4月20日，北大运动会“机器人太奶”走红，24日代理公司回应：机器人是开放平台可编程，配齐大概80万

美参议院投票通过向乌克兰和以色列援助法案

耿彦波留给大同的这块警示碑再引关注：华严寺综治犯三错，明耻彰过

内蒙古开鲁县被免职镇党委副书记学历造假？县委组织部：正调查核实，结果将及时公布

沉默的日本，衰落的国运

苏纳克宣布“有史以来最大规模军援”！英国军工业转入战时状态

上海江边多人跑步被保安拦，“你们衣服一样的！”公园：统一着装要报备，不能拍照

工商银行突然设立人民武装部，释放了什么信号？逻辑是什么？

太蹊跷！上海小区一报废车长期占据车位，车主按时、足额交停车费，投资已过万，物业很无奈

广州民政回应“哲学硕士拟聘为火化工”，殡葬业人士：薪酬没流传的那么夸张

19连跌！沪牌竞拍人数逐月下降，原因何在？

中部三省外贸失速，河南一季度手机出口减少1000万台

“准00后”的她，破格提拔为副镇长

大反转！5600亩承包费用曝光，擅自改变土地性质，转租每年赚百万

利物浦0-2埃弗顿！近3轮输2场，落后英超榜首3分，努涅斯错失单刀

杨利伟获得钱学森最高成就奖

官方回应社保缴满15年就坐等退休

被指香港金融史重大时刻华夏博时嘉实三家现货比特币、以太币ETF获批

NBA官宣年度奖项：里德当选最佳第六人击败蒙克波蒂斯成功捧杯

特斯拉在国内取消所有应届毕业生offer

AI向智能学习再迈进，Go-Explore新算法游戏完胜人类

4月20日，北大运动会“机器人太奶”走红，24日代理公司回应：机器人是开放平台可编程，配齐大概80万

美参议院投票通过向乌克兰和以色列援助法案

耿彦波留给大同的这块警示碑再引关注：华严寺综治犯三错，明耻彰过

内蒙古开鲁县被免职镇党委副书记学历造假？县委组织部：正调查核实，结果将及时公布

沉默的日本，衰落的国运

苏纳克宣布“有史以来最大规模军援”！英国军工业转入战时状态

上海江边多人跑步被保安拦，“你们衣服一样的！”公园：统一着装要报备，不能拍照

工商银行突然设立人民武装部，释放了什么信号？逻辑是什么？

太蹊跷！上海小区一报废车长期占据车位，车主按时、足额交停车费，投资已过万，物业很无奈

广州民政回应“哲学硕士拟聘为火化工”，殡葬业人士：薪酬没流传的那么夸张

19连跌！沪牌竞拍人数逐月下降，原因何在？

中部三省外贸失速，河南一季度手机出口减少1000万台

“准00后”的她，破格提拔为副镇长

大反转！5600亩承包费用曝光，擅自改变土地性质，转租每年赚百万

利物浦0-2埃弗顿！近3轮输2场，落后英超榜首3分，努涅斯错失单刀

杨利伟获得钱学森最高成就奖

官方回应社保缴满15年就坐等退休

被指香港金融史重大时刻 华夏博时嘉实三家现货比特币、以太币ETF获批

NBA官宣年度奖项：里德当选最佳第六人 击败蒙克波蒂斯成功捧杯

特斯拉在国内取消所有应届毕业生offer

被指香港金融史重大时刻华夏博时嘉实三家现货比特币、以太币ETF获批

NBA官宣年度奖项：里德当选最佳第六人击败蒙克波蒂斯成功捧杯