网易logo

AI研究院 | 为什么AI研究者爱玩游戏?打造模拟训练场

subtitle AI研究院05-17 07:57 跟贴 1 条

  本文系《AI研究院》栏目出品,专注人工智能行业热点与深度分析。栏目由网易智能工作室(公众号 smartman163)发起、网易杭州研究院等机构共同参与打造,每周一到周三更新。

  【网易智能讯 5月17日消息】去年,普林斯顿大学计算机科学家Artur Filipowicz遇到了一个“停车牌”难题。当时Filipowicz博士正在教车辆如何认识和解读这个世界,以期让它们能够实现完全自动驾驶。车辆所需的一个能力是能够识别停车标志。为此,他正在努力训练一个理想的算法。这种训练意味着向这种算法(或者说是运行它的电脑)展示许多不同的情况下的停止标志图片,包括新的、旧的,干净的、脏的,被卡车、建筑物遮挡住一部分的,晴天、阴雨或雾天的,白天或晚上的。

  这些照片很难从图片资料库中获取,而去实地拍摄将会是个浩大的工程。Filipowicz博士没有选择这两种方式,而是打起了“侠盗猎车手V”的主意,这是一款很受欢迎的游戏。“侠盗猎车手V”因其逼真描绘了犯罪和暴力而引起争议,但在Filipowicz博士看来这个游戏是非常理想的,因为游戏中有真实世界的停车标志。通过游戏修改软件,他“说服”了游戏软件,从游戏中分离出各种情况下的数千张停车标识照片,以提供给他的算法进行消化。

  最近一年,Filipowicz博士的停车标志项目是AI研究者(机器视觉是个重要领域)对游戏感兴趣的一个例子。电子游戏之所以受欢迎,有以下几个原因。有些人,如Filipowicz博士,使用游戏作为现实世界的模拟训练场。其他人认为,不同的游戏需要不同的认知技能,而游戏可以帮助他们了解智能可以如何被分化成更小的领域以及更易管理的模块。以这两种观点为基础,还有人认为游戏可以帮助他们开发合理的关于人工智能(甚至是天然智能)的理论。

  见习司机

  若想让这些成为现实,游戏本身往往需要被调整以便它们可以直接被另一个计算机程序所操控,而不是注视着屏幕上动作的人类玩家。例如通过附加一个被称为“Deep Drive”的软件,“侠盗猎车手V”可以从路标资源库转换为自动驾驶车辆的驾驶模拟器。这些无人驾驶车的驾驶和导航程序可以在游戏中控制车辆,这样比让驾驶软件进入实际道路操控车辆要省钱并且安全。

  游戏公司开始明白这一点。例如2015年6月,Microsoft启动了Malmo计划。这是一个基于其最近购买的广受受欢迎的“创世”类游戏“Minecraft”的AI开发平台。2016年11月,Activision Blizzard,科幻战略游戏“星际争霸II”的所有者,与控股谷歌的Alphabet旗下的AI公司DeepMind合作,宣布了类似的项目。

  接下来的一个月,经其所有者的许可,位于旧金山的由私人资助的研究小组OpenAI发布了“宇宙”。这是一个包含数百个游戏的免费软件,它的发布意味着数百个游戏将可以由适当的程序所操控。“宇宙”中的游戏范围甚广,从诸如“门户2”(基于物理的益智游戏)这类畅销的大成本游戏,到如“泡泡击打游行小马”(Bubble Hit Pony Parade)和“詹姆斯空间斑马”(James the Space Zebra)等趣味性、低成本网络游戏。

  微软推出Malmo项目的目标之一就是教会AI软件与人合作。为此,项目负责人Katja Hofman正试图利用“Minecraft”来创建一个先进的个人助理。她的目标是成为具有预测人类玩家期望,并帮助他实现的能力。虽然比现实世界简单,但“Minecraft”的复杂程度已经足以引发人们的兴趣,这使其成为一个完美的测试场。例如,Hofman博士和同事们尝试使用它来训练电脑程序,以使这些程序能与人类玩家合作来捕捉一只虚拟的猪仔。由于机器无法理解书面指示,所以必须纯粹通过观察游戏中人类玩家的动作来学习如何与人类合作。

  成为AI进入现实世界前的训练场并不是游戏唯一可以为AI做的事情。不同游戏需要不同方面能力来完成这一事实可以帮助研究人员细分人工智能领域的问题。2015年DeepMind发布了一篇文章,描述了研究人员如何训练人造神经网络——一种在一定程度上基于脑部生理结构所构建的程序–操作Atari公司在20世纪70年代和80年代发行的数十种不同游戏。ATari是一家具有开拓精神的电子游戏公司。

  有些游戏被证明比其他游戏更难被程序所掌握。有点像单人版网球游戏的“突围”(Breakout)对程序来说很容易。这个游戏的规则是用能反弹的球来打击浮在上面的砖块。玩家能做两种操作:将“球拍”向左或向右移动。失败将会立即受到惩罚(失去一个球将损失一条命)。类似地,成功立即得到奖励(每打掉一个砖块加一分)。这种简单、即时的反馈组合适用于DeepMind的神经网络。该神经网络学会了如何玩儿“Breakout”,并达到了专业人类游戏测试员能达到分数的十几倍之多。

  但有一些游戏就不那么简单了。在“蒙特苏马的复仇”(Montezuma’s Revenge)中,游戏目标是搜集埋在充满危机的金字塔内的宝藏。要做到这一点,玩家必须首先实现许多次级目标,例如找到打开门的钥匙。该游戏中的反馈就不及“突围”中的那么即时:例如在一个区域出现的钥匙可能是为了打开另一个相距很远区域里的大门的。而游戏的最终目标——找到宝藏,是之前数以千计动作积累的结果。这意味着神经网络很难发现连接其间的因果关系。与在“突围”中的大显身手相反,神经网络在“复仇”中的表现非常糟糕。

  此后,DeepMind的研究人员调整了算法,通过对探索和实验设定更大的回报值增加了系统对事物的好奇心。这使得其更有可能想出那些无法立即产生回报的好策略。这种方法并不仅仅对掌握虚拟世界里的技能有用处——它也可以被应用于真实世界:例如DeepMind的算法已被用于谷歌数据中心,在那里这些算法已经找到将能耗降低40%的方法。实际上,这样的任务是可能被看成一种游戏的。为了减少数据中心的能耗,网络系统可以调整冷却液泵的设置和负载分布状况,同时监控能源的使用情况。在这一过程中系统“得分”,其结果就越好。

  真理的化身

  目前,重新利用一个操控游戏的程序来管理数据中心的能源使用,实际上就像从头开始教这个程序一个新游戏一样。其原因是DeepMind最初的神经网络一次只会玩一个游戏。例如为了理解“突围”的玩法,它必须忘记关于“太空侵略者”(Space Invaders)的所有规则。这样的健忘症是人造神经网络的本质之一,也是将其与真正的大脑相区别之处。他们通过在全系统范围内重新调整组成神经网络的虚拟神经元之间的连接优势来学习新知识。如果改变了要学习的任务,旧的连接网络将逐渐被改写。但是现在,正如研究人员在3月份发表的一篇论文中所描述的那样,DeepMind已经掌握了克服这个问题的方法,可以让网络向真正人脑一样掌握很多不同的游戏。这一成果标志着向实现迁移性学习迈进了步。迁移性学习是指将一在一种情境下产生的行为应用在另一种情境中的能力,这是AI研究中的一个热点话题。

  像展现好奇心和延迟奖励一样,从一个任务到另一个任务的迁移性学习是人类可以毫不费力但机器却很难掌握的技能。在这里,游戏又一次在研究中发挥了重要的作用。例如,纽约大学的Julian Togelius组织了一个叫做通用视频游戏AI大赛(General Video Game AI Competition)的挑战。参赛者必须设计一个软件,这个软件要有能力玩十个软件自身和其设计者都没见过的游戏。这需要软件掌握许多技能,例如规划,探索,决策等等,并能够将这些技能应用于解决之前未曾遇到的问题上。

  即使掌握了迁移学习,创造一个有用的人工智能仍将是个包含诸多不同任务的活动。研究人员真正期待的是一个可以让研究系统化的指导理论。这一理论的候选人之一是体验认知(embodied cognition)。体验认知理论认为,智能需要完全通过经验得来,而非从零开始试图将其设计成为一个程序。

  Hofman博士尤其支持这种做法。她认为游戏是发展这一想法的完美平台。以前在20世纪80年代进行的对于体验认知的研究包括给机器人安装传感器让其通过误打误撞地试错来自主学习真实世界的运转方式。当时的研究人员用这种方法确实取得了一些成功,但是他们遇到的问题让实验变得难以操作。正如DeepMind的工作人员David Silver所记录的:“机器人齿轮、轮胎、电机,以及各种各样精密的部件。你到最后要把大量时间花在维修上。

  确保虚拟机器人无法作弊

  而游戏可以简化这个过程。虚拟世界中的虚拟机器人没有实际重量。它没有可以移动的部件,因此不需要维护。调整它,改变其规格不需要用扳手把它大卸八块。只要敲敲键盘就足够了。

  其所处环境也可以轻松改变。重设迷宫不再意味着要焊接金属片或粘合塑料墙壁。一台计算机可以一次运行数千个这样的模拟,以使大量的虚拟机器人一次又一次地尝试任务,通过一次次尝试来学习。如此大规模的学习过程,并且这一过程本身也可以被监控和理解,这样的事情利用机器是完全无法做到的。

  DeepMind的创始人Demis Hassabis认为,重要的是要确保虚拟机器人无法作弊。它们必须只能使用虚拟传感器能够收集到的信息进行导航。模拟过程必须不被窥探。如果一个机器人想要学会在“蒙特祖马的复仇”中危机四伏的金字塔里,或者是“侠盗猎车手”中虚构的洛桑托斯市中如何找到方向,那么它必须通过自己亲眼 “看”到的东西来搞清楚自己在哪里,周围在发生什么,而不能通过询问运行游戏的电脑,让电脑给予其指导来实现。这正是DeepMind在教程序们玩游戏时所采用的方法。

  用玩游戏发展AI,其合理的推论是以这种方式研究体验认知理论。这看起来也是正确的。任何年轻的智慧生物,从狗到人类,其建立对世界认识的过程都非常像通过玩游戏进行体验认知的过程。自然演变中,这一过程的实现并没有计算机的帮助。但不论是在人造环境还是在自然世界中,这种活动最重要意义就是让玩家在这一过程中为最终极的一场游戏——现实世界,做好准备。

  (英文来源/The Economists 编译/机器小易 审校/Ecale)

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
热门跟贴
打开网易新闻,查看更多跟贴
大家都在看