打开网易新闻 查看更多图片

*本文只能在《好奇心日报(www.qdaily.com)》发布,即使我们允许了也不许转载*

旧金山电 — 特斯拉首席执行官伊隆·马斯克(Elon Musk)创办了一间人工智能实验室 OpenAI。在这里,机器们正在自学如何像人类一般行事。然而有时,它们也会出问题。

最近,有一天下午,研究人员达里奥·埃莫迪(Dario Amodei)坐在 OpenAI 旧金山办公室里,展示了一款自动系统,它能够自学如何玩赛船电子游戏 Coast Runners,冲过终点线积分最高的小船即为胜者。

结果十分出人意料:电脑控制的小船对于屏幕上冒出的绿色小物块特别感兴趣。由于抓住这些小物块就能得分,它开始疯狂追逐小物块赢取积分,把努力完成比赛放到了一边。它无止境地绕圈、撞上其它小船、撞到石墙、一再着火。

杰弗里·欧文(Geoffrey Irving)(左)和达里奥·埃莫迪展示电子游戏如何训练人工智能程序。图片版权:Christie Hemm Klok/《纽约时报》

埃莫迪燃烧的小船证明,正在迅速重塑科技世界的人工智能技术存在着风险。研究人员正在制造基本上可以自学任务的机器。Google DeepMind 实验室也正是基于这一原理,创造了能够打败世界顶尖围棋选手的系统。但是,一来这些机器需要数小时的数据分析来实现自我训练,二来他们有可能通过自我学习产生意外、不必要甚至有害的行为。

随着这些技术逐渐开始进入在线服务、安全设备和机器人领域,这成为了一个值得注意的问题。现在,包括埃莫迪在内的一小群人工智能研究人员正着手探究数学技术,防止最坏的情况发生。

埃莫迪和他的同事保罗·克里斯蒂亚诺(Paul Christiano)正在 OpenAI 开发算法。利用这种算法,机器不仅能够通过数小时的试验和错误学习任务,而且学习期间还能定期获得人类教师的指导。

打开网易新闻 查看更多图片

现在,研究人员可以通过一系列点击告诉这套自动系统,在 Coast Runners 游戏中,它既需要得分,也需要朝着终点前进。他们认为,这类混合了人类和机器指导的算法将有助于确保自动系统的安全性。

OpenAI 的达里奥·埃莫迪。他和他的同事正在开发算法,让机器不仅能够通过数小时的试验和错误学习任务,而且学习期间还能定期获得人类教师的指导。图片版权:Christie Hemm Klok/《纽约时报》

多年来,马斯克和其他权威人士、思想家、技术专家一直在警告我们,机器的运转可能会超出我们的掌控,以某种方式习得它们的设计者预料之外的恶意行为。而在自动汽车系统甚至还会被辨认自行车道、辨认红绿灯等最基本的任务难倒的现如今,这些警告看上去有时似乎被过分夸大了。

不过,埃莫迪等研究人员正努力防患于未然。从某些方面来说,这些科学家在做的事有点像家长教孩子辨别别对错。

人工智能领域许多专家认为,一种名为“强化学习”的技术可能会是开发人工智能的主要途径。利用强化学习技术,机器可以通过极端试验与错误来学习特定的任务。研究人员指出,机器应该努力获得一种特定的奖励,并且按随机线路完成任务时,机器应该密切留意能带来奖励和不能带来奖励的事物。在 OpenAI 训练机器玩 Coast Runners 的案例中,奖励就是更多积分。

这种电子游戏训练对现实世界意义重大。

研究人员认为,如果有机器能够学会玩《侠盗猎车手》(Grand Theft Auto)这样的赛车游戏,那么它就能学会驾驶真实的车辆。如果它能够学会使用网页浏览器和其他常见软件应用程序,那么它就能学会理解自然语言,甚至可能还可以学会进行交谈。在 Google、加州大学伯克利分校(University of California, Berkeley)等地,机器人已经开始使用这一技术,学习捡拾物品、开门等简单任务了。

埃莫迪和克里斯蒂亚诺之所以研发加入人类指导的加强学习算法,也正是出于这一考虑。这可以确保系统不会偏离现有的任务。

最近,OpenAI 的两位研究人员和总部位于伦敦的 Google DeepMind 实验室其他研究人员一起发表了他们在这一领域的一些研究成果。这两家实验室都是世界顶尖的人工智能实验室,此前从未有过合作。他们首次共同研发的这些算法被认为是人工智能安全研究领域向前迈进的一大步。

“这证实了以前的很多猜想,”加州大学伯克利分校研究人员迪伦·哈德菲尔德-梅内尔(Dylan Hadfield-Menell)说,“这类算法给未来五到十年带来了许多希望。”

这个领域很小,但还在持续发展。OpenAI 和 DeepMind 都组建了专注研究人工智能安全问题的团队,Google 在美国的实验室 Google Brain 也不例外。与此同时,加州大学伯克利分校和斯坦纳福大学等大学的研究人员也在研究类似问题,他们通常都与大公司实验室有合作。

站着的达里奥·埃莫迪、身穿淡蓝色衬衫的保罗·克里斯蒂亚诺和杰弗里·欧文使用公共区域的白板。图片版权:Christie Hemm Klok/《纽约时报》

还有一些研究人员在研究如何确保系统不会像 Coast Runners 的小船那样自己出错。他们也在研究如何确保黑客和其他犯罪分子无法利用这些系统中的隐藏漏洞。例如,Google 的伊恩·古德费洛(Ian Goodfellow)就正在研究黑客如何误导人工智能系统识别本不存在的事物。

现代计算机视觉的开发基础,是一种名为“深度神经网络”的技术。这是一种模式识别系统,能够通过分析大量数据学习任务。一个神经网络能够通过分析成千上万张小狗照片,学会辨认小狗。Facebook 辨识快照中人脸的功能、Google Photos 应用里即时搜索图片的功能都是利用了同样的原理。

但是,古德费洛和其他研究人员证明,黑客可以改变影像,令神经网络误认为影像中包含了实际不存在的东西。比如,只要改变大象照片里的一些像素,黑客就能让神经网络把大象误认为是汽车。

当神经网络应用于安全摄像头时,这就成为了一个问题。研究人员说,只要在你脸上做一些标记,你就能迷惑摄像头,让它误认为你是别人。

“就算用一百万张人类标上标签的影像去训练一个目标识别系统,你还是可以创造出人类和机器看法 100%不一样的影像,”古德费洛说,“我们需要理解这一现象。”

另一个最令人担心的问题在于,人工智能系统未来可能会学会阻止人类关机。有这种想法的人认为,如果根据设计,机器要追求奖励,那么它可能会发现,只有在开机时才能获得奖励。这个经常被提到的威胁离我们还很遥远,不过研究人员目前已经在着手研究解决办法了。

近来,哈德菲尔德-梅内尔和加州大学伯克利分校其他研究人员发表了一篇论文,利用数学方法解决了这一问题。他们证明,如果机器被特别设计为不确定自己的奖励功能时,它就会想办法保持关机状态。这可以激励计算机接受甚至寻求人类监管。

大多数此类研究仍处在理论阶段,但是考虑到人工智能技术的迅速发展,以及它们在多个行业日益增长的重要性,研究人员认为,早些开始研究最好。

“人工智能未来到底会以多快的速度发展,这个问题还存在许多不确定因素,”DeepMind 负责监管人工智能安全研究的谢恩·列格(Shane Legg)说,“努力研究这些技术可能会被滥用的各种方法、可能会失效的各种方法以及解决这些问题的各种方法,这才是负责任的态度。”

翻译 熊猫译社 钱功毅

题图来自 Flickr

2017 THE NEW YORK TIMES

打开网易新闻 查看更多图片

喜欢这篇文章?去 App 商店搜 好奇心日报 ,每天看点不一样的。