DeepMind是一家专门开发人工智能的公司,被谷歌收购后的它风生水起,推出了他们的得意之作:AlphaGo(常常音译为阿法狗)。阿法狗一路高歌猛进,甚至击败了围棋世界冠军珂洁后,名声彻底出圈,开始向大家展现现代人工神经网络AI的风采。

而在17年左右,DeepMind就把领域触及到了游戏界,其19年推出的星际争霸2特化AI“AlphaStar”一度击败多位职业电竞选手,就算在被指出拥有AI独有的精确点击操作和全局视野而重新训练后,也轻松的打入了大师段位。

问题是,RTS这种比战略游戏大家不服AI的好伐?你AI再怎样都有操作优势,何况谁还没被电脑殴打过似得(起码我基本打不过专家电脑,更别提作弊三了)。

打开网易新闻 查看更多图片

随着时间过去,DeepMind和他们的超级AI也逐渐淡出了大家的视线,毕竟不是谁都喜欢看高科技前沿的细枝末节。

然而,就在本月末,DeepMind发布了新的视频和博客,向大家宣告:他来了,他来了,他带着自己的全新游戏AI,迈着大步走来了!

这次他们推出的可不是那种,只会下棋或者只会打星际的“针对特定任务的高度优化行为AI”,而是一个更加像玩家一样,根据经验规则进行判断从而进行游戏和取胜的AI。

据 DeepMind 称:虽然 旧AI支持围棋、将棋、国际象棋等多种游戏,但每个游戏都需要不同的学习。他们表示:“我们正在寻求一种方法来克服 AlphaZero 的局限性并开发适应性强的 AI 来代替它。”“新开发的 AI 不仅仅是针对特定任务的。这是朝着开发能够快速响应不断变化的 AI 迈出的重要一步——情况不断变化,”

而从展示视频来看,他们做到了。

这次开发的AI宗旨在从第一人称视角操作角色,学会如何在多人游戏中实现相对简单的目标。

用于学习和测试的游戏有多种包括“夺旗游戏”、“捉迷藏”、“颜色匹配”等等。夺旗模式的目标是「把黄色立方体带到指定区域」。捉迷藏游戏的目标是「远离敌人的视野」或者「保证目标在自己视野内」。颜色匹配游戏的目标是「接近同色的物体」。”而游戏本身的地图是会随机变化的,也就是说要处理每一局的特殊情况,并不能背板。

打开网易新闻 查看更多图片

第一个游戏是捉迷藏,其实就是要从对方的视野里逃出去。官方给出的视频是从顶部的第三人称俯视视角,但是AI实际能看到的只有左上角显示的游戏角色第一人称视角。

可以看到作为“鬼”的AI正在疯狂追杀逃跑方,一跃而下防止对方脱离视野。

跳起来抄近道追杀在高台上的目标。

打开网易新闻 查看更多图片

红方AI则抓住了对面没跳上高台的机会,甚至把地图上的板子丢到身后遮挡视野。

更狠的是夺旗游戏,这个模式下双方要把目标立方体带到与他们颜色相匹配的底座上。

听起来就是个竞速和互相干扰的游戏对不对?但是开发组在这个游戏的内容里增加了一条:“可以利用自己的互动光束来近战击杀对方”

众所周知,AI一向擅长找到高效解决问题的方法。而这种时候什么方法最高效就不用我说了吧?

蓝方开场方块都不管的,见面就上去一刀,当场把红方给蒸发了,然后才去慢悠悠的搬方块。

打开网易新闻 查看更多图片

然而还没来得及跑路,就被复活冲回来的红方一光束扬了,手里的方块飞出去老远。

双方就这样展开了许久的fps刀战,最后靠着这波先手优势。蓝方在不断的抢夺搬运中最后扬了红方一次,把方块搬回了自己的坡上,红方从复活点复活早已为时已晚。

至于标签嘉年华这个需要不让其他玩家站在地板上的游戏就更直球了。

诸如什么背刺绕背刺,两面夹攻,甚至还会蹲复活点和抢人头!

而在目标为触摸特定物品的游戏中,AI更是展现出了惊人的创造力,比如用板子搭斜坡,击飞其他玩家,踩其他玩家的板子上,还有把目标打下来等等,不知道的还以为是人类一败涂地PVP现场。

根据DeepMind官方的说法,他们这次提出了连续几代AI之间改进的迭代概念,而不是寻求在某个单一目标上最大优化。

训练一个在如此庞大的任务空间中表现出色的智能体是一项核心挑战,而在这方面他们发现在固定分布的训练任务上进行纯强化学习是行不通的。于是DeepMind决定动态地改变训练任务分布和训练目标,使得AI永远不会停止学习,每一次都会有新的内容学习和调整,而不是在重复作业中找到固定任务的最优解。

这种零样本泛化的例子包括在捉迷藏、夺旗和标记方面的良好表现。通过分析和手工编写的探测任务,他们记录了这些AI的行为,并发现了许多有趣的紧急启发式行为,例如试错实验、简单的工具使用、选项切换和合作。

这其实已经非常接近于人类打游戏时候的状态了,如果说之前的AI只会打背板音游或者最优路线速通这种游戏,现在他们已经会打肉鸽和各种模式下的PVP了,根据所玩游戏的规则和这把的情况来决定做什么,并且总结一些有效而优秀的泛用策略,比如什么驱虎吞狼啊,蹲比啊,卡点啊,绕后啊,守尸啊,伏地起跳魔啊,干掉竞争玩家啊。

额,兄啊,你这总结的怎么都是些老阴比招数啊!

嘶,我记得DeepMind是有和游戏运营方合作然后悄咪咪把AI匿名投入网络游戏这种操作的,此子不能留啊!不然指不定哪天在游戏里打你黑枪的其实就是尖端科技的超级AI。

不过现如今的新游戏AI还在局限于内部的对抗学习测试,其开发意义也是要在人工智能的训练方向上找到新出口,而非过来游戏里欺负本来就已经很难了的玩家们,这种能够完成复杂任务并且自己进行临场决策的AI想必将来会在更多领域发挥出作用。

而且往好处想,它们进游戏后都是高速打进大佬段位和大师PK啊!和我们有什么关系呢?我已经迫不及待想看大佬被AI蹲死了,GKD!