点击蓝字关注我们吧~

打开网易新闻 查看更多图片

(图源:nature)

  • 彭涛薛永红供稿

许多潜在应用中,人工智能(AI)需要做出实时决策。比如在赛车游戏中,车手必须在挑战车辆极限性能的同时,进行复杂的战术操作。

近日,《Nature》杂志封面论文介绍了AI赛车手GT sophie,研究人员使用深度强化学习训练GT sophie,在赛车游戏GT Sport中击败4名世界冠军级别的人类玩家。研究人员表示,这项研究结果可以改进 模拟驾驶系统( 用于培训司机 ) ,也可以应用于无人机和自动驾驶等系统 。

AI击败人类顶级玩家

在宫园拓真(TAKUMA MIYAZONO)4岁时,他的父亲把当时非常逼真的赛车游戏GT Sport 4带回家,宫园拓展真从此便迷上了赛车游戏。 2020年(16年后),他成为GT Sport游戏的世界冠军并赢得“三冠王”。

在此之前,宫园拓真从未遇到过像GT sophie这样实力强劲的赛车手,他对GT sophie的游戏表现赞叹有加: “Sophy的速度非常快,圈速比最佳人类车手的预期都要好,有些操作简直不可思议。 ”

打开网易新闻 查看更多图片

(图源:CLIVE ROSE/GRAN TURISMO/GETTY IMAGES)

近年来,电子游戏成为AI研究的重要沙盒。对AI来说,GT Sport是新挑战。与象棋和围棋等棋类游戏不同,GT Sport需要玩家保持持续判断和快速反应;甚至 比星际争霸、或Dota等即时战略游戏更 复杂 ,更需要具备挑战性的驾驶技巧。

GT Sport王牌玩家必须把虚拟汽车的性能推向极限,在汽车性能、空气动力学、精确的驾驶路线,以及在游戏规则下是否需要犯规之间取得平衡。

超现实模拟器

GT Sophy由索尼AI、Polyphony Digital(PDI)和索尼互动娱乐(SIE) 合作开发, 设计初衷是与顶级游戏玩家竞争,提高他们的游戏体验。

GT Sport是Polyphony Digital为PlayStation®4开发的驾驶模拟器,GT Sport尽可能逼真地再现真实世界的赛车环境,包括赛车、赛道,甚至空气阻力和轮胎摩擦等物理现象。PDI提供了对必要API的访问,以便在终极模拟环境中训练GT Sophy。

(图源:gran-turismo)

GT Sport配备了现实赛车比赛中获得的车辆动力学数据,汽车的性能在很多方面都得到了逼真的再现,比如空气阻力、轮胎摩擦、悬挂运动引起的方向变化等。在汽车制造商的指导下,精确再现了汽车的细节,从车身曲线到车身面板之间的间隙宽度,再到转向灯和前灯的形状。

GT Sport与FIA(国际汽车联合会)合作设计,在全球拥有超过400000人的电子竞技社区,有相对公平的比赛环境,以及明确的规则和评判标准。

打开网易新闻 查看更多图片

强化学习技术

强化学习(RL)是一种机器学习,用于训练AI如何采取行动,根据导致的结果奖励或惩罚这些行动 。AI如何与其环境进行交互呢?AI在游戏世界中采取行动得到奖励或惩罚,并收到更新的世界状态描述,以决定它的下一个行动(如下图)。

(图源:gran-turismo)

Sony AI的研究人员研发强化学习技术,包括新训练算法Quantile-Regression Soft Actor-Critic(QR-SAC),即 可被AI理解的赛车规则编码。

RL特别适合训练AI游戏选手,RL开发的AI游戏选手会考虑其行为的长期影响,并且可以在学习期间独立收集数据,避免研究人员手动编码复杂的行为规则。处理类似GT Sport的复杂赛车游戏需要更加先进的技术——深度强化学习 (deep RL)。

近年来,deep RL训练的AI在围棋、街机游戏、国际象棋、日本将棋等复杂策略游戏,以及实时多人策略游戏中的表现令人印象深刻。deep RL已经成为人工智能领域的流行算法。通过deep RL的训练,GT sophie掌握了赛车控制、赛车战术和赛车礼仪等重要技能。

赛车控制:QR-SAC的新算法推理GT Sophy高速动作后的各种可能结果,例如GT Sophy在极限转弯时,需要考虑各种可能出现的复杂情况。

打开网易新闻 查看更多视频
弯道极限超车、击败人类顶级玩家,索尼AI赛车手称霸赛车游戏

可以看到GT Sophy的驾驶技巧:AI驾驶汽车通过一系列弯路,直接紧贴在赛道的护栏上,但没有接触。(视频源:gran-turismo)

赛车战术:虽然GT Sophy可以独立收集数据,但训练特定技能时,需要对手处于特定位置。为解决这个问题,GT Sophy的教学包括混合情景训练,训练中专门引入专业的人类玩家陪练。这些技能培养场景帮助GT Sophy获得专业赛车技术,包括如何处理拥挤的起步、超车,甚至是防守动作 。

弯道极限超车、击败人类顶级玩家,索尼AI赛车手称霸赛车游戏

GT Sophy利用急转弯成功超越人类玩家(视频源:gran-turismo)

赛车礼仪:为帮助GT Sophy学习体育礼仪,Sony AI的研究人员找到了将书面和不成文的赛车规则编码成复杂奖励函数的方法。研究发现,有必要平衡对手的数量,以确保GT Sophy进行有竞争力的训练比赛,同时不会变得过于激进或胆怯。

弯道极限超车、击败人类顶级玩家,索尼AI赛车手称霸赛车游戏

GT Sophy在不阻塞驾驶路线的情况下超越人类玩家,并给他们留出足够的机动空间,展示公平和体育精神(视频源:gran-turismo)

分布式训练平台

分布式、异步部署和训练(DART)是基于Web的自定义平台,能使研究人员在SIE的云游戏平台的PlayStation 4控制台上训练GT Sophy,该平台由Sony AI开发。

(图源:gran-turismo)

DART允许研究人员轻松实验,在云资源可用时自动运行,并收集可在浏览器中查看的数据。此外,它还管理PlayStation 4控制台、AI计算资源和用于跨数据中心训练的GPU。该系统使Sony AI的研究团队同时运行数百个实验,探索将GT Sophy提升到新水平的技术。

打开网易新闻 查看更多图片

(图源:gran-turismo)

DART平台可以访问1000多个PlayStation 4(PS4)控制台,每个都用于收集数据以训练GT Sophy或评估训练后的版本。该平台由必要的计算组件(GPU、CPU)组成,可与大量PS4交互并支持长时间的大规模训练。

END

参考文献:

  1. https://www.nature.com/articles/s41586-021-04357-7

  2. https://www.gran-turismo.com/us/gran-turismo-sophy/technology/

征稿启事

科学媒介中心(SMC)微信公众号欢迎赐稿!

稿件内容以新近发布的国内外科研成果和科技动态、国内社会热点及相关科技话题、日常科普知识等内容为主。欢迎投稿!

愿科学媒介中心公众号能够成为媒体从业者和广大公众了解前沿科技和身边科学的一扇窗。

原创稿件一经采用,我们将奉上稿酬!

投稿邮箱:smc@cast.org.cn

优质文章尽在SMC, 快来把它设为“星标”吧