弯道极限超车、击败人类顶级玩家，索尼AI赛车手称霸赛车游戏

点击蓝字关注我们吧～

（图源：nature）

彭涛薛永红供稿

许多潜在应用中，人工智能（AI）需要做出实时决策。比如在赛车游戏中，车手必须在挑战车辆极限性能的同时，进行复杂的战术操作。

近日，《Nature》杂志封面论文介绍了AI赛车手GT sophie，研究人员使用深度强化学习训练GT sophie，在赛车游戏GT Sport中击败4名世界冠军级别的人类玩家。研究人员表示，这项研究结果可以改进模拟驾驶系统（用于培训司机），也可以应用于无人机和自动驾驶等系统。

AI击败人类顶级玩家

在宫园拓真（TAKUMA MIYAZONO）4岁时，他的父亲把当时非常逼真的赛车游戏GT Sport 4带回家，宫园拓展真从此便迷上了赛车游戏。 2020年（16年后），他成为GT Sport游戏的世界冠军并赢得“三冠王”。

在此之前，宫园拓真从未遇到过像GT sophie这样实力强劲的赛车手，他对GT sophie的游戏表现赞叹有加： “Sophy的速度非常快，圈速比最佳人类车手的预期都要好，有些操作简直不可思议。 ”

（图源：CLIVE ROSE/GRAN TURISMO/GETTY IMAGES）

近年来，电子游戏成为AI研究的重要沙盒。对AI来说，GT Sport是新挑战。与象棋和围棋等棋类游戏不同，GT Sport需要玩家保持持续判断和快速反应；甚至比星际争霸、或Dota等即时战略游戏更复杂，更需要具备挑战性的驾驶技巧。

GT Sport王牌玩家必须把虚拟汽车的性能推向极限，在汽车性能、空气动力学、精确的驾驶路线，以及在游戏规则下是否需要犯规之间取得平衡。

超现实模拟器

GT Sophy由索尼AI、Polyphony Digital（PDI）和索尼互动娱乐（SIE）合作开发，设计初衷是与顶级游戏玩家竞争，提高他们的游戏体验。

GT Sport是Polyphony Digital为PlayStation®4开发的驾驶模拟器，GT Sport尽可能逼真地再现真实世界的赛车环境，包括赛车、赛道，甚至空气阻力和轮胎摩擦等物理现象。PDI提供了对必要API的访问，以便在终极模拟环境中训练GT Sophy。

（图源：gran-turismo）

GT Sport配备了现实赛车比赛中获得的车辆动力学数据，汽车的性能在很多方面都得到了逼真的再现，比如空气阻力、轮胎摩擦、悬挂运动引起的方向变化等。在汽车制造商的指导下，精确再现了汽车的细节，从车身曲线到车身面板之间的间隙宽度，再到转向灯和前灯的形状。

GT Sport与FIA（国际汽车联合会）合作设计，在全球拥有超过400000人的电子竞技社区，有相对公平的比赛环境，以及明确的规则和评判标准。

强化学习技术

强化学习（RL）是一种机器学习，用于训练AI如何采取行动，根据导致的结果奖励或惩罚这些行动。AI如何与其环境进行交互呢？AI在游戏世界中采取行动得到奖励或惩罚，并收到更新的世界状态描述，以决定它的下一个行动（如下图）。

（图源：gran-turismo）

Sony AI的研究人员研发强化学习技术，包括新训练算法Quantile-Regression Soft Actor-Critic（QR-SAC），即可被AI理解的赛车规则编码。

RL特别适合训练AI游戏选手，RL开发的AI游戏选手会考虑其行为的长期影响，并且可以在学习期间独立收集数据，避免研究人员手动编码复杂的行为规则。处理类似GT Sport的复杂赛车游戏需要更加先进的技术——深度强化学习（deep RL）。

近年来，deep RL训练的AI在围棋、街机游戏、国际象棋、日本将棋等复杂策略游戏，以及实时多人策略游戏中的表现令人印象深刻。deep RL已经成为人工智能领域的流行算法。通过deep RL的训练，GT sophie掌握了赛车控制、赛车战术和赛车礼仪等重要技能。

赛车控制：QR-SAC的新算法推理GT Sophy高速动作后的各种可能结果，例如GT Sophy在极限转弯时，需要考虑各种可能出现的复杂情况。

打开网易新闻查看更多视频

弯道极限超车、击败人类顶级玩家，索尼AI赛车手称霸赛车游戏

可以看到GT Sophy的驾驶技巧：AI驾驶汽车通过一系列弯路，直接紧贴在赛道的护栏上，但没有接触。（视频源：gran-turismo）

赛车战术：虽然GT Sophy可以独立收集数据，但训练特定技能时，需要对手处于特定位置。为解决这个问题，GT Sophy的教学包括混合情景训练，训练中专门引入专业的人类玩家陪练。这些技能培养场景帮助GT Sophy获得专业赛车技术，包括如何处理拥挤的起步、超车，甚至是防守动作。

弯道极限超车、击败人类顶级玩家，索尼AI赛车手称霸赛车游戏

GT Sophy利用急转弯成功超越人类玩家（视频源：gran-turismo）

赛车礼仪：为帮助GT Sophy学习体育礼仪，Sony AI的研究人员找到了将书面和不成文的赛车规则编码成复杂奖励函数的方法。研究发现，有必要平衡对手的数量，以确保GT Sophy进行有竞争力的训练比赛，同时不会变得过于激进或胆怯。

弯道极限超车、击败人类顶级玩家，索尼AI赛车手称霸赛车游戏

GT Sophy在不阻塞驾驶路线的情况下超越人类玩家，并给他们留出足够的机动空间，展示公平和体育精神（视频源：gran-turismo）

分布式训练平台

分布式、异步部署和训练（DART）是基于Web的自定义平台，能使研究人员在SIE的云游戏平台的PlayStation 4控制台上训练GT Sophy，该平台由Sony AI开发。

（图源：gran-turismo）

DART允许研究人员轻松实验，在云资源可用时自动运行，并收集可在浏览器中查看的数据。此外，它还管理PlayStation 4控制台、AI计算资源和用于跨数据中心训练的GPU。该系统使Sony AI的研究团队同时运行数百个实验，探索将GT Sophy提升到新水平的技术。

（图源：gran-turismo）

DART平台可以访问1000多个PlayStation 4（PS4）控制台，每个都用于收集数据以训练GT Sophy或评估训练后的版本。该平台由必要的计算组件（GPU、CPU）组成，可与大量PS4交互并支持长时间的大规模训练。

END

参考文献：

https://www.nature.com/articles/s41586-021-04357-7
https://www.gran-turismo.com/us/gran-turismo-sophy/technology/

征稿启事

科学媒介中心（SMC）微信公众号欢迎赐稿！

稿件内容以新近发布的国内外科研成果和科技动态、国内社会热点及相关科技话题、日常科普知识等内容为主。欢迎投稿！

愿科学媒介中心公众号能够成为媒体从业者和广大公众了解前沿科技和身边科学的一扇窗。

原创稿件一经采用，我们将奉上稿酬！

投稿邮箱：smc@cast.org.cn

优质文章尽在SMC, 快来把它设为“星标”吧

弯道极限超车、击败人类顶级玩家，索尼AI赛车手称霸赛车游戏

外交发言频繁使用“甩锅”，真的合适吗？

牛弹琴:拜登不小心说出美国的小心思日本印度都急眼了

越闹越大！香飘飘老板接回国员工，被质疑是爱国营销，评论区沦陷

男子花62元中双色球1.48亿元，没戴头套领奖，这回大家该相信了吧

这种情况下夫妻不能合墓土葬！湖北长岭回应“强制推广公墓”争议→

驾驶员离开驾驶座让汽车“无人驾驶”？理想客服：该危险操作要坚决杜绝

决赛3比1力克印尼国羽男队时隔6年重新捧起汤姆斯杯

广交会闭幕 24.6万名境外采购商线下参会刷新纪录

越穷越光荣：1966年外国人镜头里内循环经济下的上海

俄军用中国制"高尔夫球车"运士兵不料遭密集火力覆盖

连沙漠里都“堵人了”！游客攻占多个旅游城市，本地人：最大贡献就是把景点让出来

郭宁宁任福州市委书记

乌军F-16西部升空巡逻，俄军SU-25失去保护被击落

农村两家人打群架岸上打到塘里，警察在现场都控制不住！

基建狂魔，到处豆腐渣工程，辛亏没车辆，不然又汽车压垮啦！

离岸人民币兑美元跌超200点

民政部：全面开展最低生活保障边缘家庭认定工作

五一超800万人次出入境较去年同期增长35.1%

香飘飘的嘲讽，日本人知道吗？

ST板块掀跌停潮

弯道极限超车、击败人类顶级玩家，索尼AI赛车手称霸赛车游戏

外交发言频繁使用“甩锅”，真的合适吗？

牛弹琴:拜登不小心说出美国的小心思 日本印度都急眼了

越闹越大！香飘飘老板接回国员工，被质疑是爱国营销，评论区沦陷

男子花62元中双色球1.48亿元，没戴头套领奖，这回大家该相信了吧

这种情况下夫妻不能合墓土葬！湖北长岭回应“强制推广公墓”争议→

驾驶员离开驾驶座让汽车“无人驾驶”？理想客服：该危险操作要坚决杜绝

决赛3比1力克印尼 国羽男队时隔6年重新捧起汤姆斯杯

广交会闭幕 24.6万名境外采购商线下参会刷新纪录

越穷越光荣：1966年外国人镜头里内循环经济下的上海

俄军用中国制"高尔夫球车"运士兵 不料遭密集火力覆盖

连沙漠里都“堵人了”！游客攻占多个旅游城市，本地人：最大贡献就是把景点让出来

郭宁宁任福州市委书记

乌军F-16西部升空巡逻，俄军SU-25失去保护被击落

农村两家人打群架岸上打到塘里，警察在现场都控制不住！

基建狂魔，到处豆腐渣工程，辛亏没车辆，不然又汽车压垮啦！

离岸人民币兑美元跌超200点

民政部：全面开展最低生活保障边缘家庭认定工作

五一超800万人次出入境 较去年同期增长35.1%

香飘飘的嘲讽，日本人知道吗？

ST板块掀跌停潮

牛弹琴:拜登不小心说出美国的小心思日本印度都急眼了

决赛3比1力克印尼国羽男队时隔6年重新捧起汤姆斯杯

俄军用中国制"高尔夫球车"运士兵不料遭密集火力覆盖

五一超800万人次出入境较去年同期增长35.1%