ICLR 2021 Spotlight | Transformer再下一城！多智能体强化学习获得远超SOTA的性能！

CVPR 2021 文章专题

第·14·期

来自蒙纳士大学，中山大学和暗物质能研究机构的研究人员提出了一种全新的基于Transformer结构的多智能体学习方法，通过策略解耦，使得多智能体学习可以使用固定网络参数解决动态任务，并使策略具备极高的可迁移性与可解释性。该研究创新地使用额外的token替代了循环结构中的隐藏状态（hidden state），使Transformer结构与传统的循环神经网络（GRU，LSTM）一样具备处理时序信息的能力。经过验证，最佳结构（UPDeT）在主流的多智能体任务SMAC的困难任务（不公平竞争）上，取得超过SOTA百分之四十到八十的胜率增益。在不同任务之间的知识迁移上，相比传统结构，获得了十倍以上的迁移速度提升，部分任务之间实现了无需微调的完美迁移。此外，该结构可结合任意已有多智能体强化学习算法，实现即插即用。

此工作已被ICLR 2021接收为spotlight（short oral）。

论文链接： https://openreview.net/forum?id=v9c7hr9ADKx 代码： https://github.com/hhhusiyi-monash/UPDeT

一、多智能体协作与学习问题

深度强化学习（DRL）的兴起为众多领域注入了活力，其中多智能体系统（Multi-agent System）在近几年越来越引起了研究者们的兴趣。其中最值得关注的，也在近期取得了较大的性能突破的领域便是基于协作的多智能体策略优化算法。为了简化问题，一个很好的测试基准是基于星际争霸II建立的多单位协作对抗环境（SMAC），该游戏提供了丰富而弹性的测试环境和标准的度量，易于算法开发和扩展。该项研究均基于SMAC环境进行比较和实验。

二、Transformer结构的流行

与多智能体学习的结合

近段时间Transformer的跨界成为了潮流，不断在图像分类，语义分割，目标检测等领域取得突破，但Transformer与强化学习（RL）的结合却未被深入研究。作者在多智能体强化学习问题中，创新地使用基于Transformer的结构取代了传统基于时序的GRU/LSTM结构，同时设计了输入与输出间的解耦策略，充分利用了attention机制来学习不同智能体对应状态间的观测关系，同时保证策略可以在不同任务（不同观察值与动作空间维度）灵活切换且不需要添加/减少额外的网络参数，而这个方案使得多智能体在不同任务间学习到的策略差异，从参数结构的不同缩小到了仅仅为参数值变化，极大减小了任务间迁移的难度。

三、相比经典的RNN结构

新设计的UPDeT结构使得多智能体协作策略的学习具备三个明显的优势：

1. 无动作空间限制

2. 多任务并行，新任务可随时加入且无需改变网络结构

3. 强可解释性。

UPDeT结构可帮助智能体在单个任务下学习到更为优秀的协作策略，作者在研究中指出，UPDeT学习到的策略不仅在单任务性能上优于传统RNN结构，同时可以在多任务学习中发挥强大的迁移与泛化能力，部分任务间可以做到完美迁移（目标任务上无微调百分百胜率），迁移与泛化的能力相比传统RNN展现出极大优势。最后，作者指出UPDeT结构可以有效结合任何已有的多智能体强化学习算法，并帮助已有的算法取得明显的性能提升。

四、实验部分

实验：困难任务上的高胜策略+即插即用

单任务下性能比较：

（a）采用不同Transformer结构变体的性能，橘色线（UPDeT）为最佳结构

（b）采用不同隐藏状态表征时序的结构性能，蓝色线为最佳结构，同时证明隐藏状态信息在POMDP问题中的重要性

（c）采用不同主流MARL算法下的UPDeT与GRU性能比较，UPDeT为实线

（d）(e)简单与困难场景下的UPDeT与GRU性能比较，UPDeT为实线

（f）解耦合策略对UPDeT结构的重要性，最佳策略为橘色线（UPDeT）

实验：快速的任务间迁移/策略泛化

多任务间性能比较：

作者在该实验中展现了UPDeT在多智能体策略学习中的强大迁移性能。其中在7 Marines 作为源任务的实验中，取得了在目标任务上接近百分之百胜率的迁移性能，相比于传统RNN结构和直接训练的方法，取得了明显优势。

更多的实验和方法细节请参考文章。

Illustrastion by Dmitry Nikulnikov from Icons8

- The End -

CVPR 2021 论文解读 ●●

｜ SensatUrban: 城市规模点云数据集

// 2

｜上交和国科大提出DCL: 旋转目标检测新方法

// 3

｜ TPCN 点云就是这么美妙

｜机器学习与传统算法融合的图相似度求解

// 5

｜图森未来团队提出LiDAR R-CNN：一种快速、通用的二阶段3D检测器

// 6

｜动态slimmable网络：高性能的网络轻量化方法！对比slimmable涨点5.9%！

// 7

｜ VSPW: 首个多场景大规模视频语义分割数据集

// 8

｜图森未来与中科院自动化所提出GMTracker：一种基于图匹配的多目标跟踪方法

// 9

｜ SpinNet: 学习用于3D点云配准的强泛化能力的特征描述子

// 10

｜ RegDA：针对无监督关键点检测的回归域自适应方法

// 11

｜都柏林圣三一大学和字节新工作ACTION-Net：一种高效、即插即用的动作识别模块

// 12

｜大连理工大学卢湖川团队提出TransT: Transformer Tracking

// 13

｜ DisAlign: 面向多种长尾视觉任务的统一框架

本周上新！扫码观看~

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

ICLR 2021 Spotlight | Transformer再下一城！多智能体强化学习获得远超SOTA的性能！

4月20日，北大运动会“机器人太奶”走红，24日代理公司回应：机器人是开放平台可编程，配齐大概80万

媒体：布林肯应约来访这次和上一次的访问明显不同

世界范围内的军备竞赛已成定局了吗？

沉默的日本，衰落的国运

太蹊跷！上海小区一报废车长期占据车位，车主按时、足额交停车费，投资已过万，物业很无奈

上海江边多人跑步被保安拦，“你们衣服一样的！”公园：统一着装要报备，不能拍照

利物浦0-2埃弗顿！近3轮输2场，落后英超榜首3分，努涅斯错失单刀

干部阻拦春耕最新进展：让敛钱人被扒出，纪云浩部队照惹质疑

广州民政回应“哲学硕士拟聘为火化工”，殡葬业人士：薪酬没流传的那么夸张

被指香港金融史重大时刻华夏博时嘉实三家现货比特币、以太币ETF获批

19连跌！沪牌竞拍人数逐月下降，原因何在？

特斯拉在国内取消所有应届毕业生offer

美太空司令：中国利用太空能力提高地面部队的杀伤力

大反转！5600亩承包费用曝光，擅自改变土地性质，转租每年赚百万

济南大学回应学生因悬挂床帘被警告处分：正核实情况

布林肯对所谓中方"非市场经济行为"提关切外交部回应

官方回应社保缴满15年就坐等退休

卢卡申科当选为白俄罗斯第七届全国人民大会主席

苹果手机输入“发现石油”会自动定位？记者实测：安卓也这样

文旅订单大增，北京领衔“五一”热门目的地

ICLR 2021 Spotlight | Transformer再下一城！多智能体强化学习获得远超SOTA的性能！

4月20日，北大运动会“机器人太奶”走红，24日代理公司回应：机器人是开放平台可编程，配齐大概80万

媒体：布林肯应约来访 这次和上一次的访问明显不同

世界范围内的军备竞赛已成定局了吗？

沉默的日本，衰落的国运

太蹊跷！上海小区一报废车长期占据车位，车主按时、足额交停车费，投资已过万，物业很无奈

上海江边多人跑步被保安拦，“你们衣服一样的！”公园：统一着装要报备，不能拍照

利物浦0-2埃弗顿！近3轮输2场，落后英超榜首3分，努涅斯错失单刀

干部阻拦春耕最新进展：让敛钱人被扒出，纪云浩部队照惹质疑

广州民政回应“哲学硕士拟聘为火化工”，殡葬业人士：薪酬没流传的那么夸张

被指香港金融史重大时刻 华夏博时嘉实三家现货比特币、以太币ETF获批

19连跌！沪牌竞拍人数逐月下降，原因何在？

特斯拉在国内取消所有应届毕业生offer

美太空司令：中国利用太空能力提高地面部队的杀伤力

大反转！5600亩承包费用曝光，擅自改变土地性质，转租每年赚百万

济南大学回应学生因悬挂床帘被警告处分：正核实情况

布林肯对所谓中方"非市场经济行为"提关切 外交部回应

官方回应社保缴满15年就坐等退休

卢卡申科当选为白俄罗斯第七届全国人民大会主席

苹果手机输入“发现石油”会自动定位？记者实测：安卓也这样

文旅订单大增，北京领衔“五一”热门目的地

媒体：布林肯应约来访这次和上一次的访问明显不同

被指香港金融史重大时刻华夏博时嘉实三家现货比特币、以太币ETF获批

布林肯对所谓中方"非市场经济行为"提关切外交部回应