CVPR 2021 文章专题

第·14·期

来自蒙纳士大学,中山大学和暗物质能研究机构的研究人员提出了一种全新的基于Transformer结构的多智能体学习方法,通过策略解耦,使得多智能体学习可以使用固定网络参数解决动态任务,并使策略具备极高的可迁移性与可解释性。该研究创新地使用额外的token替代了循环结构中的隐藏状态(hidden state),使Transformer结构与传统的循环神经网络(GRU,LSTM)一样具备处理时序信息的能力。经过验证,最佳结构(UPDeT)在主流的多智能体任务SMAC的困难任务(不公平竞争)上,取得超过SOTA百分之四十到八十的胜率增益。在不同任务之间的知识迁移上,相比传统结构,获得了十倍以上的迁移速度提升,部分任务之间实现了无需微调的完美迁移。此外,该结构可结合任意已有多智能体强化学习算法,实现即插即用

此工作已被ICLR 2021接收为spotlight(short oral)

打开网易新闻 查看更多图片

论文链接: https://openreview.net/forum?id=v9c7hr9ADKx 代码: https://github.com/hhhusiyi-monash/UPDeT

一、多智能体协作与学习问题

深度强化学习(DRL)的兴起为众多领域注入了活力,其中多智能体系统(Multi-agent System)在近几年越来越引起了研究者们的兴趣。其中最值得关注的,也在近期取得了较大的性能突破的领域便是基于协作的多智能体策略优化算法。为了简化问题,一个很好的测试基准是基于星际争霸II建立的多单位协作对抗环境(SMAC),该游戏提供了丰富而弹性的测试环境和标准的度量,易于算法开发和扩展。该项研究均基于SMAC环境进行比较和实验。

二、Transformer结构的流行

与多智能体学习的结合

近段时间Transformer的跨界成为了潮流,不断在图像分类,语义分割,目标检测等领域取得突破,但Transformer与强化学习(RL)的结合却未被深入研究。作者在多智能体强化学习问题中,创新地使用基于Transformer的结构取代了传统基于时序的GRU/LSTM结构,同时设计了输入与输出间的解耦策略,充分利用了attention机制来学习不同智能体对应状态间的观测关系,同时保证策略可以在不同任务(不同观察值与动作空间维度)灵活切换且不需要添加/减少额外的网络参数,而这个方案使得多智能体在不同任务间学习到的策略差异,从参数结构的不同缩小到了仅仅为参数值变化,极大减小了任务间迁移的难度。

三、相比经典的RNN结构

新设计的UPDeT结构使得多智能体协作策略的学习具备三个明显的优势

1. 无动作空间限制

2. 多任务并行,新任务可随时加入且无需改变网络结构

3. 强可解释性。

UPDeT结构可帮助智能体在单个任务下学习到更为优秀的协作策略,作者在研究中指出,UPDeT学习到的策略不仅在单任务性能上优于传统RNN结构,同时可以在多任务学习中发挥强大的迁移与泛化能力,部分任务间可以做到完美迁移(目标任务上无微调百分百胜率),迁移与泛化的能力相比传统RNN展现出极大优势。最后,作者指出UPDeT结构可以有效结合任何已有的多智能体强化学习算法,并帮助已有的算法取得明显的性能提升。

打开网易新闻 查看更多图片

四、实验部分

实验:困难任务上的高胜策略+即插即用

单任务下性能比较:

(a)采用不同Transformer结构变体的性能,橘色线(UPDeT)为最佳结构

(b)采用不同隐藏状态表征时序的结构性能,蓝色线为最佳结构,同时证明隐藏状态信息在POMDP问题中的重要性

(c)采用不同主流MARL算法下的UPDeT与GRU性能比较,UPDeT为实线

(d)(e)简单与困难场景下的UPDeT与GRU性能比较,UPDeT为实线

(f)解耦合策略对UPDeT结构的重要性,最佳策略为橘色线(UPDeT)

实验:快速的任务间迁移/策略泛化

多任务间性能比较:

作者在该实验中展现了UPDeT在多智能体策略学习中的强大迁移性能。其中在7 Marines 作为源任务的实验中,取得了在目标任务上接近百分之百胜率的迁移性能,相比于传统RNN结构和直接训练的方法,取得了明显优势。

更多的实验和方法细节请参考文章。

Illustrastion by Dmitry Nikulnikov from Icons8

- The End -

CVPR 2021 论文解读 ●●

| SensatUrban: 城市规模点云数据集

// 2

| 上交和国科大提出DCL: 旋转目标检测新方法

// 3

| TPCN 点云就是这么美妙

| 机器学习与传统算法融合的图相似度求解

// 5

| 图森未来团队提出LiDAR R-CNN:一种快速、通用的二阶段3D检测器

// 6

|动态slimmable网络:高性能的网络轻量化方法!对比slimmable涨点5.9%!

// 7

| VSPW: 首个多场景大规模视频语义分割数据集

// 8

| 图森未来与中科院自动化所提出GMTracker:一种基于图匹配的多目标跟踪方法

// 9

| SpinNet: 学习用于3D点云配准的强泛化能力的特征描述子

// 10

| RegDA:针对无监督关键点检测的回归域自适应方法

// 11

| 都柏林圣三一大学和字节新工作ACTION-Net:一种高效、即插即用的动作识别模块

// 12

| 大连理工大学卢湖川团队提出TransT: Transformer Tracking

// 13

| DisAlign: 面向多种长尾视觉任务的统一框架

本周上新!扫码观看~

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看更多图片

点击右上角,把文章分享到朋友圈