周六晚直播·大语言模型与多智能体系统读书会

导语

“”第七期，将在本周六晚上7点开始分享。我们荣幸地邀请到了来自清华大学的梁添，以及来自罗格斯大学的华文越，他们将围绕“多智能体辩论与交互探索”以及“LLM时代的兵棋推演”，为我们带来精彩的分享和深入的讨论。

梁添将介绍他在多智能体辩论（MAD）框架方面的研究成果。通过探索大型语言模型在复杂推理任务中的“思维退化”问题，梁添提出的MAD框架在常识性机器翻译和反直觉算术推理等挑战性数据集上显示出显著成效。此外，他还将分享如何通过真实桌游场景评估大模型，以及在复杂交流情况下对LLMs的类人认知能力和适应性进行更全面的评估。他的工作不仅推动了智能体交互的研究，也为理解大语言模型的智能极限提供了新的视角。

华文越则将从兵棋推演的角度，探讨如何利用大型语言模型驱动的智能体来模拟战争爆发和战争过程。通过构建WarAgent和BattleAgent，华文越的研究团队模拟了参与国家、它们的决策以及历史国际冲突中的结果，为我们提供了一个全新的角度来理解集体人类行为，尤其是在国际冲突的背景下。他的分享将涵盖智能体之间的互动、多轮对话处理，以及军队智能体的决策过程，为我们展示了人工智能在历史分析和冲突解决中的潜力。

在这次读书会中，我们将深入讨论大语言模型、智能体系统、反思、辩论、心智理论以及人机交互等多个关键概念。请大家准备好问题和想法，与我们的嘉宾一起探索多智能体系统的奥秘，以及它们如何影响我们的未来。期待在这次的讨论中碰撞获得新的见解和灵感！

分享内容简介

大型语言模型在一般语言任务上表现出了显著的性能，但在复杂推理任务上仍然存在挑战。现有典型的策略是自我反思，它要求LLM通过自身生成的反馈迭代地改进解决方案，然而，我们的研究表明，这种反思风格的方法存在“思维退化”问题：一旦LLM认定了其最初始的答复，即使改答案是错误的，它也很难通过反思在后期产生新的想法。为了解决“思维退化”问题，我们提出了一个多智能体辩论（MAD）框架，在两个具有挑战性的数据集上，常识性机器翻译和反直觉算术推理，实验结果证明了MAD框架的有效性。同时，为了进一步探索大语言模型的智能极限，我们引入真实桌游场景进行评估各系列大模型，具体来说，我们通过建模“谁是卧底”这个语言类桌游，探索与大模型伪装和推理相关的心智能力（ToM），为LLMs在复杂交流情况下的类人认知能力和适应性提供了更全面的评估。

我们能否在历史的交叉路口避免战争？这个问题一直被个人、学者、政策制定者和组织在人类历史上追求。在这项研究中，我们试图基于最近大型语言模型和视觉语言模型的进展来回答这个问题。我们提出了WarAgent来模拟战争爆发和BattleAgent来模拟战争过程。它们利用LLM和VLM驱动的多智能体人工智能系统来模拟参与国家、它们的决策以及历史国际冲突中的结果。通过评估模拟效果，我们检验了最先进人工智能系统在研究复杂的集体人类行为（如在多种设定下的国际冲突）方面的优势和限制。在这些模拟中，智能体之间的新兴互动也提供了一个新的角度，用于检查导致战争的触发器和条件。我们的发现提供了数据驱动和人工智能增强的见解，这些见解有可能重新定义我们处理冲突解决和维和策略的方式。其影响超出了历史分析，为使用人工智能理解人类历史并可能预防未来国际冲突提供了一个蓝图。

分享内容大纲

多智能体辩论与交互探索

工作背景和动机
- 语言模型智能评估
- 大语言模型与多智能体
多智能体辩论
- Multi-Agent Debate Framework
- Challenging Testbeds
- Experiments and Analysis
多智能体桌游
- SpyGame Framework
- Model Bias
- Theory-of-Mind
工作总结与未来展望多智能体协作

LLM时代的兵棋推演

工作背景和动机
- 什么是兵棋推演
- 语言模型驱动的智能体
- 智能体模拟兵棋推演的优势
WarAgent框架介绍
- 国家智能体之间的互动
- 国家内部的互动
- 多轮对话如何处理
BattleAgent框架介绍
- 军队智能体之间的演变与互动
- 军队智能体与地形的互动
- 军队的决策
实验分析和总结

主讲人介绍

梁添，清华大学深圳国际研究生院2021级硕士生，导师为杨余久。研究兴趣包括大语言模型、智能体协作、自然语言处理。

华文越，罗格斯大学，新布朗斯维克分校，导师：张永锋老师，方向：LLM，llm-based agent

论文：ICLR, NeurIPS, ACL, EMNLP, TACL, EACL

评审：ARR/EMNLP/SIGIR/WWW/WSDM/RecSys/TORS

主页：https://wenyueh.github.io/

主持人介绍

主要涉及到的参考文献

[1] Liang, T., He, Z., Jiao, W., et al., 2023. Encouraging divergent thinking in large language models through multi-agent debate. arXiv preprint arXiv:2305.19118.

[2] Liang, T., He, Z., Huang, J.T., et al., 2023. Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models. arXiv preprint arXiv:2310.20499.

直播信息

时间：

2024年 4月20日（本周六）晚上19:00-21:00

扫码参与，加入群聊，获取系列读书会回看权限，成为种子用户，与社区的一线科研工作者与企业实践者沟通交流，共同推动多智能体这一前沿领域的发展。

报名成为主讲人

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员，均遵循内容共创共享机制，可以获得报名费退款，并共享本读书会产生的所有内容资源。具体见系列读书会详情：

大模型与多智能系统体社区招募中

集智俱乐部携手西湖大学工学院特聘研究员赵世钰、浙江大学教授任沁源、鹏城实验室高级工程师崔金强，共同发起了「大语言模型与多智能体系统」读书会。

在本次读书会中，我们将讨论大模型与智能体的相关话题，内容涵盖大语言模型赋能下智能体之间的辩论、协作、模拟人类，以及实际场景中的多机器人协作等问题。我们已邀请到多名科研前沿学者进行分享，包括郭泰成、李国豪、钱忱、王镇海龙、徐玉庄、杨宗瀚、刘子君、Hongxin Zhang、张锦添、董益宏、梁添、Yilun Du等，更多话题仍然在不断的招募补充中，如果您对大模型与多智能体系统感兴趣，欢迎加入我们，可以来做分享，也可以来交朋友，最重要的是一起来学习！

特别致谢单位

此次活动特别鸣谢Datawhale、Agents42。

Datawhale

一个专注于AI领域的开源组织，汇聚了众多优秀学习者，使命for the learner，和学习者一起成长。

Agents42

一个致力于推进AI Agents产学研融合及创新的生态开放平台。

周六晚直播·大语言模型与多智能体系统读书会

可以互相交谈的人工智能来了

「代理人战争」！微软、OpenAI 、谷歌、Meta用AI Agent疯狂搞钱

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

GPT-4 更强的标志，原来藏在了 logo 里

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

2024投什么？先来看看人形机器人吧｜钛媒体创投家

“离谱的AI扩图”火了！张张那叫一个出其不意

Mamba架构第一次做大！混合Transformer，打败Transformer

Agent4Rec来了！大模型智能体构成推荐系统模拟器，模拟用户行为

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

老板塞给我一个AI新同事，一周后：真香

新一代注意力机制Lightning Attention-2：无限序列长度

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

Kimi大模型：优势明显，但是一场烧钱的游戏

外交发言频繁使用“甩锅”，真的合适吗？

不吐不快：姚主持人被网暴，谁应该出来发声？

花了2500亿！被迫“憋尿”的出国游，逼疯中国游客

陕西一男子花62元买彩票中1.48亿元

你可以骗我，但请注意次数！

周六晚直播·大语言模型与多智能体系统读书会

可以互相交谈的人工智能来了

「代理人战争」！微软、OpenAI 、谷歌、Meta用AI Agent疯狂搞钱

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

GPT-4 更强的标志，原来藏在了 logo 里

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

2024投什么？先来看看人形机器人吧｜钛媒体创投家

“离谱的AI扩图”火了！张张那叫一个出其不意

Mamba架构第一次做大！混合Transformer，打败Transformer

Agent4Rec来了！大模型智能体构成推荐系统模拟器，模拟用户行为

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

老板塞给我一个AI新同事，一周后：真香

​新一代注意力机制Lightning Attention-2：无限序列长度

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

Kimi大模型：优势明显，但是一场烧钱的游戏

外交发言频繁使用“甩锅”，真的合适吗？

不吐不快：姚主持人被网暴，谁应该出来发声？

花了2500亿！被迫“憋尿”的出国游，逼疯中国游客

陕西一男子花62元买彩票中1.48亿元

你可以骗我，但请注意次数！

新一代注意力机制Lightning Attention-2：无限序列长度