打开网易新闻 查看更多图片

导语

我们能否在历史的十字路口避免战争?整个人类历史上的个人、学者、政策制定者和组织一直在追寻这个问题。在复杂系统研究领域,通过兵棋推演、多主体仿真等技术模拟战争过程,是长期的课题。尤其在大语言模型等人工智能技术变革的驱动下,建模方法正在从传统的以规则驱动的多主体仿真,迈向具有自主感知决策、自学习自适应的多智能体仿真。近期美国密歇根大学与罗格斯大学的研究团队,通过开发名为WarAgent的多智能体人工智能系统,模拟了历史上国际冲突中(第一次世界大战等)各国的决策和后果。通过评估模拟的准确性,研究人员试图检验先进的人工智能系统在研究复杂集体人类行为(如国际冲突)方面的能力和限制。在这些模拟中,智能体之间的涌现互动行为,为研究引发战争的因素和条件提供了新的视角。研究结果提供了基于数据和人工智能增强的洞察,可以帮助革新解决冲突和维持和平策略的方法。


集智俱乐部「」本周六邀请到论文作者、罗格斯大学的华文越从兵棋推演角度,探讨如何利用大型语言模型驱动的智能体来模拟战争爆发和战争过程,同时清华大学的梁添将介绍“多智能体辩论与交互探索,欢迎感兴趣的朋友一起讨论交流,详情见文末。

研究领域:人工智能,多智能体模拟,大语言模型

Wenyue Hua, Lizhou Fan, Lingyao Li, Kai Mei, Jianchao Ji, Yingqiang Ge, Libby Hemphill, Yongfeng Zhang| 作者

刘培源| 译者

论文题目: War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars 论文地址: https://arxiv.org/abs/2311.17227

目录

一、引言

二、相关背景工作

三、WarAgents模拟设置

四、WarAgent架构

五、智能体互动的设计

六、实验设计

七、模拟效果评估

八、战争导火索评估

七、战争必然性的探讨

十、讨论与展望

一、引言

随着人工智能领域的迅猛发展,特别是大语言模型的突破性进展,我们正处于计算社会科学研究的一个重要转折点。在本研究中,我们提出了一种创新的框架,基于大语言模型的多智能体系统(LLM-based Multi-Agent System,agent也称主体,本文译为智能体) ,专门用于模拟历史事件。我们的系统构建一个动态环境,包含代表不同国家的智能体。这些智能体可以模拟历史人物的特征和决策过程。它们参与冲突或合作,帮助我们探索塑造国际冲突演变的各种可能性。我们的模拟提供了一种以多个角度探索与人类安全和战争密切相关的历史难题的新途径。

冲突与合作之间的微妙平衡常常难以预测,受到国家的不同动机、策略和决策的影响。传统的历史分析方法虽然在研究冲突方面具有见解,但由于其静态性和事后偏见的局限,其应用受到限制。在社会科学领域,模拟历史的应用已有悠久历史,然而,随着计算能力和模型的不断发展,这些模拟的真实度和范围发生了巨大的变化。

早期的尝试通常受到计算能力和简化模型的限制。相比之下,最新的模拟方法利用了大语言模型来模拟复杂的行为和互动。例如,有人类行为虚拟小镇模拟、狼人游戏模拟、拍卖场模拟以及复杂任务解决模拟。这些方法为利用人工智能模拟更为复杂的系统 (如国际关系和冲突) 奠定了基础。这项研究旨在构建第一个基于大语言模型的历史事件多智能体系统模拟。

我们分别研究模拟了一战、二战和中国战国时期,以获得关于国际冲突动力学的深入洞察。论文中主要以一战为例进行了分析讨论,对二战和中国战国未作详尽分析。

在对传统对历史冲突的理解方面,我们具体研究了三个关键问题:

研究问题1,模拟效果:基于大语言模型的多智能体系统能否有效地复制历史战略规划和决策过程的演变?

研究问题2,战争导火索:某些引发战争的触发因素是否比其他因素更为关键?我们能否通过基于大语言模型的多智能体系统模拟来识别这些因素?

研究问题3,战争必然性:历史的必然性是否真的是不可避免的?我们试图通过基于大语言模型的多智能体系统模拟来揭示导致战争 (或和平) 的条件。

打开网易新闻 查看更多图片

图1 第一次世界大战模拟示意图

二、相关背景工作

1.多智能体模拟

多智能体系统的最新发展为人工智能研究开辟了新途径。这些系统协调和沟通多个智能体,进而可以研究多智能体之间涌现的社会化通信。

目前的多智能体系统领域可以大致分为三种类型:增强推理系统、NPC (非玩家角色) 多智能体系统和生产增强系统。

在增强推理系统方面,已经有一些值得关注的新工作。LLM-Debate模型引入了辩论的概念,使智能体能够获得来自同行的回应。当这些回应与智能体自身的判断不一致时,会发生“心理”层面的辩论,从而得出更精细的解决方案。ChatEval模型建立了基于角色扮演的多智能体裁判团队。通过自发的辩论,智能体会评估大模型生成的文本质量,最终达到与人类评估者相媲美的水平。Corex模型包含了辩论、评论和检索等多种协作模式,共同增强推理过程的准确性、可信性和可靠性。这些范式推动发展了“与具体任务无关”的通用方法,使大模型能够“跳出框架思考”,从而克服幻觉并提供更好的解决方案。例如在MAD (Multi-Agent Debate) 框架中,多个智能体在大模型的监督下进行“以牙还牙”式的辩论交流,引导讨论走向一个确定的解决方案。

NPC多智能体系统领域也取得了显著的进展。生成式智能体 (Generative Agents) 是对人类行为的可信模拟,用于交互应用。相关研究通过在一个类似《模拟人生》游戏的沙盒环境中放置25个智能体,来展示生成式智能体的能力。用户可以观察和干预智能体在规划日常活动、分享新闻、建立关系和协调团体活动等方面的行为。类人智能体 (Humanoid Agents) 是另一种系统,它通过引入系统1 (心理学中的快思考) 处理的三个元素 (基本需求,如饥饿、健康和能量;情感;关系亲密度) 来指导生成式智能体更接近人类行为。GPT-Bargaining框架研究了大模型是否可以通过相互进行讨价还价式的博弈,并结合来自人工智能评估者的自然语言反馈,来自主改进其谈判技巧。

生产增强系统的案例包括:MetaGPT——基于多智能体对话框架的专用大语言模型应用,用于自动软件开发。它通过为GPT分配不同的角色,实现协作开发软件应用程序。BOLAA——建立在多个协作智能体之上的控制模块,用于实现多个智能体之间的选择和通信。它促进了智能体之间的协作,以提升系统的性能。OpenAGI——结合了大语言模型和各种工具的多个复杂任务解决智能体系统。它利用大语言模型和其他工具的能力,解决各种复杂任务。CHATDEV——创新的软件开发框架,利用智能体来增强软件开发过程中各种角色之间的协作。它提升了软件开发过程中不同角色之间的协作效率。

目前已经应用的多智能体系统展示了它们的实际效用。BabyAGI框架使用多个基于大语言模型的智能体进行任务管理,例如一个智能体根据前一个智能体任务的目标和结果创建新任务,一个智能体用于对任务列表进行优先排序,以及一个智能体用于完成任务或子任务。AgentVerse是一个多功能框架,帮助研究人员快速创建定制的基于大语言模型的多智能体模拟。Camel是一个智能体对话框架。它展示了如何利用角色扮演让聊天智能体之间相互沟通以完成任务。该框架记录智能体之间的对话从而进行行为分析和能力理解,通过启发式技术实现了智能体之间的自主合作。

2.传统的历史模拟工具

历史模拟的学术研究经历了几个阶段:人类模拟、人类-程序混合模拟和计算机模拟。

Dickson在教育场景中模拟了美国参与第一次世界大战的过程。这种教学方法让学生扮演美国各州的代表角色,考虑到各州的经济状况、社会地位和政治生态等因素。通过这种角色扮演的练习,学生更深入地了解了导致美国参与第一次世界大战的事件和情况。

在20世纪60年代,人类-程序混合系统得到了发展。Inter-Nation Simulation模型被应用于各种研究,在模拟国际冲突方面起着关键作用。该方法将人类决策与计算机相结合,创建了一个动态的混合模拟环境。通常,模拟涵盖5个或更多国家,每个国家的政府由参与者扮演不同的决策角色来代表。模拟按照时间段划分,每段时间为50到70分钟,期间这些决策者战略性地分配各自国家的军事、消费和自然工业资源。这些资源在国内和国际情境中具有不同的用途。参与者必须在有效管理资源的同时,对内部事务做出关键决策,包括经济增长、政府稳定、国防战略和研发计划等。在国际舞台上,模拟国家参与各种活动,如组建联盟、谈判贸易协议或援助、进行不同形式的对外行动,并参与国际组织。

21世纪初,计算能力的快速发展推动了新一代历史模拟工具创新。Army One半自动化部队的OneSAF目标系统,是美国陆军一种先进的计算机生成部队模拟工具,用于模拟从个体到旅级别的各种操作、系统和控制过程。它专为模拟战术层面的联合武装地面战而设计。Kelly等人使用OneSAF模拟了历史上的陆地战争战役,涵盖不同时期的车辆和步兵的武器、防御能力和机动能力。Hill等人提出了一个基于Java的模拟系统,结合了基于智能体的建模和博弈论,用于分析二战期间比斯开湾的潜艇战。使用Java编写,可以利用其多线程能力 (多线程并行处理,正是多智能体模型的关键特性) 。

本文的研究,是在使用多智能体建模方法来模拟历史事件轨迹方面的首次尝试。

三、WarAgents模拟设置

在这一部分,我们首先介绍了三个重要的历史事件:第一次世界大战、第二次世界大战和古代中国战国时期。这些事件为我们的多智能体模拟研究提供了背景。接下来,我们将介绍模拟系统的基本设置,包括对国家智能体角色的定义,详细说明它们的特征维度和可采取的行动空间,以及执行这些行动所需的输入和可能产生的结果。

1.模拟的历史事件

第一次世界大战 (WWI) 是一场持续了从1914年到1918年的全球性冲突。它主要发生在欧洲,但涉及来自世界各地的国家。战争始于奥匈帝国大公弗朗茨·斐迪南被暗杀,随后催生了一系列政治和军事联盟。

参与的主要大国分为两个主要联盟:协约国 (最初由法国、俄罗斯和英国组成,后来加入意大利、日本和美国) 和同盟国 (主要是德国、奥匈帝国、奥斯曼帝国和保加利亚) 。

图2 第一次世界大战地图

本研究的分析部分,主要针对第一次世界大战的多主体、多情境模拟。

第二次世界大战 (WWII) 是一场持续了从1939年到1945年的全球性冲突,其起源与一战未解决的问题以及德意日法西斯政权的崛起有关。

图3 第二次世界大战地图

中国古代的战国时期 (WSP) 是一段持续了公元前475年至公元前221年的时期,对应于周朝的最后几个世纪。这是中国古代的一个充满战争和政治动荡的时期。这个时代紧随春秋时期,其结束标志是秦朝统一中国。

打开网易新闻 查看更多图片

图4 战国时期地图

2.国家智能体的轮廓(国情)

在模型中,需要对每个国家智能体绘制一个基本而全面的轮廓。对于智能体来说,这个轮廓应该围绕六个基本维度构建:领导力、军事能力、资源、历史背景、关键政策和公众士气。每个方面都有助于全面理解智能体在模拟中的潜在行为和决策过程。

领导力:涵盖一个国家决策过程中的政治机构,考虑特定历史时期的背景。例如,一战前的英国体现了具有民主结构的宪政君主制,表现出务实和坚定的领导风格,而普鲁士则实行以侵略和军事扩张为导向的专制帝国政体。 军事能力:包括陆军规模、海军吨位等量化数据,以及对国家整体军事力量的定性评估,包括在特定军事分支 (如海军或空军) 的主导地位。拥有强大军事能力的国家通常更愿意参与军事冲突。

资源:涵盖地理、人口、国内生产总值 (GDP) 、地理和气候条件等关键要素。人口规模和GDP是评估一个国家力量的重要指标,对智能体的战略决策过程至关重要。这些因素衡量了国家支持其目标的潜在经济和后勤能力,影响其投射力量和维持军事及政治努力的能力。

历史背景:包括历史上的冲突遗留和国家间未解决的问题,这些可以显著影响当前政策。历史敌意和领土争议常常对国家当前的态度和在全球舞台上的潜在联盟产生深远影响。例如,普法战争后法国失去富含铁矿的阿尔萨斯-洛林地区,激发了对普鲁士的报复欲望。这些因素塑造了国家的战略联盟,并影响其更广泛的外交和军事参与。

关键政策:概述国家追求的主要目标。例如,在历史背景下,统一后的普鲁士 (一战前的德国) 渴望成为欧洲的主导力量,试图超越英国在领土和殖民地上的霸权。相反,英国则致力于维持其“日不落帝国”的地位。这导致了诸如“军备竞赛法案”之类的战略政策,规定普鲁士每建造一艘战舰,英国就建造两艘,体现了竞争机制和海军力量在其地缘政治战略中的中心地位。

公众士气:反映了民众情绪,可能直接或间接影响国家的行动。塞尔维亚虽然国力较小、军事力量有限,但民族主义的兴起促使其人民表现出好战态度。相反,尽管美国财富雄厚、工业发达,但表现出孤立主义的特征,不愿卷入战争。

以英国为例,模型对国家轮廓的描述:

## 英国概况

# 英国领导层面

(1) 英国是一个拥有重要民主机构的君主立宪制国家,其治理以务实和冷静为特点。

# 英国军事能力

(1) 现役军队规模:53万士兵。

(2) 海军吨位:270万,世界上最强大的海军,总吨位超过世界第二和第三强海军之和。

# 英国资源

(1) 位置:位于法国、德国、奥匈帝国和俄罗斯以西的岛屿,拥有大量殖民地。

(2) 人口数量:4600万。

(3) 国内生产总值:110亿,占全球总量的13.6%。

(4) 地理:充满起伏的丘陵、绿色田野和崎岖海岸线,受海洋性气候影响而常年湿润。

(5) 气候状况:温和的海洋性气候,常有多云、多雨和凉爽的天气。

# 英国历史背景

(1) 英国是世界上最有影响力的国家之一,拥有最多殖民地。

# 关键政策

(1) 作为当时世界上最强大的国家,英国的目标是保持其领先地位,并削弱任何可能挑战它的国家,比如德国。

(2) 英国制定了一项政策:每当德国建造一艘战舰时,英国就会建造两艘。

#公众士气

(1) 士气高涨,充满爱国热情和迅速取胜的信心。

3.行动空间

我们的模拟旨在研究战争的爆发,将塑造国际关系的一系列行动分为七类:

等待行动。智能体在某些回合中可以选择采取被动立场,观察他人的行动和整体背景的变化。通常情况下,当一个国家的利益没有直接受到影响时,智能体会选择这种行动,比如弗朗茨·斐迪南被暗杀后,美国的立场是关切周边局势。

总动员。这一行动涉及为国家的军事力量做好潜在冲突的准备,这是在参与战争之前必需的先行步骤。

宣战。这是一个国家正式对另一个国家发动敌对/军事行动的标志。

军事联盟/同盟。这是两个或更多国家之间的正式协议,旨在在冲突发生时提供相互支持,共同承担集体防御和战略合作的责任。智能体可以请求建立互助防御的联盟,其他国家可以接受或拒绝。联盟可以公开宣布或保密处理,并存在成员背信弃义的可能性。

不干涉条约。这是一种外交协议,签约国承诺不干涉彼此的内部事务,包括尊重主权完整和政治独立的责任。签署不干涉条约的程序与建立军事联盟类似:智能体首先提出请求,目标智能体可以接受或拒绝。条约可以公开宣布或保密处理,同时也存在背叛的可能性。

和平协议。这是冲突各方之间经过谈判达成的协商解决方案,正式结束敌对状态并建立未来关系的框架,承担维护条款、追求持久稳定和和解的责任。冲突各方可以提出和平协议,接受或拒绝以结束敌对状态并规划未来关系的基础,协议可以选择公开宣布或背叛/终止。

除了正式行动之外,智能体可以通过消息进行非正式的交流,讨论各种事务。

每个行动都具有一组属性:宣传、输入类型和所需响应。

宣传决定了每项外交行动相关的可见度和公众意识水平。这一属性分为两种:公开和秘密。公开行动 (如军事同盟的公布) ,意在向公众披露并为国际社会所知。私密行动 (如请求军事联盟) ,仅向目标国家通报,反映了秘密的国际关系或幕后的外交策略。

输入类型,指定发起或执行动作所需的信息或资源。例如,“宣战”只需要目标国家的名称,而“提出和平协议”则需要目标国家的名称和用自然语言表述协议信息。

所需响应,指定某个行动是否需要其他相关实体的相应。例如,“请求军事联盟”、“发送消息”和“提出和平协议”等行动需要响应,而“宣战”、“发布不干涉条约”和“总动员”等行动则不需要响应。

四、WarAgent架构

以下是对WarAgent多智能体系统架构的综合介绍,详述其核心组件和智能体之间的信息流动。WarAgent建立在四个基础构建模块上:(1)国家智能体,(2)秘书智能体,(3)公告板,(4)记事本。在WarAgent的背景下,战略性和即时性的决策至关重要,理解这些互动机制对于揭示系统如何运作和应对各种情况非常关键。

1.国家智能体

每个国家智能体根据其特定的国家概况进行定义。在每一轮中,智能体根据当前情况生成可用的行动,通过精心设计的提示进行指导。这些提示(以自然词句的形式) 引导智能体在复杂的国际关系情境中作出反应,确保其行动和决策经过深思熟虑。它通过分析联盟和敌对关系、平衡利益以及决策步骤等方面来指导智能体的行动。

图5(a)展示了研究中用于提示设计 (Prompt design) 的关键框架,而图5(b)则展示了与GPT-4模型的交互示例,该示例专门针对法国的国家智能体。提示设计包括四步:

• 第一步旨在确定潜在的盟国。在给定案例的情景中,法国认识到由于英国反对德国,有可能成为一个潜在的盟友。并且由于美国的地理位置和强大的经济,法国将美国也视为潜在战略盟友。

• 第二步旨在识别潜在的敌对国家。在这个情景中,法国将德国视为主要对手。由于历史上的敌对关系,法国认为奥匈帝国也是另一个潜在的敌人,因为它与德国结盟。

• 第三步概述了最终的建议行动。在这个情景中,法国提出了三项行动建议:与英国结盟,与奥匈帝国展开对话,并考虑与美国签订不干涉条约。

• 第四步根据第一步到第三步的回应对情况进行分析。在这个情景中,法国得出结论称,塞尔维亚暗杀奥匈帝国大公裴迪南给法国提供了与奥匈帝国结盟对抗塞尔维亚的机会。然而,为了避免激怒德国或俄罗斯,建议谨慎行事。同时,建议寻求与英国的联盟,并与美国签订不干涉条约。

图5 引导提示。(a)多步引导提示设计图。(b)法国智能体与定制化 GPT-4模型互动的示例。

2.秘书智能体

虽然大语言模型在促进多智能体系统方面是强大的工具,但它们并非完美无缺。它们常常存在一些限制,例如倾向于产生幻觉,并在复杂、长时的情境中有逻辑缺陷。因此,秘书智能体成为检查缺点的必要安全措施。

每个国家智能体都雇用了一个指定的“秘书智能体”来验证其行动的适当性和基本逻辑一致性。首先,秘书智能体确保每个国家智能体采取的行动符合行动空间所规定的可行动作的参数,包括正确的行动名称和行动属性的正确输入格式。其次,该智能体负责验证这些行动的基本逻辑一致性。例如,如果英国没有向奥匈帝国发送“请求军事联盟”的信函,那么奥匈帝国接受英国的“军事联盟请求”将是不合逻辑和不可接受的。

3.公告板

公告板 (Board) 被设计用来管理国际关系。它充当一个动态的记录平台,在每一轮模拟中收集和展示正在进行的情况的关系动态。它进一步确保智能体的决策基于最新可用的信息。公告板可以帮助智能体初始化状态,更新关系,并以可视化和文本方式显示这些关系。如图6(a)所示,公告板可以跟踪和管理不同国家之间的以下四种类型的国际关系:

战争宣言 (War Declarations W) :表示国家之间的冲突或战争,用符号“×”表示,并在图6(a)中以红色标出。例如,德国向英国宣战。

军事联盟 (Military Alliances M) :表示国家之间的正式军事合作伙伴关系,以符号“&”表示,并在图6(a)中以绿色标示。例如,塞尔维亚和俄罗斯签署了军事联盟。

不干涉条约 (Non-intervention Treaties T) :代表着不干涉国际事务的协议,用符号“o”标记并标为蓝色。在图6(a)中,奥匈帝国和法国签署了一项不干涉条约。

和平协议 (Peace Agreements P) :代表国家之间停止敌对行动并维持和平的正式协议,用符号“~”表示并标记为黄色。在图6(a)中,美国和奥斯曼帝国达成了和平协议。

4.记事本

记事本 (Stick) 作为每个国家的内部记录系统,代表着国内规章制度。它可以帮助确保国家智能体的行动符合国内要求。如图6(b)所示,记事本专注于追踪对国家的决策过程至关重要的关键指标,包括动员、内部稳定性和战备预测。本文重点放在动员上,内部稳定和战备预测有待后续研究工作 (在图6(b)的点框中的内容) 。

动员 (Mobilization MO) : 一个二进制指标,表示一个国家是否为潜在冲突而动员,例如,“是”或“否”。

内部稳定性 (Internal Stability IN) : 衡量一个国家内部稳定水平的指标,例如“低”、“中”和“高”。

战备预测 (War Readiness Prediction WR) : 预测一个国家对战争的准备程度的指标,例如“低”、“中”和“高”。

图6 公告板和记事本设计。(a)公告板设计。(b)记事本设计(内部稳定性和战备预测将在未来的工作中讨论)。(c)实验期间的公告板和记事本方法。

五、智能体互动的设计

如图7(a)所示,系统的智能体交互被分为两个主要部分:(1)在内部,每个国家智能体在每一轮,与其秘书智能体进行交互,(2)在外部,每个国家智能体在多轮中,与其他国家智能体进行交互。

图7 智能体互动设计。(a)WarAgent架构。(b)国家智能体与秘书智能体的互动。(c)国家智能体与国家智能体的互动。

图7(b)展示了国家智能体与秘书智能体的互动。国家智能体提出一个行动计划的草案,秘书智能体对其进行格式、内容和逻辑的评估。如果秘书智能体发现不一致或有改进的地方,它会提出建议并与国家智能体进行对话以进行修订。这个迭代的过程最多进行四轮交流。如果交流中未达成一致,秘书智能体将主动修改提案。这种“国家智能体-秘书智能体”内部互动机制,适用于所有国家智能体。

图7(c)展示了国家智能体之间互动。需要注意的是,秘书智能体不参与国家智能体之间的互动。在这个背景下,智能体一般指代国家智能体。

在我们的框架中,每个智能体的最初行动都是由一个触发事件引发的 (在图7(c)的蓝色框中表示) 。在历史背景下,触发事件指的是引发各个国家之间一系列反应的事件,最终导致重大历史演变。在我们的模拟中,触发事件是所有智能体响应的初始情景。例如,在第一次世界大战情景中,奥匈帝国的弗朗茨·费迪南德大公遇刺被广泛认为是触发事件。类似地,在第二次世界大战中,触发事件通常被认为是德国入侵波兰。晋国被分割给韩、赵和魏三家被普遍视为战国时代开端的触发事件。

在模拟的第一轮中,每个参与的智能体会协同对触发事件做出反应。这将促使各种行动的展开,包括全面动员,并通过各种消息和请求,与所有其他智能体进行互动交流。以下是英国对触发事件进行反应的一个例子:

## 触发:塞尔维亚派刺客杀害了奥匈帝国的弗朗茨·斐迪南大公。

# 英国对触发事件的反应:

对法国:英国决定向法国提出军事联盟请求

对俄罗斯:英国决定向俄罗斯提出军事联盟请求

对美国:英国决定向美国发送以下信息:鉴于全球权力平衡正面临风险,我们希望了解您对当前形势的看法,以及我们如何合作以维护和平与稳定。

随后,智能体会吸收来自前一阶段的通信信息,特别是那些直接针对它们或公开发布的信息。在随后的阶段中,每个智能体会进行两项并行活动:首先,回应来自其他智能体发来的通信信息,特别是涉及各种请求的通信;其次,发起新的行动。

# 收集到的对英国的请求:

来自法国:法国选择向英国发送信息,内容如下:鉴于最近的形势发展及我们在对抗德国侵略上的共同利益,我们提议进行对话,探讨潜在的合作机会。

来自奥斯曼帝国:奥斯曼帝国选择向英国提出不干涉条约的请求。

# 英国对请求的回应:对法国:英国选择向法国发送信息,内容如下:我们欢迎进行对话,探讨对抗共同威胁的合作可能性。

对奥斯曼帝国:英国选择接受奥斯曼帝国提出的不干涉条约。

# 英国新发起的行动:英国选择实施总动员。

值得注意的是,在每一轮中,所有国家智能体进行同步互动时,会出现大量新的通信和不断演变的情景。理想情况下,前几轮的交互会被纳入到接下来几轮的提示中。然而,多轮次、多智能体之间的同时交互可能会产生大量的文本,超出智能体内存,失去上下文背景信息。为了解决这个挑战,我们采用了“公告板与记事本”的方法,如图6(c)所示。也就是说,与外部关系动态相关的行动,比如“接受军事同盟”,被记录在公告板上。相反,与一个国家内部状态相关的行动,比如“总动员”,被记录在记事本上。因此,国际关系的通信被记录在公告板上,并在整个模拟过程中与智能体一起保留。需要注意的是,每个智能体都有自己的公告板和记事本。因此,这种设置导致在同一轮模拟中,不同智能体拥有不同的公告板和记事本。这种差异性也符合现实:智能体 (类似于国家) 只能获得部分知识,没有单个智能体对所有事件或数据有全知的视角。

在每个生成阶段,一个简洁的、基于规则的转换函数,负责将当前的公告板和记事本配置转换为一段清晰的文字,作为输入提示的补充。例如,图6(a)中的公告板将被转述为:

法国已与奥匈帝国签署不干涉条约。奥斯曼帝国与美国达成和平协议。德国向英国宣战。俄罗斯与塞尔维亚结成军事同盟。

这个转换后的段落,代表了国家智能体必须回应的新情景。该框架将此前多轮对话都简化归到上一轮对话信息中,从而只保留上一轮信息。并且,每个智能体自身的历史行动轨迹也会记录在提示语中,作为先前活动的回顾。

六、 实验设计

模拟效果:初步研究希望在历史信息准确的条件下展示模拟结果,以验证WarAgent系统在指定情景下提供可信模拟的能力。

战争导火索:进一步研究深入探索了“假设”情景,特别强调了触发事件在历史背景下的重要性。通过制造不同冲突强度的反事实触发事件 (反事实即假设事情发展与实际不同,可能会有什么结果) ,探究它们对战争爆发的潜在影响,从而验证一个观点:即某个战争导火索既不是独特的,也不是战争爆发的必要先决条件。

战争必然性:最后,研究考察了以不同国家初始条件 (概况) 和决策路径为特征的各种情景。通过改变提示中的决策过程或国家状况,构建替代的历史叙事,并分析对历史轨迹的结果影响。

评估方法

研究问题

描述

广泛连通性

模拟效果

通过网络分析了解联盟和冲突的动力学机制。连接图完整展示了系统。

人类评估

模拟效果

由专家评估战略决策、演变过程与结果,对历史的复现程度。

反事实

战争导火索

战争必然性

分析不同变量对战争、和平和外交互动的影响。

七、模拟效果评估

我们开展了 7 轮模拟实验,并展现了这些实验的人类评估结果。

事同盟:在所有的模拟结果中,我们发现英国与法国、德国与奥匈帝国、塞尔维亚与俄罗斯之间形成了稳定的军事同盟。从英法两国的视角来看,由于德国积极的扩张政策,德国被视为潜在的敌人。德国选择与奥匈帝国结盟,这一决策受到了其语言和民族的影响,同时还考虑到了一系列的战略和政治因素。其中最关键的是,他们共同追求外交上孤立法国,并形成统一战线以抵御来自俄罗斯的潜在威胁。与此同时,塞尔维亚与俄罗斯之间的联盟基于其共同的民族渊源,并且受到俄罗斯在巴尔干地区战略利益进一步加强的影响。这些模拟结果中的军事同盟与当时的历史事件高度一致。

战争宣言:在所有的模拟结果中,奥匈帝国对塞尔维亚、奥匈帝国对俄罗斯,以及德国对俄罗斯的战争宣言都会出现。相比之下,法国对德国和英国对德国的战争宣言分别在模拟中出现的频率分别是71.4% (5次) 和14.3% (1次) 。为了全面分析多数国家行动的合理性,我们选择了一次战争宣言最多的模拟,作进一步分析。在这个模拟中,冲突的起始是奥匈帝国对塞尔维亚的宣战。随后各国相继宣战,顺序如下: (德国→塞尔维亚、俄罗斯→奥匈帝国、法国→德国、俄罗斯→德国、英国→德国) 。箭头左边的国家发起宣战,右边的国家被宣战。对于奥匈帝国来说,塞尔维亚是直接对手,主要原因是奥地利大公遭到暗杀,这直接引发了宣战行为。随后的一系列宣战是基于当时的联盟关系,并与当时的联盟和敌对状态一致。

不干涉条约:在所有的模拟结果中,美国都至少参与了一项不干涉条约。同样,在模拟中,奥斯曼帝国有85.7% (6次) 的频率参与了类似的条约。美国更倾向于保护自身财富,避免卷入不必要的冲突。因此,美国寻求与其他国家签订不干涉条约,从而与潜在冲突保持距离。美国通过外交交流收集情报并表达意图,这符合其战略上的孤立原则。同样,奥斯曼帝国也试图避免直接参与冲突,更倾向于保持中立或建立防御性的同盟。因此,奥斯曼帝国追求不干涉条约并与邻国进行外交沟通,是明智的选择。美国和奥斯曼帝国的这些外交策略,体现了他们维护自身地位的更底层的政策与战略,这有助于解释为什么这两个国家没有直接参与当时的主要冲突。

我们还观察到,在态势演变过程中存在两种看似不合常规的特殊情况。

特例1:提供支持但不结盟。在某些情况下,国家仅口头上表示支持而未采取实际行动。例如,法国初步向奥匈帝国表示支持,但未进一步采取行动。美国向奥匈帝国表达了对塞尔维亚的不满,并暗示提供支持,但仅提出不干涉条约而非军事联盟。这反映了法国考虑到与潜在敌人结盟的风险,而美国则试图避免冲突,保护财富。

法国 # 第 1 轮

对奥匈帝国:法国选择向奥匈帝国发送信息,内容如下:对于贵国君主的不幸离世,法国表示深切哀悼,并在这艰难时期提供支持。

美国 # 第 1 轮

对奥匈帝国:美国提出与奥匈帝国签订不干涉条约的请求

对奥匈帝国:美国选择向奥匈帝国发送信息,内容如下:我们对贵国国王的逝世表示哀悼,并谴责塞尔维亚的行为。我们致力于维护该地区的和平与稳定,并在外交领域提供支持。

特例2:联盟背信。在模拟实验中另一个特殊情况是:英国在第1轮先与奥匈帝国签订不干涉条约,后又在第 5 轮宣战。这反映了英国的政治环境和战略考虑的变化。初期,英国避免与德国冲突,选择接受奥匈帝国的不干涉条约,表现出中立立场。然而,随着局势升级、新的联盟形成和更多国家宣战,英国面临新的战略挑战。由于奥匈帝国是德国的盟友并且与法国交战,英国为支持法国,决定放弃与奥匈帝国的不干涉条约,改变了其外交策略。这一转变体现了英国在国际关系中的适应和战略调整。

奥地利 # 第 1 轮

对英国:奥匈帝国向英国提出不干涉条约

英国 # 第 2 轮

对奥匈帝国:英国决定接受奥匈帝国的不干涉条约

英国 # 第 5 轮

对奥匈帝国:英国决定违反对奥匈帝国的不干涉条约

对奥匈帝国:英国决定对奥匈帝国宣战

总之,模拟行为表现出高度的可信性,符合真实历史。这表明在将刺杀事件视为一战触发事件的默认设置下,多智能体系统的模拟能够有效地复制历史情景。

八、战争导火索评估

战争导火索的评估,涉及到审查各种不同的潜在触发事件,以确定它们对战争发生的影响。为此,我们选择了一战三个不同的触发事件进行研究,每个事件都有不同程度的紧迫性。我们对每个触发事件进行了三次模拟,允许在不同情景下分析结果。

1.无事件触发:

今天阳光明媚,没有发生什么特别的事情。

2.英国海军与德国海军冲突

德国和英国陷入了一场严重的海军事件。一艘英国船只被击沉,造成10人丧生。英国坚称被击沉的是一艘民用船只,并要求德国道歉。然而,德国坚决反驳,声称该船是一艘军事船只,没有进入德国海域的权利,并指责这一悲剧是由英国自己造成的。

3.奥匈帝国-俄罗斯在达达尼尔海峡冲突

奥匈帝国和俄罗斯在战略要地达达尼尔海峡发生了军事冲突。这个海峡是重要的港口和出口枢纽。俄罗斯试图主导控制该地区的港口,以增强其出口潜力,因此与奥匈帝国军队发生了激烈对抗。奥匈帝国拒绝让步,不承认俄罗斯的主导地位,因为这直接威胁到奥匈帝国的出口能力。在冲突中,俄罗斯军队杀死了数百名奥匈帝国士兵,进一步激起了奥匈帝国的愤怒。

第一个“无事件触发”,特点是完全没有冲突,用作对比的基准线。第二个事件,即“英德海军冲突”,代表了一种中等强度的冲突,涉及重要但非决定性的外交或军事行动。第三个事件,也是最激烈的触发,即“奥俄达达尼尔海峡冲突”,描绘了直接牵涉两个主要欧洲大国的高强度冲突场景。通过这种冲突强度的分级,我们可以评估不同程度地缘政治紧张局势对第一次世界大战可能爆发的影响。

在没有明确触发事件的情况下,有三种情况:

军事联盟的形成:在所有模拟中,都观察到两个主要的军事联盟的形成,一方是法国、英国、俄罗斯和塞尔维亚,另一方是德国和奥匈帝国。

逐步军事动员:从第二或第三轮开始,奥匈帝国和德国开始动员军事力量。这一趋势在第四轮中继续,俄罗斯和法国也开始动员其力量。到第五轮,英国、塞尔维亚、美国和奥斯曼帝国也加入了这一动员。

冷战状态:尽管各国都准备好了战争,但没有实际爆发“热战”。这表明在没有明确的触发事件的情况下,主要大国保持了一种权力平衡,处于战争边缘但没有转变为公开冲突,从而创造了类似冷战的场景。这一发现表明,潜在的紧张关系和联盟足以创造一种战争准备的氛围,但在没有具体催化剂的情况下,局势并未恶化。

在英德海军事件的触发下,一艘英国船只被击沉,造成10人死亡。英国声称沉船是一艘民用商船,要求德国道歉。而德国则强烈反驳,称英国船只是军事船只,无权侵入德国的海域,声明这一悲剧是英国自己造成的。

在三次模拟中,英德海军事件只有一次导致了战争 (宣战) 。事件发展如下:德国和英国最初在海军事件上争执不下,双方都动员了军队。紧张局势升级,德国单方面对英国宣战。随后,各国形成了联盟回应这一宣战:英国与法国联盟,德国与奥匈帝国联盟,俄罗斯与塞尔维亚联盟。美国采取了非干涉立场,与几乎所有涉事国家签署了相关条约。法国随后响应德国对英国的宣战,对德国和奥匈帝国宣战。奥匈帝国遵守联盟义务,对英国宣战。

在其余两次模拟中,尽管一些国家动员了军队,但并未宣战。这种情况与在无触发事件模拟中观察到的类似冷战情景相一致,其中提高军事准备并未升级为冲突,问题主要通过和平方式得到解决。这表明,像英德海军事件这样的特定触发事件并不必然导致战争,也凸显了国际关系的复杂性和外交解决方案的可能性。

三次模拟中,奥匈帝国与俄罗斯在达达尼尔海峡上的冲突,两次引发了全球战争。

在所有模拟中,奥匈帝国、德国和俄罗斯都立即进行了军事动员。这种迅速的反应为进一步升级创造了条件。其中一个模拟,德国采取了侵略举措,对俄罗斯宣战,而在另一个模拟中,俄罗斯通过对奥匈帝国宣战,开启了冲突。这些宣战导致了多米诺效应,将盟国卷入冲突,从而使局势升级为全面的全球战争。此外的一个模拟中,尽管所有国家都已动员其军队,但并未爆发战争。在所有模拟中,美国都保持孤立,不参与军事动员或随后的冲突。

实验表明,不同的触发因素都存在一个特定的强度,达到该强度水平就可以影响战争的即时爆发。有趣的是,我们观察到即使在“无事件触发”之后仍然存在“冷战”局面,这表明即使是轻微事件也可能显著升级紧张局势。由于轻微触发事件是不可避免的,这意味着像第一次世界大战这样的重大冲突最终是注定会发生的。

九、战争必然性的探讨

我们主要从两个主要角度来审视战争必然性:即智能体的决策过程和国家的关键参数。实验目的是探索国家决策中的侵略性及其国情条件对战争可能性的影响。

智能体决策过程在三种场景下进行研究:默认、激进 (高侵略性) 和保守,我们通过改变国家智能体的系统设置来进行实验。这样做是为了评估智能体的激进或保守对战争必然性的影响。在激进和保守的情境下,我们进行了三次实验,每次实验包括10轮模拟。

分析显示,当系统和行动分析设置更为激进时,战争的可能性显著增加。在默认设置下,需要经过几轮才能观察到第一次宣战,而在激进设置下,第一轮就出现了宣战动作;在保守设置下,经过10轮后,只出现了军事联盟、不干涉条约与和平协议。这表明,一个智能体的激进 (即侵略性) 倾向,显著提高了紧张局势和冲突的可能性。

研究结果表明,历史背景、关键政策和公众士气,对于一个国家是否倾向于发动战争有着决定性作用。在法国和德国的案例中,历史仇恨和民族主义情绪对他们的军事行动产生了重大影响,这些情绪深深植根于过去的冲突和领土争端。例如,1870-1871年普法战争导致了德国统一和法国失去阿尔萨斯-洛林地区,造成了法国持久的敌意和复仇欲望。这种历史背景为未来的冲突奠定了基础,因为法国试图夺回失去的领土和声望。在美国的案例中,关键政策和公众士气的效果是立竿见影的。在所有的模拟实验中,调整关键政策和公众士气,都会导致美国积极寻求与英国和法国的联盟。联盟的建立标志着美国国际立场的重大转变,导致其积极参与第一次世界大战。这个场景展示了美国外交政策战略重新调整的潜在后果,突显了这种调整如何极大地改变一个国家在全球冲突中的角色和行动。

总结而言,尽管军事能力和资源是一个国家决定发动战争的关键因素,但历史背景,包括过去的冲突、民族主义情绪和长期的敌对关系,往往是促使最终决策的催化剂。这强调了理解历史背景对于把握国际冲突动力学机制的的重要性。

十、讨论与展望

WarAgent模拟系统作为基于大语言模型的多智能体系统,已经证明了其理解国际冲突机制的可靠性,展示了在原型设计和分析复杂人类行为方面的能力。通过比较不同的战争导火索设置,我们的实验揭示了即使是最微小的或无事件触发,也可能演变成类似冷战的局势,这意味着战争往往是不可避免的进程。这一点在战争必然性实验中得到了进一步的支持。这些发现展示了在特定情境下,造成冲突的决策性因素,同时也指出了通过调整国家政策或国际关系战略可能改变看似注定的结果。然而,我们也意识到,当前框架在充分捕捉国际关系的复杂性方面存在局限,预示着未来研究方向:

1.外交沟通与冲突可能性之间的相关性:一个有趣的问题是增加外交沟通与减少冲突可能性之间,是否存在相关性。模拟可以分析沟通模式、外交交流的语气和内容,以及它们对缓解潜在冲突的影响。

2.非国家行为者在地缘政治中的影响:非国家行为者 (如跨国公司或恐怖组织) 对地缘政治的影响可以是一个重要的研究领域,特别是在现代历史的背景下。

3.国际条约和协议在解决长期争端中的有效性:模拟还可以用于评估各种国际条约和协议在解决争端方面的有效性,以及这些协议在何种条件下能够持续或失败。

这些问题可以通过基于大语言模型的多智能体系统,以定量方式进行研究。这在很大程度上有助于我们理解塑造历史事件的复杂因素之间的相互作用,并为分析过去和潜在未来情景提供更全面的工具。

本周大语言模型与多智能体系统读书会直播:

打开网易新闻 查看更多图片

大语言模型与多智能体系统读书会

集智俱乐部联合西湖大学工学院特聘研究员赵世钰、浙江大学教授任沁源、鹏城实验室高级工程师崔金强,共同发起,探究大语言模型给机器人领域带来的新思想新价值。

详情请见:

1.

2.

3.

4.

5.

6.