导语
最近发表于 Nature Communications 的一项研究提出了“协同-特有-冗余分解”(SURD)方法,通过对变量未来状态的信息增量进行分解,将因果关系量化为冗余、特有和协同信息的贡献,为多变量系统中的因果推断提供了全新的分析视角。该方法能够识别变量的冗余和协同因果性,为气候模型、神经网络等复杂系统的因果分析提供了支持,并有望为气候研究和流体力学等领域带来显著进展。
关键词:因果科学,因果推断,信息分解,协同信息,复杂系统
龚铭康| 作者
杨明哲、吕奥博| 审校
梁金| 编辑
论文题目: Decomposing causality into its synergistic, unique, and redundant components 论文地址: https://www.nature.com/articles/s41467-024-53373-4
一、背景介绍
因果关系是科学研究的根基,通过分析因果关系,我们可以理解物理系统中各变量的相互作用,从而影响一系列科学和工程领域,如气候研究、神经科学、经济学和流体力学等。然而,现有的因果推断方法在处理复杂的因果关系时仍存在显著的局限性,难以应对非线性依赖性、随机干扰、自因果、碰撞效应和外部因素的影响。这些挑战促使科学家不断探索更加可靠的因果量化方法。
在最近发表于 Nature Communications 的这项研究中,作者提出了“协同-特有-冗余分解”(Synergistic-Unique-Redundant Decomposition,简称 SURD)方法。SURD 通过对变量未来状态的信息增量进行分解,能够将因果关系量化为冗余、特有和协同信息的贡献,为多变量系统中的因果推断提供了全新的分析视角。
因果推断旨在识别变量间的因果链条,而不仅仅是揭示其统计关联性。为此,作者首先指出了因果关系的三种基本构建块:中介、混淆和碰撞变量。这些构建块为复杂因果网络的 SURD 分析提供了基础。
1. 中介变量:中介变量存在于因果链中,如 A→B→C,其中变量 B 作为桥梁变量传递 A 对 C 的影响。比如,“教育水平提升→工作技能增加→收入增长”就是一个典型的中介因果链。
2. 混淆变量:混淆变量是两个变量的共同原因,如A→B&A→C。例如,夏天温度升高可能既导致了冰淇淋销量增加,又导致溺水事故增加。尽管冰淇淋销量和溺水事故数量可能存在统计关联,但这并不意味着它们之间存在直接因果关系。
3. 碰撞变量:在非线性动态系统中,多种因素可能共同影响同一个变量,称之为碰撞效应,如A→B&C→B。例如,学生的优异成绩可能既由勤奋学习(A)又由高智商(C)影响。这种情况下,冗余和协同因果性会产生不同的影响:冗余性表示两者对成绩的贡献具有重叠,而协同性则表示两者的联合作用超过单独效果的叠加。
传统的因果推断方法,如Granger因果和转移熵,在应对简单线性关系上已取得成功,但在非线性、动态和多变量场景下仍显得力不从心。SURD方法通过量化冗余、特有和协同信息的贡献,能够对以上情况作出区分,成功捕捉到真实的因果关系。
二、SURD:协同-特有-冗余分解
SURD 方法以香农熵为基础,利用信息增量 (Information Increment) 来度量因果性。对于一个时间序列变量集合 {Q= [Q1(t), Q2(t),…, QN(t)],我们的目标是量化该集合中的各变量对未来目标变量 Qj 的因果影响,具体而言是通过以下公式分解目标变量未来信息的增量:
在该公式中:
1. 表示未来时刻目标变量 Qj 的香农熵,是对其状态不确定性的度量。
表示冗余因果性,即一组变量对目标变量未来状态的重复贡献。冗余因果性是多个变量中包含的相同信息量。当变量集合中的每个变量对目标变量提供的信息相同,则视为冗余因果性。
3. 表示特有因果性,是某一特定变量对目标变量的特有贡献。特有因果性表示某个变量单独对目标变量的贡献。具体来说,若观察变量 Qi 能提供关于 Qj 的信息,而该信息无法从其他变量中获得,则称其具有特有因果性。
4. 表示协同因果性,是变量间联合对目标变量的因果贡献。当多个变量同时对目标变量提供更多信息,而这种信息无法通过单个变量获得时,协同因果性被激活。
5. 表示未观测变量的因果泄漏,是由系统中未观测变量产生的信息缺口。因果泄漏表示影响但不包含在Q中的未观察到的变量的影响。这是在共同考虑所有可观察变量后明确确定 Qj 的未来所需的缺失信息量。
协同-特有-冗余分解的具体计算方法在文末附录中有详细介绍,希望深入了解的读者可以参考。
SURD 具有若干关键特性,这些特性通过防止因果性的重复,有助于精确识别变量间的交互作用。首先,上述冗余、特有和协同因果性均非负,且三者之和等于 和Q之间共享的信息量,这被称为互信息 。SURD 还满足以下条件:单个变量 Qi 和之间的互信息,记作,可以由涉及 Qi 的特有和冗余因果性之和表示。该条件与以下观点一致:从单个变量到 Qi 的因果性完全由特有和冗余因果性组成,而协同因果性则来自两个或多个变量的联合效应。[1]
三、SURD 方案的优越性
在一个简单的示例中,作者直观展示了 SURD 方法的因果信息分解结构。假设有两个过去变量 Q1 和 Q2 对另一个未来变量 Qj 产生作用,下图描述了该系统的 SURD 信息分解。
图1. 观测变量Q1, Q2(过去)与目标变量之间因果依赖关系的分解,分解为协同(S)、特有(U)和冗余(R)成分(分别用黄色、红色和灰蓝色表示),因果泄漏以灰色表示。
在下图中展示了三种相互作用模式,分别对应了只有冗余、特有或协同成分存在的情况,并计算了各自的因果泄漏强度。
图2. 重复输入、等于第一个输入的输出、和异或输出的简单示例的冗余、特有和协同因果关系分解。使用的符号为 R12, U1, U2, S12。目标变量受到外部随机作用 W 的影响,该作用 W 与 Q 中观测到的变量无关。W 的影响通过因果关系泄漏来衡量,由灰色条表示。
除此之外,作者还在多种非线性相互作用系统中计算了 SURD 分解,并与其他因果量化方法对照。
图3. 具有中介变量的系统。(左图)变量和系统方程之间的函数依赖性示意图,其中 Wi 表示变量 Qi 上未观察到的随机作用。n 表示时间步长。(中图和右图)SURD 的结果,冗余 (R)、特有 (U) 和协同 (S) 因果关系分别为蓝色、红色和黄色。所采用的符号是R123表示变量Q1、Q2、Q3的共同冗余,等等。灰色条是因果关系泄漏。CGC、CTE、PCMCI 和 CCM 的结果如右侧所示。在除 CCM 之外的所有方法中,条形值代表因果联系的强度。在 CCM 中,只有当值随着时间序列长度的增加而收敛到 1 时,才会检测到因果关系,否则不会检测到。CGC 和 CTE 使用与 SURD 相同的归一化。SURD、CTE 和 CCM 的值上限为 1。PCMCI 的值表示条件互信息并且无界。
图4. 具有协同碰撞变量的系统。图例与图3相同。
图5. 具有冗余碰撞变量的系统,变量Q2和Q3始终相等。图例与图3相同。
具体结果总结如下表。可以看到,在包括非线性因果作用、自因果作用等多种情景测试中,只有 SURD 始终能够捕捉到正确的因果关系。特别是存在因果泄露的情况时,除了 SURD 之外,其他主流因果量化方法 (如 Granger 因果(CGC)、转移熵(CTE)等) 均无法识别外部环境对所研究系统的因果影响。
表1. 因果推理方法列表,以及每种方法能够解决的情况展示,从左到右分别为:多变量、非线性依赖、随机(非确定性)过程、同时因果、因果关系泄漏、时滞依赖性和自因果关系。
四、实际应用:湍流中的能量级联
在湍流系统中,能量从大尺度传递到小尺度,通常遵循 Kolmogorov 的湍流理论。传统上,能量级联被认为是从大尺度结构 (如涡旋) 向小尺度逐级传递的过程,这种传递通常被看作是层级性的。然而,在复杂的湍流环境中,能量传递可能涉及多个尺度的协同作用。因此,直接使用传统的因果分析工具 (如 Granger 因果分析) 往往无法捕捉不同尺度之间的精细因果关系。
SURD 方法允许我们将因果信息分解为冗余、特有和协同成分,以便更精确地理解各尺度之间的因果关系。在湍流能量级联中,SURD 方法的分析结果揭示了各尺度因果关系的不同特征。
图6. 四种滤波器尺寸在同一时刻的速度场大小的可视化。参数 η 是柯尔莫哥洛夫长度尺度,代表流中的最小尺度。
图7. 湍流SURD分析的冗余 (R)、特有 (U) 和协同 (S) 因果贡献。从上到下分别为对第1,2,3,4个尺度的信息分解。灰色条是因果关系泄漏。CGC、CTE、CCM 和 PCMCI 的结果如右图所示。
分析发现,大尺度涡旋对小尺度涡旋的能量传递中包含大量冗余因果性,表明大尺度能量的信息在传递到小尺度时高度重叠。中尺度上的涡旋结构对小尺度的能量传递具有特有因果性,表明在能量级联过程中,不同中尺度结构的特有特性发挥了显著作用。当不同尺度的结构联合作用时,会在能量传递上产生协同因果性。这表明多尺度协同作用是湍流能量级联中的一个重要特征,即各尺度的相互作用不仅是简单的逐级传递,而是通过不同尺度间的复杂耦合来实现能量分配。
五、总结
SURD 方法不仅为因果关系分析提供了新的视角,还在多个科学和工程领域展现了广泛的应用潜力。首先,SURD 在多变量系统的因果量化方面具有显著优势,能够识别变量的冗余和协同因果性,为气候模型、神经网络等复杂系统的因果分析提供了支持。其次,SURD 的所有分解成分的非负性相较于同类的其他方法保证了分析结果的可解释性,并且所引入的因果泄漏概念为因果关系未观测变量的影响提供了量化手段,有助于识别并补充缺失的信息。实验表明,SURD 在气候研究和流体力学等领域的应用有望带来显著进展。此外,其在不同场景中普遍适用的鲁棒性,使它成为理解复杂系统内在动力学的强大工具。
附录
下面是协同-特有-冗余分解的具体计算方法:
首先,一个重要的见解是:因果关系的来源可能会根据的值而变化。例如,Q1 只能与的某个值有因果关系,而 Q2 只能与的某个值 有因果关系。因此,我们将 Qi 到特定事件 = 的特定互信息定义为:
特定互信息是随机变量Q(包含其所有状态) 的函数,但只是目标变量的一个特定状态(即 )的函数。为了简单起见,我们将使用符号:
对于给定值 = ,具体的冗余因果关系、唯一因果关系和协同因果关系计算如下:
1. 针对Q中所有可能的变量组合计算特定互信息。这包括一阶G1={i1,i2,...iN}、二阶 G2={i12,i13,...}、三阶G3={i123,i124},...},依此类推,并在每一阶内部将特定互信息从小到大排列,下图显示了一个示例。
2. 计算特定冗余信息:在 G1 内,从左到右第一个特定信息的大小为 ,表示所有变量的特定冗余信息,其中N为Q中的变量总数。随后计算第一个特定信息到第二个特定信息的增量,即,其中 j 为第一个特定信息的下标,按照此步骤依次计算相邻特定信息的增量,在前一个的下标里减去前一个特定信息对应的下标 j 即得到新的下标,直到下标里只有两个数字为止 (因为冗余信息至少涉及两个变量) 。这样就得到了N-1个特定冗余信息。
3. 计算特定特有信息:G1的第N-1位特定信息到第N位特定信息的增量即是变量 Qj 的特定特有信息,其中 j 是第N位特定信息的下标。
4. 计算特定协同信息:特定协同信息涉及跨阶之间特定信息的比较,计算方法如下,其中:
5. 对于的所有状态重复步骤1至4。得到如下图所示的结果:
6 . 最后,冗余、特有和协同因果关系作为其相对于的相应特定值的特定信息期望得出
参考文献
[1] Ince, R. A. A. Measuring multivariate redundant information with pointwise common change in surprisal. Entropy 19,318(2017).
新信息论:从分解到整合
因果涌现读书会第四季
什么是意识?意识能否度量?机器能否产生意识?对于意识问题,人们可能即将迎来一个大的突破,各种有关意识的理论正如雨后春笋般展现出勃勃生机。其中神经科学家 Giulio Tononi 的整合信息论(IIT)被认为是最有前景的意识理论之一。如果说意识是大脑神经活动的一种涌现结果,那么刻画涌现便成为理解意识过程中一个重要环节。因果涌现理论目前发展出两个派别,除了 Erik Hoel 的有效信息因果涌现框架,还有一个是 Rosas 的信息分解(PID)框架,此后 Rosas 基于此进一步提出融合整合信息论的信息分解框架 ΦID,尝试构建新的意识理论。
一边是信息整合(IIT),一边是信息分解(PID),看似分裂,实际上都是对香农经典信息论的进一步发展。因果涌现读书会第四季「」由北京师范大学系统科学学院教授、集智俱乐部创始人张江老师领衔发起,旨在梳理信息论领域的发展脉络,从香农的经典信息论开始,重点关注整合信息论和信息分解这两个前沿话题,及其在交叉领域的应用。希望通过对这些“新信息论”度量指标的深入探讨,帮助我们理解什么是意识,什么是涌现,并找到不同学科,不同问题背后的统一性原理。读书会已完结,现在报名可加入社群并解锁回放视频权限。
详情请见:
因果科学第五季
集智俱乐部联合北京大学大数据科学研究中心博士研究生李昊轩、伦敦大学学院计算机博士研究生杨梦月,卡耐基梅隆大学和穆罕默德·本·扎耶德人工智能大学博士后研究员陈广义共同发起。这是我们因果科学系列读书会的第五季,旨在探讨在大模型之后为何仍需“因果科学”?大模型如何推动因果科学的研究进展?因果科学能否在推理能力、可解释性和可信性等方面启发更优大模型的设计?以及因果科学的最新进展如何在实际领域中应用和落地?希望汇聚相关领域的学者,共同探讨因果科学的发展和挑战,推动学科发展。
读书会于6月30日开始,每周日晚上20:00-22:00举办。欢迎从事相关领域研究、对CausalAI感兴趣的朋友们报名读书会交流!
详情请见:
1.
2.
3.
4.
5.
6.