打开网易新闻 查看更多图片

现代理论物理学中最具挑战性的问题之一就是所谓的多体问题。典型的多体系统是由大量强相互作用的粒子组成的。很少有这样的系统能够被数学精确地处理。然而,由于指定一个通用多体量子态所需的资源以指数方式依赖于系统中粒子的数量(更准确地说,是自由度的数目),即使是当今最好的超级计算机也不具足够的算力来精确编码这些状态(它们只能处理小于45个粒子的相对较小的系统)。

正如我们将看到的,机器学习技术(特别是人工神经网络)的最新应用已被证明能够提供这种复杂状态的高效表示,使其易于计算。

在这篇文章中,我将讨论如何应用人工神经网络来表示多个粒子的量子态。从下面三个方面讨论:

  • 基本量子力学概念
  • 机器学习概念的简要描述,特别关注一种被称为受限玻尔兹曼机器(RBM)的人工神经网络
  • 关于如何使用RBM来表示多粒子量子态的解释。

序言

爱因斯坦的科学合作者之一、波兰物理学家利奥波德·因菲尔德(Leopold Infeld)在他的自传中讲述了一个引人入胜的故事。

  • 爱因斯坦和因菲尔德在爱因斯坦的家里

根据因菲尔德的说法,在他和爱因斯坦花了几个月时间进行漫长而艰苦的计算后,爱因斯坦说了这样的话:

上帝不在乎我们在数学上的困难。他集成了经验。

爱因斯坦的意思是,人类必须依靠复杂的计算和推理来解决复杂的物理问题,而大自然不需要。

多体的问题

正如前面提到的,理论物理学中一个众所周知的难题是多体问题。这个问题已经在经典系统(基于牛顿三大运动定律及其改进的物理系统)和量子系统(基于量子力学定律的系统)中研究了很长时间。

第一个被广泛研究的(经典的)多体问题是涉及地球、月球和太阳的三体问题。

打开网易新闻 查看更多图片

  • 等质量三体系统的简单轨道

第一批攻克这一多体问题的科学家之一正是艾萨克·牛顿,他在其杰作《数学原理》中写道:

每一颗行星的运行轨迹都是新的[…],而每一个轨道都依赖于所有行星的联合运动,更不用说它们彼此之间的作用了[…]。除非我大错特错,在同一时间考虑这么多运动的原因,并根据精确的定律来定义这些运动,使其易于计算,这将超过人类的智慧。

  • 牛顿的《数学原理》可以说是历史上最重要的科学著作。

因为本质上所有相关的物理系统都是由一系列相互作用的粒子组成的,所以多体问题是极其重要的。

定义

我们可以把这个问题定义为“研究物体之间相互作用对多体系统行为的影响”。

  • 金离子碰撞产生夸克-胶子等离子体,一个典型的多体系统

在这个语境中,“多”的意思可以是3到无穷之间的任何数字。在N=5的自旋激发下,已经发现了量子多体行为的特征:

打开网易新闻 查看更多图片

  • 随着自旋激发数从2个增加到5个,接近高斯分布(典型的多体耦合系统)。

在这篇文章中,我将关注量子多体问题。

量子多体系统

量子多体系统的复杂性早在20世纪30年代就被物理学家们发现了。当时,伟大的物理学家保罗·狄拉克(Paul Dirac)设想了量子力学的两个主要问题。

  • 英国物理学家保罗·狄拉克

根据他的说法,第一个问题是“与该理论与相对论思想的精确契合有关”。第二,“这些(量子)定律的精确应用,会导致过于复杂而难以解出的方程式”。第二个问题正是量子多体问题。

幸运的是,许多物理系统的量子态可以用比希尔伯特空间最大容量少得多的信息来描述。这一事实被一些数值技术所利用,包括著名的量子蒙特卡罗法(QMC)。

量子波函数

简单地说,量子波函数在数学上描述了量子系统的状态。第一个得到精确数学处理的量子系统是氢原子。

  • 在氢原子中找到电子的概率

一般来说,一个量子态用一个复概率振幅Ψ(S)表示,其中参数S包含了关于系统状态的所有信息。例如,在自旋1/2链中:

打开网易新闻 查看更多图片

  • 一维自旋链,每个粒子在z轴有一个σ值。

从Ψ(S)可以导出与系统测量相关的概率。例如,正实数Ψ(S)的模方给出了与Ψ(S)相关的概率分布:

哈密顿算符

量子系统的性质由系统的哈密顿算符H封装,后者是两项的和:

  • 系统中所有粒子的动能,这与它们的运动有关
  • 系统中所有粒子的势能,与粒子相对于其他粒子的位置有关。

量子系统的允许能级(它的能谱)可以通过求解所谓的薛定谔方程得到,这是一个描述量子力学系统行为的偏微分方程。

  • 奥地利物理学家埃尔温·薛定谔,量子力学之父之一。

薛定谔方程的时间无关版本由下列特征值系统给出:

特征值和对应的特征态为:

最低的能量对应于系统的“基态”。

一个简单的例子

为了具体起见,让我们考虑以下例子——量子谐振子。QHO是经典谐振子(见下图)的量子力学对应物,经典谐振子是一个系统,当它从初始位置被移到平衡位置时,会受到一个力的作用。

  • 一种质量-弹簧谐振子

下面的动画比较了简谐振子的经典和量子概念。

  • 描述量子谐振子的波函数

一个具有明确轨迹的简单振动质量代表了经典系统(上图中的A块和B块),而相应的量子系统则用一个复波函数来表示。在每个区块中(从C开始)有两条曲线,蓝色的是Ψ的实部,红色的是虚部。

量子自旋系统

在量子力学中,自旋可以大致理解为粒子和原子核所携带的“角动量的内在形式”。虽然直觉上认为自旋是一个粒子围绕自己的轴旋转,但这并不完全正确,因为粒子会以比光速还快的速度旋转,这违反了基本的物理原理。自旋是没有经典对应物的量子力学物体。

  • 多体系统的例子,自旋杂质通过原子链传播

量子自旋系统与磁性现象密切相关。磁铁是由原子组成的,原子通常是小磁铁。当这些原子磁体变成平行定向时,就产生了我们所熟悉的宏观效应。

  • 磁性材料经常显示自旋波,以磁性顺序传播扰动。

现在,我将简要介绍机器学习算法的基本组成部分,以帮助读者理解它们与量子系统的联系。

机器学习=机器+学习

机器学习方法有两个基本组成部分:

  • 这个机器可以是一个人工神经网络Ψ,具有参数:

  • 使用随机优化算法学习参数W。

神经网络

人工神经网络通常是非线性多维嵌套函数。它们的内部工作只是启发式地理解,研究它们的结构并不能产生关于它所近似的函数的见解。

  • 简单的双隐层人工神经网络

由于网络参数和被近似的数学函数之间缺乏明确的联系,神经网络通常被称为“黑盒子”。

有几种类型的人工神经网络,但本文将集中讨论受限玻尔兹曼机(RBM)的具体情况。

什么是受限玻尔兹曼机?

受限玻尔兹曼机可以生成随机神经网络。它们有很多应用,包括:

  • 协同过滤
  • 降维
  • 分类
  • 回归
  • 特征学习
  • 主题建模

受限玻尔兹曼机属于一类基于能量的模型。它们不同于其他神经网络,后者根据输入估计一个值,而受限玻尔兹曼机估计输入的概率密度(它们估计许多点,而不是单个值)。

受限玻尔兹曼机有以下属性:

  • 它们是浅层网络,只有两层(输入/可见层和隐藏层)
  • 它们的隐藏单位h和可见单位v通常是二进制值
  • 有一个权重矩阵W与隐藏单位和可见单位之间的联系相关
  • 有两个偏置项,一个用于输入单位,用a表示,另一个用于隐藏单位,用b表示
  • 每个配置都有一个相关的能量函数E(v,h),在训练过程中最小化
  • 它们没有输出层
  • 没有内部层连接。对于一组已知的可见单元激活,隐藏单元激活是相互独立的。这一性质极大地促进了分析。

最小化的能量泛函为:

  • 式1:受限玻尔兹曼机最小化能量函数。

可见单元和隐藏单元的联合概率分布为:

  • 式2:总概率分布。

其中归一化常数Z称为配分函数。追踪隐藏的单位,我们得到一个可见(输入)向量的边际概率:

  • 式3:输入单位边际概率分布。

因为,如前所述,隐藏(可见)单元激活是相互独立的,给定可见(隐藏)单元激活可以写作:

  • 式4:条件概率由于相互独立而变成乘积。

并且:

  • 式5:与式4相同。

最后,激活概率为:

  • 式6:激活概率。

其中σ为sigmoid函数。

训练步骤如下:

  • 我们首先将可见单位状态设置为训练向量。
  • 隐藏单位的状态,然后使用式6左边的表达式计算。
  • 选择隐藏单元的状态后,进行所谓的“重构”,根据式6右侧的表达式将每个可见单元设置为1。
  • 权值的变化由下式确定:

受限玻尔兹曼机如何学习重构数据

受限玻尔兹曼机执行一个称为“重构”的无监督过程。它们通过在两层之间进行长时间的连续传递来重构数据。在向后传递中,如下图所示,隐藏层中节点的激活函数成为新的输入。

这些输入的乘积和各自的权重被求和,并且来自可见层的新的偏差b被添加到每个输入节点。这种操作产生的新输出称为“重构”,因为它是原始输入的近似。

自然,重构和原始输入在一开始是非常不同的(因为w的值是随机初始化的)。然而,由于误差被重复反向传播到w,它逐渐被最小化。

因此,我们认为:

  • 在前向传递时,受限玻尔兹曼机使用输入对节点的激活进行预测,并在加权输入x的条件下估计输出的概率分布
  • 在反向传递中,受限玻尔兹曼机试图估计在激活a条件下输入x的概率分布

将两个条件分布连接起来,得到x和a的联合概率分布,即受限玻尔兹曼机学会了如何逼近原始数据(输入的结构)。

如何将机器学习和量子系统连接起来?

在《科学》杂志上的一篇文章中,卡莱奥和泰勒提出可以把量子多体系统的量子波函数Ψ(S)当作一个黑盒,然后用受限玻尔兹曼机来近似它。通过优化受限玻尔兹曼机的参数,将其训练成Ψ(S)。

  • 卡莱奥和泰勒使用的RBM编码自旋多体量子态。

问题是如何将(与时间无关的)薛定谔方程作为一个特征值问题重新表述为一个机器学习问题。

变分法

事实证明,答案早已为人所知,它基于所谓的变分法,这是波动方程的另一种形式,可以用来获得量子系统的能量。利用该方法,我们可以将优化问题写成:

其中 E[Ψ]是一个依赖于特征态和哈密顿量的泛函。通过求解这一优化问题,我们得到了基态能量及其相应的基态。

量子态与受限玻尔兹曼机

在卡莱奥和泰勒的论文中,受限玻尔兹曼机被用来表示量子态Ψ(S)。他们推广了受限玻尔兹曼机以考虑复杂的网络参数。

很容易证明能量泛函可以写成:

其中,最后一个等号后的期望值的参数是局部能量。然后利用随机重构方法对神经网络进行训练。相应的优化迭代为:

其中η是学习率,S是随机重构矩阵,它依赖于特征态及其对数导数。

受限玻尔兹曼机对自旋1/2的量子系统特别感兴趣,他们将量子态写成如下:

在这个表达式中,Ψ的W参数是一组参数:

其中a和b上的分量是实数,但W可以是复数。由于缺少层内交互作用,受限玻尔兹曼机架构的典型特点是允许隐藏变量消失,将上面的表达式大大简化为:

要训练量子波函数,必须遵循类似的过程。

结论

在这篇简短的文章中,我们看到限制玻尔兹曼机器(RBM),一种简单的人工神经网络,可以用来计算非常高精度的基态能量的多粒子量子系统。