打开

人脑是如何感知现实的?从物理学角度看深度学习,与大脑哲学相似

subtitle
老胡说科学 2021-05-04 15:28
打开网易新闻 查看更多图片

如今,人工智能几乎出现在我们生活的方方面面。智能手机、社交媒体、推荐引擎、在线广告网络和导航工具等基于人工智能的应用程序每天都在影响着我们。深度学习在语音识别、自动驾驶、机器翻译和视觉对象识别等领域已经系统地提高了技术水平。

深度神经网络(DNN)如此强大的原因是启发式理解,即我们通过使用大数据集和遵循特定的训练协议获得优秀的结果。最近,人们提出了一种可能的解释,基于一种基于物理的概念框架——重正化群(RG)以及一种被称为受限玻尔兹曼机的神经网络(RBM)。

RG和RBM作为粗粒度过程

重正化是一种用于研究物理系统微观部分信息不可用时的行为的技术。这是一种“粗粒度”方法,当我们“戴上模糊的眼镜”,缩小并检查不同长度尺度的物体时,物理定律是如何变化的。

  • 当我们改变物理系统的长度尺度时,我们的理论在所有可能的理论中“导航”。

RG理论的重要性在于它提供了一个强大的框架,从本质上解释了为什么物理本身是可能的。

  • 要描述像卫星这样的复杂结构的运动,人们不需要考虑其所有组成部分的运动。

RG理论提供了一个强有力的框架来解释为什么物理本身是可能的。

例如,要计算卫星绕地球运行的轨道,我们只需要应用牛顿运动定律。我们不需要考虑卫星微观成分极其复杂的行为来解释它的运动。我们在实践中所做的是对系统(在这里是卫星)的基本组件的详细行为进行某种“平均”。

此外,RG理论似乎表明,我们当前所有关于物理世界的理论都只是一些未知的“真理论”的近似(用更专业的术语来说,这个真理论“生活”在物理学家所说的尺度转换的固定点附近)。

RG理论似乎表明,我们当前所有关于物理世界的理论只是一些未知的“真实理论”的近似值。

当被研究的系统处于临界点时,RG可以很好地运作,并且显示出自相似性。一个自相似的系统是“完全或近似地与它自身的一部分相似”,无论它被观察到的长度是多少。显示自相似性的系统例子是分形。


当系统处于临界点时,那些彼此相隔甚远的部分之间会显示出很强的相关性。所有的子部分影响整个系统,系统的物理性质完全独立于其微观结构。

人工神经网络也可以看作是一个粗粒度的迭代过程。人工神经网络由几个层组成,如下所示,较初始的层只从输入数据中学习较低级别的特征(如边缘和颜色),而较深的层将这些较低级别的特征(由较初始的层提供信息)组合成较高级的特征。学习领域的领军人物之一杰弗里·辛顿(Geoffrey Hinton)的话来说:“首先学习简单的特性,然后在此基础上学习更复杂的特性,这是分阶段进行的。”此外,就像在RG过程中一样,更深的层次只保留被认为相关的功能,而弱化了不相关的功能。

用深度

  • 卷积神经网络(CNN)。

一个精确的连接

物理学和机器学习处理的系统都有许多组成部分。物理学研究包含许多(相互作用的)物体的系统。机器学习研究包含大量维度的复杂数据。此外,与物理中的RG类似,神经网络能够对数据进行分类,比如动物的图片,而不考虑它们的组成部分(比如大小和颜色)。

在2014年发表的一篇文章中,两位物理学家潘卡·梅塔(Pankaj Mehta)和大卫·施瓦布(David Schwab)基于重正化群理论对深度学习的表现进行了解释。他们表明DNN是非常强大的特征提取器,因为它们可以有效地“模拟”RG过程的粗粒化过程。用他们的话来说,

DNN体系结构[…]可以被视为一种迭代的粗粒度方案,其中神经网络的每一个新的高级层都从数据中学习越来越抽象的高级特征。

事实上,在他们的论文中,他们设法证明了RG和受限玻尔兹曼机(RBM)之间确实存在一个精确的映射,RBM是构成DNN构建模块的两层神经网络。

  • 在2014年梅塔和施瓦布的论文中,他们介绍了RG和DNN之间通过堆叠RBM建立的映射。

在文献中有许多其他的著作将重整化和深度学习联系起来,遵循不同的策略和有不同的目标。此外,梅塔和施瓦布解释了只针对一种神经网络的映射。为了简洁,我在这里将重点放在他们的原始论文上,因为他们的见解导致了关于这个主题的大量后续工作。

重整化群理论

如上所述,重整化涉及到对物理系统应用粗粒度技术。RG理论是一个一般的概念框架,所以需要一些方法来实现这些概念。变分重整化群(VRG)是卡达诺夫,霍顿和亚拉比克于1976年提出的一种格式。

为了便于阐述,我选择了聚焦于一种特定类型的系统来说明RG是如何工作的,即量子自旋系统,而不是进行完全的一般性讨论。但在深入研究数学机制之前,我将对自旋在物理学中的意义做一个解释。

物理学中自旋的概念

在物理学中,自旋可以定义为“基本粒子、复合粒子和原子核所携带角动量的内在形式”。虽然自旋是一个量子力学的概念,没有经典的对应物,但自旋粒子经常(虽然不正确)被描述为围绕自己的轴旋转的小陀螺。自旋与磁性现象密切相关。

  • 粒子自旋(黑色箭头)及其相关的磁力线

重整化的数学

让我们考虑一个N自旋的系统或集合。为了可视化的目的,假设它们可以放在一个格子上,如下图所示。

  • 一种二维自旋晶格(用小箭头表示)。球是带电原子


由于自旋可以是向上的或向下的,它们与二进制变量有关

指标i可以用来标记自旋在晶格中的位置。为了方便起见,我将用向量v表示自旋的位形。

对于热平衡系统,与自旋构型v相关的概率分布形式如下:

这是普遍存在的玻尔兹曼分布(为方便起见,将温度设为1)。H(v)是系统的所谓哈密顿量,可以定义为“一个对应于系统中所有粒子动能和势能之和的算符”。分母Z是一个归一化因子,称为配分函数。

系统的哈密顿量可以表示为自旋相互作用项的和:

参数集合:

称为耦合常数,它们决定自旋之间(第二项)或自旋与外部磁场之间(第一项)的相互作用强度。

我们需要考虑的另一个重要的量是自由能。自由能是一个源于热力学的概念,它被定义为“物理系统中可以转化为做功的能量”。数学上,在我们的例子中,它是由下式确定:

符号“tr”代表trace(来自线性代数)。在目前的情况下,它表示可见自旋v的所有可能构型的总和。

在重正化过程的每一步,系统在小尺度上的行为被平均出来。粗粒度体系的哈密顿量用新的耦合常数表示:

并且获得了新的粗粒度变量。在我们的例子中,后者是块自旋h,新的哈密顿量是:

为了更好地理解什么是块自旋,考虑下面的二维晶格。每个箭头代表一个旋转。现在把晶格分成包含2×2自旋的方块。块自旋是每个块对应的平均自旋。

  • 在块自旋RG中,系统被粗粒度地划分为描述自旋块有效行为的新块变量


请注意,新的哈密顿量具有与原始的相同的结构,只是用自旋块取代了物理自旋。

  • 两个哈密顿函数都有相同的结构,但是变量和耦合不同。

换句话说,模型的形式不会改变,但是当我们缩小模型的参数时,它会改变。通过系统地重复这些步骤,可以得到该理论的完整重正化。经过几次RG迭代后,一些参数将被删除,而一些参数将保留下来。剩下的称为相关运算符。

这些哈密顿之间的联系是通过自由能(如上几条线所述)在RG变换后不发生变化这一要求得到的。

变分重正化群

如上所述,要实现RG映射,可以使用变分重正化群(VRG)方法。在这个方法中,映射是由一个操作符实现的:

λ是一组参数。该算子对隐藏自旋和输入自旋之间的耦合进行编码,并满足以下关系:

它定义了上面给出的新哈密顿量。虽然在精确的RG转换中,粗粒度系统将具有与原始系统完全相同的自由能。

等价于下面的条件:

在实际应用中,这一条件不能完全满足。用变分格式求λ,使自由能之差最小:

或者等价地,来近似精确的RG变换。

总结RBM

在以前的一篇文章中《神经量子态——解决现代理论物理学中最具挑战性的问题,多体问题》 ,我已经详细地描述了受限玻尔兹曼机的工作原理。在这里,我将提供一个更简明的解释。

受限玻尔兹曼机是基于能量的模型生成的。用于非线性无监督特征学习。它们最简单的版本只有两层:

  • 一层可见单位,用v表示
  • 一个以h为单位的隐藏层

  • 一个简单的受限玻尔兹曼机的图解


再次,我将考虑一个二进制可见数据集v,从某个概率分布中提取n个元素:

  • 输入或可见数据的概率分布。


RBM中的隐藏单位与可见单位耦合,相互作用能由下式给出:

能量子指数λ表示变分参数集合{c, b, W}。前两个元素是向量,第三个是矩阵。RBM的目标是输出尽可能接近输入数据P(v)分布的λ依赖概率分布。

与构型(v,h)和参数λ相关的概率是这个能量泛函的函数:

从这个联合概率中,我们可以很容易地得到可见单位的变分分布,通过对隐藏单位求和。同样,隐藏单位的边缘分布是通过对可见单位求和得到的:

我们可以定义RBM哈密顿量如下:

λ参数可以选择优化所谓的KL散度或相对熵,这是衡量两个概率分布的不同。在目前的情况下,我们感兴趣的是真实数据分布和由RBM产生的可见单元的变分分布之间的KL散度。更具体地说:

当两个分布相同时:

精确映射RG和RBM

梅塔和施瓦布证明,要建立RG和RBM之间的精确映射,可以对变分算子选择以下表达式:

回想一下,哈密顿函数H(v)包含了输入数据的概率分布。通过这种变分算子的选择,可以快速证明RG哈密顿量与隐藏层上的RBM哈密顿量是相同的:

同样,当一个精确的RG变换可以实现时,真哈密顿量和变分哈密顿量是相同的:

因此我们可以看到,具有自旋v和块自旋h的重正化群的一个步骤可以精确地映射到一个由可见单位v和隐藏单位h构成的两层RBM。

当我们堆叠越来越多的RBM层时,我们实际上正在执行越来越多轮的RG转换。

对伊辛模型的应用

在此基础上,我们得出结论,RBM(一种无监督深度学习算法)实现了变分RG过程。梅塔和施瓦布通过在一个很好理解的伊辛自旋模型上实现堆叠RBM来证明他们的想法。他们将从伊辛模型中采样的自旋构型作为输入数据输入DNN。他们的结果显示,DNN似乎可以实现块自旋重正化。

在他们论文的中,A显示了DNN的架构。在B中,学习参数W被绘制出来显示隐藏和可见单位之间的相互作用。在D中,当我们沿着DNN层移动时,我们看到块自旋的逐渐形成(图中的斑点)。在E中,显示了三个数据样本的宏观结构的RBM重构。

  • 深度神经网络应用于二维伊辛模型。

结论和展望

在2014年,梅塔和施瓦布证明了一个受限玻尔兹曼机,与重正化群有关。重正化群是一个源于物理的概念。在本文中,我回顾了他们的部分分析。正如之前所认识到的,RG和深度神经网络都具有显著的“哲学相似性”,两者都将复杂的系统提炼成相关的部分。这种RG-RBM映射就是这种相似性的一种形式化描述。

既然深度学习和生物学习过程有许多相似之处,那么假设我们的大脑也可能使用某种“类固醇再常态化”来理解我们感知到的现实,也就不太夸张了。

问题在于,与RG运行良好的自相似系统(带有分形行为)相比,系统在本质上通常是不自相似的。摆脱这种限制的一种可能方法是,我们的大脑以某种方式在所有神经元影响整个神经网络的临界点上运行。但这是另一篇文章的主题!

想了解更多精彩内容,快来关注老胡说科学

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
10赞
大家都在看打开应用 查看全部
网易热搜每30分钟更新
打开应用 查看全部
打开