在人类探索的历史中,大脑仿佛是宇宙留给人类的最后一块版图。长期以来,神经科学家们一直致力于勾勒出这块版图上的线条,试图解答大脑如何执行那些看似不可能的复杂任务。尽管我们取得了一些进展,但大脑的高度复杂性和惊人的效率仍然让人望尘莫及。于是,受大脑结构及其信息处理方式的启发,我们设计出了神经网络,以帮助解决现实世界中的复杂问题。

但随着技术尤其是深度学习的飞速发展,这种模仿与理解的关系正在经历一场根本性的转变。神经网络,特别是深度学习模型,已不再局限于单纯模仿大脑的工具,它们正成为理解大脑之谜的关键钥匙。这些模型以其高度复杂和精细的处理能力,正在帮助我们揭开大脑是如何在多变和复杂的环境中学习和做出决策的秘密。这种从单向模仿到双向理解的转变,不仅在神经科学领域开辟了新的探索之路,更为我们提供了一个独特的窗口,透过它,就能更深入地洞察那个蕴藏在我们头颅中,重仅三磅,却包含着无限可能的宇宙。

大脑与计算模型的基本结构

神经元,是大脑核心构成单元。它们通过相互连接并发射电信号的方式,共同参与对事物的解释、推理和决策等复杂功能的执行,以帮助大脑处理不同信息,并灵活应对多变环境。神经元学习的关键在于突触的可塑性。当神经元之间频繁传递信号时,相关的突触连接会强化,形成记忆和学习。这种神经可塑性使得大脑能够根据经验调整神经网络的连接权重,从而适应不同的环境和任务。

1943年,McCulloch和Pitts就发现[1],神经元的脉冲及其开关状态是一种逻辑门。他们认识到,大脑是一种由细胞组成的机器,类似于蜜蜂群体中涌现出复杂行为的现象。十年后,心理学家Frank Rosenblatt提出了感知器概念,这是一种单层简易神经网络,旨在通过监督学习模拟大脑的学习过程。感知器通过调整权重,使模型学会从输入到输出的映射关系。这类似于大脑中神经细胞之间的突触连接调整过程。

打开网易新闻 查看更多图片

图1:计算神经网络示意图。图源:参考文献2。

Rosenblatt的感知器有三种不同类型的“细胞”(单元)组成,分别代表“投射”,“关联”和“响应”。它通过将权重与特征向量结合,使用线性预测函数进行预测,并从样本数据中学习权重,以应用于新数据。然而,这种方式很快在非线性问题上遇到了局限。

为了克服这一局限,研究人员引入了“隐藏层”和“激活函数”等概念。这些神经元可用于解决早期构建感知器时遇到的一些基本问题,特别是在接受大量神经元的馈送和训练数据时,它们解决了感知器在处理非线性问题上的局限性。由此,研究人员终于发现了一个能够有效解决非线性问题的“公式”——以深度学习(DL)为核心的神经网络。

虽然人工神经网络和生物神经网络在行为层面上具有相似之处,它们的学习方法却大不相同。人工神经网络使用梯度下降来最小化损失函数并达到全局最小值。其梯度下降需要反向传播,而反向传播只能在生物神经网络中的一个神经元的范围内进行。相比之下,生物神经网络采用的是赫布学习原则,通过尽可能多的学习实例,提高一个神经元激活另一个神经元的效率,进而增强连接,使其更容易传递信号。这种基于时间顺序的连接强化是生物神经网络学习和形成记忆的基础。反之,如果这种激活模式不再发生,连接可能会减弱,表现为我们所说的“遗忘”。

尽管方式不一,但行为的相似,也足以帮助我们借用人工神经网络类比和理解生物神经网络。

自监督学习模型与大脑活动相似

近期,麻省理工学院的K.Lisa Yang与计算神经科学中心的研究人员发布的两项实验,为人脑可能使用类似于人工神经网络运作(自监督学习)的方式来理解世界的观点,提供了新证据。他们发现,当他们使用特定的自监督学习模型时,模型能够从未标记的数据中理解环境,表现出了强大的迁移学习能力和可重用性,从多种层面展现出了与哺乳动物大脑相似的活动模式。

更为引人注目的是,这些自监督模型能够学习到物理世界的表征,从而准确预测物理世界将要发生的事情。他们认为,哺乳动物的大脑可能具有相同的学习策略。例如,哺乳动物的大脑也会通过观察环境来学习和理解环境,而无需外部的指导或标签。这种学习方式使得哺乳动物能够适应各种各样的环境,并在面对新的挑战时,能够利用过去的经验来做出反应。

视觉模型

在视觉处理领域,早期的神经网络模型主要依赖于监督学习,即在大量有标签的图像上进行训练以学习分类。这种方法虽然在特定任务上表现良好,但它的一个主要局限在于对大量人工标记数据的依赖。因此,自监督模型逐渐成为更为有效的替代方案。

自监督模型,旨在从未标记的数据中学习有用的表示,摆脱了对外部注释或标签的依赖。其核心在于让模型自行从输入数据中生成目标,并优化生成目标与原始输入之间的关系,从而实现对数据潜在表示的学习。这种学习方式的独特优势在于,它能够有效地利用大量未标记的数据。由于不需要人工进行繁琐的标注工作,这使得自监督学习成为在数据稀缺或标注成本高昂的情况下的理想选择。

在麻省理工学院的一项新研究中[3],研究人员通过使用数十万描述日常场景的视频,训练了一个自监督模型,该模型可以预测未来场景的状态。与传统难以适应不同任务的模型不同,他们发现通过对自然数据进行自监督学习,可以使模型成功推广到其他任务。

图2:原始论文。图源:参考文献3

研究人员将训练完成的自监督模型应用于一个名为“Mental-Pong”的任务中,这是一种类似于用球拍击球的视频游戏。在这个任务中,球在即将被击中前会突然消失,玩家需要通过预测球的轨迹来成功击中它。

研究人员发现,他们的自监督模型能够准确地追踪隐藏球的轨迹。在他们的研究中,该模型能够成功模拟看不见的球的轨迹,表现出类似于人类进行“心理模拟”的认知现象。

在动物玩类似游戏时,其大脑的背内侧额叶皮层常会显示特定的神经激活模式。背内侧额叶皮层不仅会对空间位置和变化作出响应,而且在规划未来行动时表现出活跃性,包括对于如何达到目标、选择适当策略等方面的规划。自监督模型在执行任务时展现的神经激活模式,与动物在游戏中大脑的这一部分所表现的模式惊人地相似。研究人员表示,没有其他类型的计算模型能够像这个自监督模型那样与生物数据如此接近。

这一发现深化了对自监督学习模型与大脑相似性的理解:大脑在执行各种任务时展现出特定区域的神经激活模式,而自监督模型似乎能够在类似的任务中产生相似的模式。这不仅突显了自监督学习模型的潜在优势,同时为揭示大脑运作机制提供了更多线索。

空间导航

无独有偶,由Khona、Schaeffer和Fiete领导的另一项研究[4],通过自监督学习模拟了网格细胞的行为,暗示着大脑可能采用类似的自监督机制来训练神经元,以学习和理解其所处的世界。

打开网易新闻 查看更多图片

图3:原始论文。图源:参考文献4

网格细胞,位于内嗅皮层,与海马体中的位置细胞协同工作以帮助动物进行空间定位与导航。其独特之处在于,它们在空间中的多个点激活,形成一种对称且极其精确的六边形网格,就像精细的内部GPS系统。每个网格细胞都有其独特的坐标模式,但一个单独的网格单元无法准确指示动物的具体位置,因为它在多个点都会激活。然而,当多个网格单元的图案重叠时,就能非常精确地确定动物的位置。这些图案在大脑中形成了一种内部坐标图,有助于测量空间中不同点的距离。

在先前的研究[5]中,研究人员训练了一种自监督模型,来模拟网格细胞的功能,即根据动物的起点和速度自主预测下一位置,完成这一“路径整合”任务。然而,这类模型始终需要绝对空间的信息,而这这是动物所不具备的。

受这项研究的启发,Khona等人训练了一种对比自监督网络,执行相同的路径积分并以此表示空间。与之前的研究不同,该模型可以像网格细胞一样,通过位置的相似与不同来相对的区分位置。

“这类似于图像训练模型。如果两张图像都是猫,它们的编码应该相似,但如果一张是猫,一张是卡车,那么他们的编码应该互斥。而我们采用同样的想法,但将之用于空间轨迹。” Khona解释道。

在网格细胞与计算模型的早期研究中,麻省理工学院的团队也曾调整模型,使位置编码单元更贴近生物的位置细胞。在这个过程中,虽然模型仍然能够执行路径整合任务,但却不再产生类似网格细胞的活动。当研究人员要求模型生成不同类型的位置输出,例如在网格上的X轴和Y轴位置,或相对于起始点的距离和角度的位置时,类似网格细胞的活动也消失了。

Fiete曾指出:“如果你要求这个网络唯一要做的事情是路径整合,并且对单元施加了一套非常具体而非生理的要求,那么就有可能获得网格细胞。但如果你放松对读出单元的这些要求,网络产生网格细胞的能力就会大幅降低。”

最终,通过引入分离损失、路径不变性损失和容量损失三种损失函数,他们优化神经网络,使其能够形成多种不同的网格图案,与网格细胞的自然活动相似,并能在训练分布之外良好地泛化。此外,他们还通过一系列数学属性,如代数编码、高容量表示、快速去相关性等,将网格细胞的编码理论属性表征出来。这都代表着大脑的复杂空间表征不是通过外部监督学习获得的,而是通过一种内在的、自主的学习过程(自监督学习)形成的。

意义

除视觉、空间导航外,Edward Chang等人利用自监督模型研究了语音模型与人脑听觉通路的相似性[6];而在认知功能和精神障碍的机制[7]上,相关模型也发挥着重要作用。它们都暗示着,大脑活动与自监督学习的相似性。

因此,神经网络不仅是一种强大的预测工具,更是我们解读和模拟生物神经网络的关键窗口。我们可以通过训练一个模拟生物神经网络的计算神经网络,并观察其活动来解释和类比生物神经网络的运作方式。同时,生物神经网络也能指导我们考虑更多已知的生物层面的限制,使我们的计算模型更加接近现实。

模仿大脑设计神经网络,使得计算模型具有生物特征;借由自监督学习探究大脑原理,以期发现大脑的计算特征。这一探索过程的终点,机械与生物之间的界限正变得越来越模糊。正如凯文·凯利在其著作《必然》中所指出的,“机械的终点是生物,而生物的终点是机械”。在这个交错的领域,究竟是否存在明确的分界线?随着我们不断的探索,这个问题的答案也将越发清晰。

参考资料:

  • [1] McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. The Bulletin of Mathematical Biophysics, 5(4), 115–133. https://doi.org/10.1007/BF02478259
  • [2] https://www.frank-dieterle.de/phd/2_7_1.html
  • [3] Nayebi, A., Rajalingham, R., Jazayeri, M., & Yang, G. R. (2023, May 19). Neural Foundations of Mental Simulation: Future Prediction of Latent Representations on Dynamic Scenes. arXiv.Org. https://arxiv.org/abs/2305.11772v2
  • [4] [2311.02316] Self-Supervised Learning of Representations for Space Generates Multi-Modular Grid Cells. (n.d.). Retrieved 1 December 2023, from https://arxiv.org/abs/2311.02316
  • [5] Schaeffer, R., Khona, M., & Fiete, I. R. (2022). No Free Lunch from Deep Learning in Neuroscience: A Case Study through Models of the Entorhinal-Hippocampal Circuit (p. 2022.08.07.503109). bioRxiv. https://doi.org/10.1101/2022.08.07.503109
  • [6] Dissecting neural computations in the human auditory pathway using deep neural networks for speech | Nature Neuroscience. (n.d.). Retrieved 1 December 2023, from https://www.nature.com/articles/s41593-023-01468-4
  • [7] Frontiers | Editorial: Computational models of brain in cognitive function and mental disorder. (n.d.). Retrieved 1 December 2023, from https://www.frontiersin.org/articles/10.3389/fpsyt.2023.1230587/full