KAN干翻MLP，开创神经网络新范式！一个数十年前数学定理，竟被MIT华人学者复活了

新智元报道

编辑：桃子

【新智元导读】KAN的诞生，开启了机器学习的新纪元！而这背后，竟是MIT华人科学家最先提出的实践想法。从KAN到KAN 2.0，这个替代MLP全新架构正在打开神经网络的黑盒，为下一步科学发现打开速通之门。

KAN的横空出世，彻底改变了神经网络研究范式！

神经网络是目前AI领域最强大的工具。当我们将其扩展到更大的数据集时，没有什么能够与之竞争。

圆周理论物理研究所研究员Sebastian Wetzel，对神经网络给予了高度的评价。

然而，万事万物并非「绝对存在」，神经网络一直有一个劣势。

其中一个基本组件——多层感知器（MLP），尽管立了大功，但这些建立在MLP之上的神经网络，却成为了「黑盒」。

因为，人们根本无法解释，其中运作的原理。

为此，AI界的研究人员们一直在想，是否存在不同类型的神经网络，能够以更透明的方式，同样输出可靠的结果？

是的，的确存在。

2024年4月，MIT、加州理工等机构研究人员联手提出，新一代神经网络架构——Kolmogorov-Arnold network（KAN）。

它的出现，解决了以上的「黑盒」问题。

论文地址：https://arxiv.org/pdf/2404.19756

比起MLP，KAN架构更加透明，而且几乎可以完成普通神经网络，在处理某类问题时的所有工作。

值得一提的是，它的诞生源于上个世纪中期一个数学思想。

数学家Andrey Kolmogorov和Vladimir Arnold

这个已经埋了30多年的数学原理，如今在DL时代被这位华人科学家和团队重新发现，再次发光发亮。

虽然，这项创新仅仅诞生了5个月的时间，但KAN已经在研究和编码社区，掀起了巨浪。

约翰霍普金斯大学计算机教授Alan Yuille赞扬道，KAN更易于解释，可以从数据中提取科学规则，因此在科学领域中有着极大的应用」。

让不可能，成为可能

典型的神经网络工作原理是这样的：

一层层人工神经元/节点，通过人工突触/边，进行连接。信息经过每一层，经过处理后再传输到下一层，直到最终将其输出。

对边进行加权，权重较大的边，比其他边有更大的影响。

在所谓的训练期间，这些权重会不断调整，最终使得神经网络输出越来越接近正确答案。

神经网络的一个常见的目标是，找到一种数学函数、曲线，以便最好地连接某些数据点。

它们越接近这个函数，预测的结果就越准确。

假设神经网络模拟了物理过程，理想情况下，输出函数将代表描述该物理过程的方程，相当于物理定律。

对于MLP来说，会有一个数学定理，告诉你神经网络能多接近最佳可能函数。

这个定理表明，MLP无法完美地表示这个函数。

不过，在恰当的情况下，KAN却可以做到。

KAN以一种不同于MLP的方式，进行函数拟合，将神经网络输出的点连接起来。

它不依赖于带有数值权重的边，而是使用函数。

同时，KAN的边函数是非线性和可学习的，这使得它们比MLP更灵活、敏感。

然而，在过去的35年里，KAN被认为在实际应用中，切不可行。

1989年，由MIT物理学家转计算机神经科学家Tomaso Poggio，共同撰写的一篇论文中明确指出：

KAN核心的数学思想，在学习神经网络的背景下是无关紧要的。

Poggio的一个担忧，可以追溯到KAN核心的数学概念。

论文地址：http://cbcl.mit.edu/people/poggio/journals/girosi-poggio-NeuralComputation-1989.pdf

1957年，数学家Andrey Kolmogorov和Vladimir Arnold在各自但相互补充的论文中证明——如果你有一个使用多个变量的单一数学函数，你可以把它转换成多个函数的组合，每个函数都有一个变量。

然而，这里有个一个重要的问题。

这个定理产生的单个变量函数，可能是「不平滑的」，意味着它们可能产生尖锐的边缘，就像V字的顶点。

这对于任何试图使用这个定理，重建多变量函数的神经网络来说，都是一个问题所在。

因为这些更简单的单变量部分，需要是平滑的，这样它们才能在训练过程中，学会正确地调增匹配目标值。

因此，KAN的前景一直以来黯淡无光。

MIT华人科学家，重新发现KAN

直到去年1月，MIT物理学研究生Ziming Liu，决定重新探讨这个话题。

他和导师Max Tegmark，一直致力于让神经网络在科学应用中，更加容易被人理解，能够让人们窥探到黑匣子的内部。

然而，这件事一直迟迟未取得进展。

可以说，在这种「走投无路」的情况下，Liu决定在KAN上孤勇一试。

导师却在这时，泼了一盆冷水，因为他对Poggio论文观点太过熟悉，并坚持认为这一努力会是一个死胡同。

不过，Ziming Liu却没有被吓到，他不想在没有先试一下的情况下，放弃这个想法。

随后，Tegmark也慢慢改变了自己的想法。

他们突然认识到，即使由该定理产生的单值函数，是不平滑的，但神经网络仍可以用平滑的函数逼近数值。

Liu似乎有一种直觉，认定了KAN便是那个拯救者。

因为自Poggio发表论文，已经过了35年，当下的软件和硬件取得了巨大的进步。

在2024年，就计算来讲，让许多事情成为可能。

大约肝了一周左右的时间，Liu深入研究了这一想法。在此期间，他开发了一些原型KAN系统，所有系统都有两层。

因为Kolmogorov-Arnold定理本质上为这种结构提供了蓝图。这一定理，明确地将多变量函数分解为，不同的内部函数和外部函数集。

这样的排列，使其本身就具备内层和外层神经元的两层架构。

但令Liu沮丧的是，所设计的原型KAN并没有在科学相关任务上，表现地更好。

导师Tegmark随后提出了一个关键的建议：为什么不尝试两层以上的KAN架构，或许能够处理更加复杂的任务？

一语点醒梦中人。

这个开创性的想法，便成为他们突破的关键点。

这个羽翼未丰的原型架构，为他们带来了希望。很快，他们便联系了MIT、加州理工、东北大学的同事，希望团队能有数学家，并计划让KAN分析的领域的专家。

实践证明，在4月份论文中，小组团证明了三层KAN，确实是可行的。

他们给出了一个示例，三层KAN可以准确地表示一个函数，而两层KAN却不能。

不过，研究团队并没有止步于此。自那以后，他们在多达六层的KAN上进行了实验，每一层，神经网络都能与更复杂的输出函数，实现对准。

论文合著作者之一 Yixuan Wang表示，「我们发现，本质上，可以随心所欲堆叠任意多的层」。

发现数学定理碾压DeepMind

更令人震惊的是，研究者在两个现实的世界问题中，对KAN完成了验证。

第一个，是数学一个分支中的「纽结理论」。

2021年，DeepMind团队曾宣布，他们已经搭建了一个MLP，再获得足够纽结的其他属性后，可以预测出给定纽结的特定拓扑属性。

三年后，全新的KAN再次实现了这一壮举。

而且，它更进一步地呈现了，预测的属性如何与其他属性相关联。

论文一作Liu说，「这是MLP根本做不到的」。

第二个问题是，设计凝聚态物理中的一种现象，称为Anderson局域化。

其目的是，预测特定相变将发生的边界，然后确定描述该过程的数学公式。同样，也只有KAN做到了在这一点。

Tegmark表示，「但与其他形式的神经网络相比，KAN的最大优势在于其可解释性，这也是KAN近期发展的主要动力」。

在以上的两个例子中，KAN不仅给出了答案，还提供了解释。

他还问道，可解释性意味着什么？

「如果你给我一些数据，我会给你一个可以写在T恤上的公式」。

终极方程式？

KAN这篇论文的出世，在整个AI圈引起了轰动。

AI大佬们纷纷给予了高度的评价，有人甚至直呼，机器学习的新纪元开始了！

目前，这篇论文在短短三个月的时间里，被引次数近100次。

很快，其他研究人员亲自入局，开始研究自己的KAN。

6月，清华大学等团队的研究人员发表了一篇论文称，他们的 Kolmogorov-Arnold-informed neural network（KINN），在求解偏微方程（PDE）方面，明显优于MLP。

对于研究人员来说，这可不是一件小事，因为PED在科学中的应用无处不在。

论文地址：https://arxiv.org/pdf/2406.11045

紧接着，7月，来自新加坡国立大学的研究人员们，对KAN和MLP架构做了一个全面的分析。

他们得出结论，在可解释性的相关任务中，KAN的表现优于MLP，同时，他们还发现MLP在计算机视觉和音频处理方面做的更好。

而且，这两个网络架构在NLP，以及其他ML任务上，性能大致相当。

这一结果在人意料之中，因为KAN团队的重点一直是——科学相关的任务，而且，在这些任务中，可解释性是首要的。

论文地址：https://arxiv.org/pdf/2407.16674

与此同时，为了让KAN更加实用、更容易使用。

8月，KAN原班人马团队再次迭代了架构，发表了一篇名为「KAN 2.0」新论文。

论文地址：https://arxiv.org/pdf/2408.10205

他们将其描述为，它更像是一本用户手册，而非一篇传统的论文。

论文合著者认为，KAN不仅仅是一种达到目的的手段，更是一种全新的科学研究方法。

长期以来，「应用驱动的科学」在机器学习领域占据主导地位，KAN的诞生促进了所谓的「好奇心驱动的科学」的发展。

比如，在观察天体运动时，应用驱动型研究人员，专注于预测它们的未来状态，而好奇心驱动型研究人员，则希望揭示运行背后的物理原理。

Liu希望，通过KAN，研究人员可以从中获得更多，而不仅仅是在其他令人生畏的计算问题上寻求帮助。

相反，他们可能会把重点放在，仅仅是为了理解，而获得理解之上。

参考资料：

https://www.quantamagazine.org/novel-architecture-makes-neural-networks-more-understandable-20240911/

KAN干翻MLP，开创神经网络新范式！一个数十年前数学定理，竟被MIT华人学者复活了

大唐不夜城我摔一跤，引来个别人发声明

实证日本妄图长期占领我国东北

中方敦促以色列立即结束对巴勒斯坦领土的非法占领

传呼机怎么成了致命武器？黎巴嫩真主党为何要使用传呼机？黎以局势重大升级？专家详解

罗玉凤预判三折叠结局！网友：时间会验证她说的是对的

欧冠首轮-拜仁9-2 利物浦3-1逆转米兰皇马3-1

只有6人的日本高中打进全国大赛没钱去

“帽子”批发

库州另两路乌军传捷报，已控俄土191公里，与苏甲乌军成功会师

孟晓苏：一线城市放开限购不必犹豫，所有城镇房屋都应交税！这个税好收，人不在就贴条连贴几年就可依法拍卖

歼20驾驶员称"看到宝岛" 专家:台或根本没发现其航迹

李书记日本护照浮出水面！网友问：“日本护照办理容易吗？”

涉美诚月饼有关情况，广州花都区最新通报

国足教练组各司其职启动下阶段备战工作郑智现身亚冠并未离开国足

全红婵爸爸切200斤大月饼送游客内含365个蛋黄

刚刚，真的是恶魔行为

鹅滴妈呀！俄罗斯能吓死个银！

大陆停止对台湾部分农产品免征关税

万元机皇：三星Galaxy S25 Ultra 国内已入网

证券时报头版：外资机构齐发声,看好人民币资产全球吸引力

KAN干翻MLP，开创神经网络新范式！一个数十年前数学定理，竟被MIT华人学者复活了

大唐不夜城我摔一跤，引来个别人发声明

实证日本妄图长期占领我国东北

中方敦促以色列立即结束对巴勒斯坦领土的非法占领

传呼机怎么成了致命武器？黎巴嫩真主党为何要使用传呼机？黎以局势重大升级？专家详解

罗玉凤预判三折叠结局！网友：时间会验证她说的是对的

欧冠首轮-拜仁9-2 利物浦3-1逆转米兰 皇马3-1

只有6人的日本高中 打进全国大赛没钱去

“帽子”批发

库州另两路乌军传捷报，已控俄土191公里，与苏甲乌军成功会师

孟晓苏：一线城市放开限购不必犹豫，所有城镇房屋都应交税！这个税好收，人不在就贴条连贴几年就可依法拍卖

歼20驾驶员称"看到宝岛" 专家:台或根本没发现其航迹

李书记日本护照浮出水面！网友问：“日本护照办理容易吗？”

涉美诚月饼有关情况，广州花都区最新通报

国足教练组各司其职启动下阶段备战工作 郑智现身亚冠并未离开国足

全红婵爸爸切200斤大月饼送游客 内含365个蛋黄

刚刚，真的是恶魔行为

鹅滴妈呀！俄罗斯能吓死个银！

大陆停止对台湾部分农产品免征关税

万元机皇：三星Galaxy S25 Ultra 国内已入网

证券时报头版：外资机构齐发声,看好人民币资产全球吸引力

欧冠首轮-拜仁9-2 利物浦3-1逆转米兰皇马3-1

只有6人的日本高中打进全国大赛没钱去

国足教练组各司其职启动下阶段备战工作郑智现身亚冠并未离开国足

全红婵爸爸切200斤大月饼送游客内含365个蛋黄