124页哈佛数学系本科论文，带你了解流形学习的数学基础

机器之心报道

编辑：魔王

近日，哈佛大学数学系毕业生、现牛津大学博士 Luke Melas-Kyriazi 发布其本科毕业论文，结合统计学习、谱图理论和微分几何三个数学领域介绍流形学习。

流形学习（manifold learning）是机器学习、模式识别中的一种方法，在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维，使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设，即某些高维数据，实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中，揭示其本质。流形学习可以作为一种数据降维的方式。此外，流形能够刻画数据的本质，主要代表方法有等距映射、局部线性嵌入等。

自 2000 年在著名的科学杂志《Science》首次提出以来，流形学习成为机器学习领域中的一个热点。近日，一篇来自哈佛大学数学系的本科毕业论文引起了大家关注。它结合三个看似不太相关的数学领域来介绍流形学习的数学基础，这三个领域分别是：统计学习、谱图理论和微分几何。

论文链接：https://arxiv.org/pdf/2011.01307.pdf

什么是流形学习？

要想从数据中学习，我们首先要假设数据具备某种内在结构。在一些机器学习方法中，该假设是隐式的。而流形学习领域中该假设是显示的，它假设观察到的数据是嵌入在高维空间中的低维流形。直观来看，这一假设（又叫流形假设）认为数据的形态是相对简单的。

以自然图像的空间为例。图像是以像素形式存储的，因此图像空间在像素空间 R^H×W×3 内。但是，我们希望自然图像空间的维度比像素空间低一些，像素空间某种程度上几乎被看起来像「噪声」的图像塞满了。此外，我们可以看到自然图像空间是非线性的，因为两个自然图像的（像素级）平均并非自然图像。流形假设认为，自然图像空间具备低维流形嵌入在高维像素空间中的微分几何结构。

应当强调的是，流形学习不是监督学习、无监督学习那样的学习类型，这些学习类型指的是学习任务（是否具备标注数据），而流形学习指的是一组基于流形假设的方法。流形学习方法多在半监督和无监督学习设置下使用，不过也可以用在监督学习环境中。

论文内容概览

该论文结合三个数学领域来介绍流形学习：统计学习、谱图理论和微分几何，并在最后一章中介绍了流形正则化的思想。流形正则化可以学习与数据流形相关的函数，而不是数据所在的外围空间。

要想了解流形学习和流形正则化，我们首先需要了解核学习（kernel learning），以及流形与图之间的关系。

论文第二、三章重点介绍和学习。第二章介绍了监督和半监督学习的基础知识，第三章介绍再生核希尔伯特空间中的监督核学习理论，该理论为大量正则化技术奠定了严谨的数学基础。

第四章通过拉普拉斯算子来探索流形与图之间的关系。乍一看，流形与图似乎区别很大，但拉普拉斯算子揭示了二者之间的对应性。

第五章介绍了流形正则化。该研究发现，使用基于数据所生成图的拉普拉斯算子，可以很容易地将流形正则化添加至多种学习算法。本章证明了这一图方法的理论有效性：在无限数据情况下，数据图的拉普拉斯算子能够收敛至数据流形的拉普拉斯算子。

这篇论文的作者 Luke Melas-Kyriazi 今年五月毕业于哈佛大学数学系，现在牛津大学读博。他对机器学习和计算机视觉感兴趣，目前的研究重点是半监督和多模态学习。

个人主页：https://lukemelas.github.io/

GitHub 主页：https://github.com/lukemelas

124页哈佛数学系本科论文，带你了解流形学习的数学基础

4月20日，北大运动会“机器人太奶”走红，24日代理公司回应：机器人是开放平台可编程，配齐大概80万

开鲁县再发声！春耕不能停，费用仍得交，这次真错怪纪云浩了！

美参议院投票通过向乌克兰和以色列援助法案

耿彦波留给大同的这块警示碑再引关注：华严寺综治犯三错，明耻彰过

官方否认种地交钱被免镇干部为干部子女当地回应：其父为普通居民，学历问题正调查核实

沉默的日本，衰落的国运

苏纳克宣布“有史以来最大规模军援”！英国军工业转入战时状态

我国居民居住条件处于欧洲60年前水平，未来高层住宅必定都会被拆除

美国首条"真正意义上的"高铁开工交通部长感慨

东契奇32分独行侠险胜快船1-1 欧文23分

中国游客在印尼“地狱之门”景点坠亡

工商银行突然设立人民武装部，释放了什么信号？逻辑是什么？

大v称"上海人民广场下面的店全关完了" 记者实地走访

成都二环高架公交车道能否开放？已初步拟定方案

太蹊跷！上海小区一报废车长期占据车位，车主按时、足额交停车费，投资已过万，物业很无奈

上海江边多人跑步被保安拦，“你们衣服一样的！”公园：统一着装要报备，不能拍照

神舟十八号瞄准4月25日20时59分发射航天员乘组确定

利物浦0-2埃弗顿！近3轮输2场，落后英超榜首3分，努涅斯错失单刀

被指香港金融史重大时刻华夏博时嘉实三家现货比特币、以太币ETF获批

为中小学教师减负官方部署专项整治工作

124页哈佛数学系本科论文，带你了解流形学习的数学基础

4月20日，北大运动会“机器人太奶”走红，24日代理公司回应：机器人是开放平台可编程，配齐大概80万

开鲁县再发声！春耕不能停，费用仍得交，这次真错怪纪云浩了！

美参议院投票通过向乌克兰和以色列援助法案

耿彦波留给大同的这块警示碑再引关注：华严寺综治犯三错，明耻彰过

官方否认种地交钱被免镇干部为干部子女 当地回应：其父为普通居民，学历问题正调查核实

沉默的日本，衰落的国运

苏纳克宣布“有史以来最大规模军援”！英国军工业转入战时状态

我国居民居住条件处于欧洲60年前水平，未来高层住宅必定都会被拆除

美国首条"真正意义上的"高铁开工 交通部长感慨

东契奇32分独行侠险胜快船1-1 欧文23分

中国游客在印尼“地狱之门”景点坠亡

工商银行突然设立人民武装部，释放了什么信号？逻辑是什么？

大v称"上海人民广场下面的店全关完了" 记者实地走访

成都二环高架公交车道能否开放？已初步拟定方案

太蹊跷！上海小区一报废车长期占据车位，车主按时、足额交停车费，投资已过万，物业很无奈

上海江边多人跑步被保安拦，“你们衣服一样的！”公园：统一着装要报备，不能拍照

神舟十八号瞄准4月25日20时59分发射 航天员乘组确定

利物浦0-2埃弗顿！近3轮输2场，落后英超榜首3分，努涅斯错失单刀

被指香港金融史重大时刻 华夏博时嘉实三家现货比特币、以太币ETF获批

为中小学教师减负 官方部署专项整治工作

官方否认种地交钱被免镇干部为干部子女当地回应：其父为普通居民，学历问题正调查核实

美国首条"真正意义上的"高铁开工交通部长感慨

神舟十八号瞄准4月25日20时59分发射航天员乘组确定

被指香港金融史重大时刻华夏博时嘉实三家现货比特币、以太币ETF获批

为中小学教师减负官方部署专项整治工作