读懂诺贝尔奖（一） | 聊聊机器学习那些事

两位诺贝尔奖得主

约翰·J·霍普菲尔德（左），1933年出生于美国伊利诺伊州芝加哥市，1958年获得美国康奈尔大学博士学位，现任美国普林斯顿大学教授。

杰弗里·E·辛顿（右），1947年出生于英国伦敦，1978年获得英国爱丁堡大学博士学位，现任加拿大多伦多大学教授。

机器学习的3种基本方法

机器学习是人工智能和计算机科学的重要分支，是基于样本数据构建模型并利用模型在没有明确编程的情况下做出预测或决策的一类算法。监督学习、无监督和强化学习是机器学习的基本方法。

监督学习

监督学习使用人工标记的训练样本将已有知识应用于新数据，以预测未来事件。1936年，英国数学家费希尔（Ronald Fisher）提出的线性判别分析是最早的监督学习算法。20世纪50年代，基于贝叶斯决策理论的贝叶斯分类器开始被用于分类问题。1958年，美国认知心理学家罗森布拉特（Frank Rosenblatt）发明感知器算法，它被认为是人工神经网络的前身。1967年，美国信息理论家科弗（Thomas Cover）和计算机科学家哈特（Peter Hart）提出基于模板匹配思想的K-最近邻算法。20世纪八九十年代，决策树和神经网络算法开始兴起。1995年，两种重要算法——支持向量机和AdaBoost诞生。支持向量机是处理线性分类和非线性分类问题的主要方法，而AdaBoost可以将许多其他类型的算法集成起来使用以达到最佳性能。1995年至1997年，德国计算机科学家霍赫赖特（Sepp Hochreiter）和施米德胡贝（Juergen Schmidhuber）提出长短期记忆算法，可以部分处理梯度消失问题。2013年，长短期记忆算法与深度循环神经网络结合成功应用于语音识别。2001年，美国统计学家布赖曼（Leo Breiman）提出优化的随机森林算法。随机森林是一个用随机方式建立的包含多个决策树的分类器，对多数据集和高维数据的处理有很大优势。

监督学习的常见应用场景包括评估信用分数、手写识别、语音识别、信息检索、财务分析、侦测垃圾邮件等。

02无监督学习

无监督学习是基于统计的学习方法，通过对未知数据进行分析来发现数据隐藏特征。无监督学习包括聚类和数据降维两种主要算法类型。1963年，美国空军研究员沃德（Joe Ward）根据方差分析提出了最早的聚类算法——层次聚类算法。1967年，美国数学家麦奎因（James MacQueen）提出的k均值算法是聚类算法中知名度最高的算法，在此基础上出现了大量的改进算法和成功应用。1977年，美国统计学家登普斯特（Arthur Dempster）提出最大期望算法，被用于聚类问题和极大似然估计问题。1995年，美国辛辛那提大学教授程（Yizong Cheng）提出可用于计算机视觉和图像处理的均值漂移算法。2000年，美国计算机科学家史建波（Jianbo Shi）推广了谱聚类算法，可以将聚类问题转化为图的最优切割问题。最早的数据降维算法是1901年英国数学家及生物统计学家皮尔逊（Karl Pearson）提出的主成分分析法，比第一台真正的计算机的诞生早了40多年。然而，在此后的近100年里数据降维算法在机器学习领域没有出现重量级成果。1998年，德国计算机科学家舍尔科普夫（Bernhard Schölkopf）提出基于核方法的核主成分分析算法，可以实现高维数据的非线性降维。2000年以后，流形学习开始成为热点，它的主要思想是将高维的数据映射到低维，使该低维的数据能够反映原高维数据的某些本质结构特征。基于流行学习出现了局部线性嵌入、拉普拉斯特征映射、局部保持投影等距映射等新算法。2008年出现的t-分布式随机邻居嵌入算法是降维算法中最年轻的成员。

无监督学习的常见应用场景包括反洗钱、客户分组、广告推荐、销售趋势预测等。

强化学习

强化学习源于心理学中的行为主义理论，强调智能体在奖励或惩罚的环境刺激下如何做出能取得最大化预期利益的行动，也就是说，让智能体在环境中自我学习。早在1954年，明斯基就提出了“强化学习”的概念和术语。1965年，美国普渡大学教授傅京孙（King-Sun Fu）在研究控制论时提出“智能控制”的概念，明确了“试错”作为强化学习的核心机制。1957年，美国应用数学家贝尔曼（Richard Bellman）为了求解最优控制问题的马尔可夫决策过程提出了动态规划法，这一方法采用了类似强化学习的试错迭代求解机制。最早的强化学习算法是1988年加拿大计算机科学家萨顿（Richard Sutton）提出的时序差分学习，它不需要获知环境的全部信息就可以直接从实际经验来获取信息，同时不需要完整的收益反馈信息就可以实时更新决策。1989年，英国计算机科学家沃特金斯（Chris Watkins）提出的Q学习进一步拓展了强化学习的应用，使得强化学习不再依赖于问题模型，Q学习也因此成为最广泛使用的强化学习方法之一。此后近20年的时间里，强化学习被监督学习的光芒所遮掩而发展缓慢。2010年以后，强化学习结合神经网络发展出深度强化学习算法，强化学习由此迎来大发展时期。2013年，谷歌公司旗下的深度思维公司（DeepMind）发表了利用强化学习玩雅达利（Atari）游戏的论文。2015年，深度思维公司开发的AlphaGo程序击败了围棋二段选手樊麾，成为第一个无须让子即可以击败围棋职业棋手的计算机围棋程序。2016年，AlphaGo在一场五番棋比赛中以4:1击败顶尖围棋职业棋手李世石。

强化学习的常见应用场景包括无人驾驶、机器翻译、医疗保健、新闻定制、广告营销、机器人控制等。

深度学习发展历程

为了理解此次获奖的两位科学家在机器学习发展过程中，究竟做出了怎样的开创性贡献，让我们一同来回顾深度学习的发展历程，在其中搜寻霍普菲尔德与辛顿的名字。

深度学习是机器学习的一个分支，是一种模拟大脑神经网络结构对数据进行表征学习的方法。深度学习源于对人脑工作机制的研究。获得1981年诺贝尔生理学或医学奖的美国神经生理学家休伯尔（David Hubel）和维泽尔（Torsten Wiesel）发现人的视觉系统的信息处理是分级的，人类对高层特征的感知基于低层特征的组合。例如，对人脸的识别经过瞳孔摄入像素（形状判断）抽象出人脸概念——识别为人脸的过程，从低层到高层的特征表达越来越抽象和概念化。这一发现意味着大脑是一个深度架构，认知过程也是深度的，而深度学习恰恰就是通过组合低层特征形成更加抽象的高层特征。深度学习的发展可以分为感知器、神经网络和深度学习等3个阶段。

1943年，美国心理学家麦卡洛克（Warren S. McCulloch）和数理逻辑学家皮茨（Walter Pitts）提出人工神经网络的概念，并构建了人工神经元的数学模型，即MCP模型，从而开创了人工神经网络研究的时代。1949年，加拿大心理学家赫布（Donald Hebb）描述了突触可塑性的基本原理，从神经科学理论上解释了学习过程中大脑神经细胞所发生的变化。赫布理论是人工神经网络的生物学基础。1958年，罗森布拉特在康奈尔航空实验室发明感知器算法，这是世界上第一个具有完整算法描述的神经网络学习算法。感知器算法是简单配置的单层神经网络，可以区分三角形等基本形状。但是，受限于计算机硬件，感知器算法在当时无法被广泛应用。1969年，明斯基和佩珀特（Seymour Papert）证明感知器不能解决简单的异或（XOR）等线性不可分问题，感知器研究随之在20世纪70年代陷入低谷。

1959年，休伯尔和维泽尔在研究猫的视觉神经系统时发现，在大脑的初级视觉皮层中存在两种细胞：简单细胞和复杂细胞，其中，简单细胞感知光照信息，复杂细胞感知运动信息。受此启发，1980年日本计算机科学家福岛邦彦（Kunihiko Fukushima）提出了一个网络模型——“神经认知机”（Neocognitron）。这种网络分成多层，每层由一种神经元组成。在网络内部，两种神经元交替出现，分别用来提取图形信息和组合图形信息。这两种神经元后来分别演化成卷积层（Convolution Layer）和提取层（Pooling Layer）。然而，这个网络的神经元都是人工设计的而不能根据计算结果自动调整，所以只能识别少量简单数字而不具备学习能力。

1982年，美国物理学家霍普菲尔德（John J. Hopfield）基于统计物理提出了有少量记忆能力的霍普菲尔德神经网络模型，开创性地论证了按照赫布法则设计权重的神经网络稳定性问题。同年，芬兰计算机科学家科霍宁（Teuvo Kohonen）通过模拟大脑神经元的信号处理机制，提出了自组织映射网络，被用于数据分析和数据探索，其第一个应用领域是语音分析。科霍宁的关键发明是引入了一个系统模型，包含一个实现赢家通吃功能的竞争性神经网络和一个实现可塑性控制的子系统。1987年，美国科学家格罗斯伯格（Stephen Grossberg）和卡彭特（Gail Carpenter）提出了自适应共振理论网络，通过让已知信息和未知信息发生“共振”，从已知信息推测未知信息来实现类比学习。然而，这些神经网络存在学习效率不高、需要不断优化设计、网络记忆容量小等不足，实际应用范围有限。

1986年，美国心理学家鲁姆哈特（David Rumelhart）、计算机科学家威廉姆斯（Ronald Williams）和加拿大认知心理学家及计算机科学家辛顿（Geoffrey E. Hinton）共同提出反向传播算法（BP算法）。BP算法通过梯度的链式法则使输出结果和真实值之间的差异反馈到每一层的权重中，从而让每一层函数都能像感知机那样得到训练。BP算法阶段性解决了神经网络自适应、自主学习的难题。1989年，贝尔实验室的法国计算机科学家杨立昆（Yann LeCun）第一次成功实现了神经网络的实践应用。他将卷积神经网络与BP算法结合，提出LeNet网络。20世纪90年代，美国邮政署将LeNet网络用于自动读取信封上的邮政编码。然而，基于BP算法的神经网络仅能求解局部最优，而且这种情况随着网络层数的增加越来越严重，这一问题制约了神经网络的发展。

2006年，辛顿提出深度学习算法，通过无监督学习和逐层预训练的方式有效降低了训练难度，从而解决了BP神经网络难以达到全局最优的问题。2012年，辛顿的研究小组采用深度学习赢得了ImageNet图像分类比赛的冠军，准确率超出第二名10%以上，在计算机视觉领域产生极大震动，引发了深度学习的热潮。2013年，《麻省理工科技评论》将深度学习列为年度世界十大技术突破之首。如今，深度学习已经被广泛用于搜索引擎、语音识别、自动机器翻译、自然语言处理、自动驾驶、人脸识别等领域，是人工智能最热门的研究方向之一。

“获奖者的工作已经产生了巨大的效益。在物理学领域，我们将人工神经网络应用于广泛的领域，例如开发具有特定属性的新材料。”2024年诺贝尔物理学奖委员会主席穆恩斯（Ellen Moons）如是说。

本文作者为中国科协创新战略研究院博士后王楠、中国科协创新战略研究院研究员王国强。

本文节选自《智能时代的算法发展》，微信公众号发表时有改动。文中图片均来自瑞典皇家科学院。

科学画报

2024年诺贝尔奖系列文章敬请期待

读懂诺贝尔奖（一） | 聊聊机器学习那些事

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

让AI“开口说话”：复杂模型的解释不再晦涩

沈向洋，发了一个可以识别万物的大模型

AI三重劫

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

李飞飞专访：实现全面智能，解决3D智能是基础性工程

技术的百度：一场未完待续的冒险

所有APP都会被AI重塑，背后的变革关键是什么？

30年冷板凳，诺贝尔物理学奖得主Hinton的AI往事

Jeff Dean亲授职业秘籍，力荐计算机！编码改变全世界

豆包视频理解模型发布，一块钱可处理284张高清图！3D生成模型首披露

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

网友用350美元造出能走能玩的端到端人形机器人

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

读懂诺贝尔奖（一） | 聊聊机器学习那些事

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

让AI“开口说话”：复杂模型的解释不再晦涩

沈向洋，发了一个可以识别万物的大模型

AI三重劫

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

李飞飞专访：实现全面智能，解决3D智能是基础性工程

技术的百度：一场未完待续的冒险

所有APP都会被AI重塑，背后的变革关键是什么？

30年冷板凳，诺贝尔物理学奖得主Hinton的AI往事

Jeff Dean亲授职业秘籍，力荐计算机！编码改变全世界

豆包视频理解模型发布，一块钱可处理284张高清图！3D生成模型首披露

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

告别屈膝小碎步 让机器人像人一样走路 国产团队造出“钢铁侠”

网友用350美元造出能走能玩的端到端人形机器人

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”