统计学是现代人工智能的支撑性基础学科之一,它为人工智能提供了很多想法和工具,是进入人工智能的“一扇门”。
在人工智能的研究和应用中,统计学是不可或缺的。作为与数据对话的语言,统计学主要的研究对象就是数据,包含数据收集、基于定量模型的数据分析,以及根据分析结果对数据来源的问题进行决策。如今,计算机与互联网的发展使得人类几乎所有的信息传播载体都可以成为数据,这些海量的、各种形式的、生成极快的数据形成了“大数据”的概念,它为人工智能提供了基础素材。当今,人工智能发展已经迎来第三波浪潮,其技术实现路径与统计学的主要研究范式基本吻合,即基于数据,使用算法与模型,从数据中提取规律,模仿数据中蕴含的智能模式来进行决策。
人工智能中的机器学习技术包含浅层学习与深度学习,它们都有各自的统计学基础作为依托。浅层学习出现的时间更早,是指结构相对简单、有较好解释性的机器学习算法。它们不像深层模型那样层数很多,却能在一些特定任务中有良好的表现。从理论基础的角度看,浅层学习与统计学有着非常密切的关系。浅层学习中很多技术方法,比如线性模型、决策树、提升算法等,都是统计研究中的重要组成部分,被应用于回归、分类、聚类等领域。在生成式人工智能出现前,人工智能的主要应用场景如图像识别、语音识别、文本分类等,均大量使用了浅层学习技术。
不过,当前人工智能的强大主要归功于深度学习技术的发展。深度学习是采用深层神经网络架构来构造模型的机器学习技术,涉及到计算机科学、数学、统计学等学科的交叉。这其中,统计学为其提供了一些基础性的思想与方法,比如深度学习里许多目标函数的构建、优化技术的设计均来源于统计学的研究成果。
因此,统计学是现代人工智能的支撑性基础学科之一,它为人工智能提供了很多想法和工具,是进入人工智能的“一扇门”。
统计学作为人工智能重要的支撑性学科,能够为人工智能的理论研究带来基于统计视角的贡献,同时人工智能的发展也会要求统计学研究探索新的方向。
近年来,很多统计学者开始尝试将各种深度学习技术引入到传统的统计模型中,并利用大规模数据进行训练。由于深度学习中的模型相对传统方法更加复杂,因此大幅提高了传统模型的预测和推理性能,获得了很多有意义的研究成果。
随着越来越多的深度学习技术被引入统计建模,这些技术的理论性质也引起了统计学者们的兴趣。统计学对于数据的随机性、模型的可解释性、模型的近似能力等方面均有自己独到的理解与成熟的理论框架,可以为深度学习的理论研究作出统计视角的贡献。
但从另一个角度来看,鉴于深度学习技术的复杂性,统计学者很可能需要突破统计学原有的理论框架和认知维度,甚至需要发展出新的框架、使用新的工具与技术,才能将深度学习的理论研究带上更高一层楼,这是一件相当有挑战的事情。
不止于此,人工智能如今之所以能够引起商业界乃至整个社会的高度关注,是因为人工智能技术的发展一直是以解决实际问题为出发点,强调与各个学科间的交叉互动,而不只是推导一些算法和公式。所以在人工智能时代,统计学研究势必要像人工智能研究一样重视从实际问题出发,并将研究结果产品化,以提升影响力。
作者 | 郁文,系复旦大学管理学院统计与数据科学系教授、系主任