打开

直播 姚班校友李远志​ 理解深度学习中的集成、知识蒸馏和自蒸馏

subtitle
机器之心Pro 2021-06-22 15:04
打开网易新闻 查看更多图片

自2019年至今,清华大学交叉信息研究院-海华研究院AI前沿系列讲座已成功举办36场,来自世界顶尖学府及知名跨国企业的教授、首席科学家,研究人员汇聚在这里,与观众探索交流人工智能领域的前沿问题,分享科研经验。这其中包括:

美国艺术与科学研究院院士、美国国家科学院院士Sanjeev Arora;

多智能体系统创始人、IJCAI卓越奖得主Victor Lessor;

亚马逊首席科学家,美国卡内基梅隆大学计算机科学博士李沐;

德扑算法研发者Noam Brown;

在理论计算机顶会STOC,FOCS,CCC,SODA上发表了十余篇论文,并且获得了2019年STOC最佳学生论文的姚班校友陈立杰;

⋯⋯

本周三,我们即将迎来2021年第一场海华人工智能与前沿信息讲座,届时,现任美国卡内基梅隆大学机器学习系助理教授,微软研究院访问研究员的李远志将分享他的研究成果。

李远志,于2010年到2014年在清华姚班进行本科学习,2018年在普林斯顿大学获得博士学位,导师为Sanjeev Arora。他曾在斯坦福大学做了一年博士后,其研究方向主要为深度学习的基础理论与实践、凸优化算法与非凸优化算法设计、数据处理算法分析等。

Title: Towards understanding ensemble, knowledge distillation, and self-distillation in deep learning.

讲座主题:理解深度学习中的集成、知识蒸馏和自蒸馏。

Time: 10:30,Wednesday, June 23, 2021

时间:2021年6月23日,星期三,上午10点30分

Attendance: Free entrance and this lecture will be given in English

讲座免费向公众开放,本场讲座为线上英文讲座。

李远志/Yuanzhi Li

讲座摘要:

集成神经网络是提高深度学习模型表现的最强大工具之一。在实践中,即使对几个经过相同训练的神经网络(具有相同的架构,在相同的训练数据基础上,使用相同的训练配置),仅使它与训练中使用的随机种子不同,例如初始化或随机梯度下降的选择,再与任何单个模型相比,都可以显著提高其性能。此外,集成模型的卓越测试性能可在之后“提炼”为单个模型,只需训练此模型以匹配原始训练数据集上的集成输出,而无需真实的标签。

在这项工作中,我们研究了这种简单的神经网络集成为何提高性能,以及为何将这种模型改进提炼成单个模型。首先,实验表明深度学习中的集成/知识蒸馏与传统学习方式非常不同,尤其是与随机特征映射或神经切线内核特征映射不同,甚至可能超出现有定理的范围。

因此,为了正确理解深度学习中的集成和知识蒸馏,我们研究出一个理论,当数据具有我们称为“多视图”的结构时,独立训练的神经网络的集成被证明可以提高测试准确性,同时无需真实的标签,仅通过训练单个模型来匹配集成输出,这种卓越的测试准确性也体现在提炼的单个模型上。我们的研究结果揭示了集成如何以与传统定理完全不同的方式在深度学习中发挥作用,以及与真实数据标签相比,可用于知识蒸馏的“暗知识”如何隐藏在集成的输出中。最后,我们证明了自蒸馏也可以被视为内隐地结合集成与知识蒸馏,以提高测试准确性。

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
帮TA点赞
大家都在看打开应用 查看全部
网易热搜每30分钟更新
打开应用 查看全部
打开