打开网易新闻 查看更多图片

编译 | 青暮

Criteo AI Lab机器学习研究科学家Sergey Ivanov近期写了一篇文章,统计了NeurIPS 2020上的论文作者和组织的信息。早在NeurIPS2020论文接受列表出炉之际,他就进行了初步分析,这次他发表了更加详细的分析结果。

AI科技评论近日也从大牛发表论文和论文主题分类两个角度对接受列表进行了整理,感兴趣的同学可以去查看。

NeurIPS 2020论文接收列表: https://neurips.cc/Conferences/2020/AcceptedPapersInitial

分析代码:https://github.com/nd7141/icml2020

1

一般统计

今年共有9454篇论文提交,1900篇总接收,录取率仅为20.09%,其中105篇被接收为oral,280篇被接收为spotlight。

NeurIPS提交的论文数量以每年40%的速度增长,按照这一速度, 到2025年可能会有5万篇提交论文(祝审稿人好运)。

尽管提交的论文数量不断增加,但接受率仍然保持在很稳定的水平。

2

组织机构

打开网易新闻 查看更多图片
类似于ICML 2020,谷歌、斯坦福大学和麻省理工学院的论文接受数量保持领先。

在前十名中,有三个美国以外的机构:第一个是清华大学(排名第7位),其次是DeepMind(排名第9位)和牛津大学(排名第10位)。

在上图中,如果某个组织参与了论文撰写,就为该组织增加一个计数。还有另一种计算论文数量的方法,就是考虑论文中的作者数量N,并将计数增加1 / N,这是所谓的归一化论文数。

虽然归一化分数低于原始分数,但Top组织的相对排名几乎保持不变。

3

作者

ICML 2020中有9位作者发表了7篇以上的论文, NeurIPS 2020则有28位作者发表了7篇以上的论文。

与机构的论文统计图类似,我们可以根据每篇论文的作者数量来归一化每位作者的论文数量。

打开网易新闻 查看更多图片

归一化后的论文数量比原来的数量减少了3-4倍,这意味着Top作者的平均论文数量为3-4篇。

为了测试这是不是NeurIPS的通常情况,下图比较了2017-2020年间排名前N位的作者的平均论文数量。

每年排名前10位的作者发表的论文数量在4年中翻了一番,从2017年的平均4.6篇增加到2020年的平均8.3篇。

即使考虑了前1000名作者,现在最多产的作者的发表论文数也翻了一番。但是,如果考虑所有作者,趋势将略有下降。这意味着到2020年,会有更多的论文有大量的合著者,或者更多作者仅发表一篇论文。

我们可以进一步看一些牛人,看看他们在过去四年中是如何增加接受论文的。

他们拥有 大量接受论文的主要原因是与更多学者合作。例如,Sergey Levine到2020年拥有来自8个分支机构的35位合著者。

4

合作

我还计算了同一机构撰写的论文数,也就是将归一化的接受论文数除以接受论文总数。如果该数字等于1,则意味着所有论文仅由该组织的员工撰写。

Top机构 的内部协作量相差很大:从KAIST的74%(KAIST的每篇论文大约有四分之三的作者来自KAIST)到Microsoft的41%。

我们可以扩展特定组织的协作列表。

打开网易新闻 查看更多图片

值得注意的是, 谷歌并未与其他工业公司(DeepMind除外)合作发表论文,而MIT与世界各地的工业界和学术界都有合作。

接下来,从全球范围看协作图。由于大约有900个组织,所以显示情况一团糟,但是我们可以绘制一个子图,其中包括仅拥有最多协作关系的从属关系。

上图中的子图是互相连接的,每个节点大小等于机构的发表论文数,边的粗细等于两个机构之间的合著作者数。

我们可以以作者为节点做同样的事情。

该子图中的某些作者只是孤立的顶点,这意味着他们与该子图中出现的其他Top合作者没有协作。

此类网络的两个一般特征是最大连接子图的大小和图的直径(两个顶点之间最短路径的最大值)。

因此,在NeurIPS 2020上有907个不同的隶属关系(红色)和约6000个不同的作者(蓝色)。

作者图和隶属图在结构上有很大的不同。隶属图中有一个巨大的最大子图,涵盖了大多数隶属关系(占图的85%),并且直径较小(8)。

在作者图中,最大的子图覆盖了不到50%的节点,并且有许多约50个节点的“小岛”,它们不与网络的其余部分连接。此外,作者图最大子图的直径等于25(远高于六度分离定律)。 这意味着作为一个研究社区,我们仍然非常疏远。

5

国家

现在让我们考虑一下不同国家的表现。我将机构总部所在国家作为论文从属的国家。虽然这可能会将个别论文归于“错误的”国家,但类似于ICML 2020的分析,结果应该非常接近现实(由于大学关联的是单个国家,而大学发表的论文远远多于企业)。

毫不奇怪,美国再次登上了榜首,参与了一半以上的论文。中国领先英国,位居第二。

放大特定的国家/地区,我们可以看到机构的排名列表(3篇以上论文),以下列出每个国家发表论文最多的前3~10位。

美国:谷歌、斯坦福大学、MIT、微软、UC伯克利、CMU、普林斯顿大学、Facebook、哥伦比亚大学、伊利诺伊大学

中国:清华大学、北京大学、腾讯、阿里巴巴、上海交通大学、香港中文大学、浙江大学、南京大学、西安电子科技大学

英国:DeepMind、牛津、剑桥

加拿大:多伦多大学、MILA、英属哥伦比亚大学

瑞士:洛桑联邦理工学院、苏黎世大学、日内瓦大学

德国:马普所、慕尼黑工业大学、图宾根大学

除了美国和中国(排名靠前的有多家企业)以外,其他国家/地区的主要发表机构仍是学术机构和大学。

6

结论

这篇文章涵盖了作者、单位和国家的论文统计。 它还显示了过去几年的论文发表率如何变化以及作者和组织如何合作。 将来,将这些统计数据与其他会议(如ICML、ICLR、AAAI等)进行更彻底的比较会很有趣。 那些有兴趣进行自己的分析的人可以随时查看代码。

原文链接:https://medium.com/criteo-labs/neurips-2020-comprehensive-analysis-of-authors-organizations-and-countries-a1b55a08132e