打开网易新闻 查看更多图片

导语

词向量是自然语言处理中的一项基础性技术,通过词语之间的共同出现网络,可以在低维空间表征词汇间的语义相关性。4月23日发表在 Science Advences 的论文,通过论文引用网络,结合神经网络为不同的学科的科研期刊构建了连续的向量化嵌入表征,从中可以了解新知是如何被创造和组织的。

郭瑞东| 作者

邓一雪| 编辑

论文题目: Neural embeddings of scholarly periodicals reveal complex disciplinary organizations 原文地址: https://advances.sciencemag.org/content/7/17/eabb9004

在谁是卧底的游戏中,玩家要根据几个问题,来猜出谁的词汇不同,这背后就蕴含着词向量的逻辑,通过将词语在语料库中是否总是一起出现,可以得到高维度的词汇编码。除了词汇、句子、段落,文档、图像以及网络中的节点,也可以通过类似的方式进行向量化编码。通过向量化编码,可以从语料中找到语言演化,性别刻板印象,文化和身份认同方面的隐藏信息,甚至还可以通过向量化编码,对材料性质进行预测。

将向量化表征应用于学术界的过程,可以想象为你在阅读一篇来自你不熟悉的领域的论文。为了理解这篇论文,你可能需要阅读参考文献列表中的另一篇论文,这反过来可能会促使你阅读另一篇更早期的论文。如此的引文网络,便能够反映出学科间的相互依赖关系。

通过把每一种期刊看作一个“词”,把每一条引用关系看作一个“句子,该文采用随机行走,让神经网络来学习编码期刊之间语义关系的嵌入向量。该文指出,期刊的向量化嵌入,能够有效地对科学中复杂的知识组织进行编码,使我们能够进行新颖的定量分析,如期刊之间的跨学科类比。

该研究使用的数据集,是微软学术网络(Microsoft Academic Graph),其中包含5300万论文,4亿引用连接。通过将20835个学术期刊,编码为100维的向量,可以发现相同类型的期刊聚在一起,例如距离 PNAS 最近的是 Nature 和 Science 两家顶级期刊。

通过对不同期刊的向量表征进行K-means聚类,可以得出13类,每类分别对应一种学科,下图展示了聚类结果。其中大部分期刊,都出现在对应的学科门类下,但对于少数跨学科研究,例如寄生虫研究或神经成像,期刊嵌入技术则无法正确的描述其所属学科。

打开网易新闻 查看更多图片

13个学科(不同颜色)期刊的嵌入向量降维后的二维可视化,交互版本见 https://haoopeng.github.io/journals

通过计算论文所属期刊和其所引用各个期刊间的余弦相似度,并对其进行加和,可以判断一篇论文的跨学科性有多强,例如一篇引用了多门学科的论文,就更有可能是一篇跨学科的研究。

该研究还构建了期刊之间的类比网络,以重现出词向量能够包含的“国王-女王=男人-女人”这样的类比关系。给定一个期刊对(a,b) ,其中 a 是典型的计算机科学期刊,b 是社会学期刊,类比网络通过重复进行向量间的类比,可以找到具有最类似关系的两个期刊,由此构建期刊之间的类比网络。

按照主题的复杂性和假设的发展顺序排列科学分支,会发现自然科学,如数学和物理学处在最底层(需要更少的假设),社会科学位于最顶层(需要对人的行为进行预设)。前者被认为是更硬核的学科,后者则是相对较软的。基于不同不同期刊的相似度,可以将不同学科在这一维度上进行排列。

从硬科学到软科学,不同学科的硬核程度可视化

第二个描述科学的维度是从社会科学到生命科学的维度。从这一维度评价,会发现生物医学学科位于这个光谱的生物学端附近。大多数物理科学,包括“化学”、“地球科学”和“数学与物理”,分布在光谱的中间。然而,计算机科学在这一维度上,更接近“社会科学”而处在另一极端,这与之前的维度衡量时,由于其更为硬核,和数学和物理更接近有所不同。

从生命科学-社会科学的维度来衡量不同学科

总结来看,尽管可能存在更好的对学术期刊进行连续式表征的方法,且期刊表征的质量,取决于所用数据集的完整程度及过滤方法。但该文证明了对学术期刊的嵌入,可通过矢量类比,找到跨学科的相似关系,并按概念科学维度组织期刊和学科。这有助于科学学要研究的学科间的复杂组织问题。

未来,通过对专利网络进行向量化嵌入,可否发现技术进步和科学研究在跨学科性上的差异,以及通过对风险投资网络进行类似的向量化嵌入,以发现公司成败之间隐藏的联系,则是该文在方法学上带来的启示。