武书连2021全世界4000所大学胜者排名

--基于大学论文引用的研究结果

本文主要内容

一、数据采集和计分方法

二、胜者在前评价标准

三、基础得分与初始排名

四、胜者在前评价原则

五、胜者在前评价过程

六、胜者在前算法描述

七、武书连2021全世界4000所大学胜者排名

麻省理工第一、哈佛第二、加州伯克利第三

“武书连2021全世界4000所大学胜者排名”,是中国管理科学研究院《中国大学评价》课题组组长武书连主持的《2021世界论文引用评价》课题的一部分,整个课题分为大学、医疗机构、科研机构、实验室4个部分。

论文引用是科学发展的重要行为,是科学研究的一部分,体现了科学发展循序渐进的积累过程。主要由论文参考文献构成的论文引用,直接反映了学术成果间的相关性、依存性、继承性。

不过,当论文引用大规模用于大学评价时,以引用绝对值为基础的各类大学学术排行榜的两大缺陷逐渐显现:

1、通常被引用绝对值高的大学排在被引用绝对值低的大学前面,不限于被哪一层次机构引用。例如,A大学论文被美国100所非博士大学或者中国(不含台港澳,以下同)100所非双一流大学引用1000次;B大学论文被100所美国博士大学或者中国双一流大学引用800次,同时被A大学引用100次。结果A大学以被引用1000次排在B大学被引用900次前面。

引用绝对值高的大学排在前面是迄今文献计量学没有解决的问题。

2、没有排除本校自引(本校自引指自己学校引用自己学校发表的论文),使得他引次数(他引次数指排除了本校自引后的引用次数,以下同)相近时,本校自引次数多的大学排到前面。例如A大学被其他机构引用800次,又自引200次,合计1000次;B大学被其他机构引用850次,又自引100次,合计950次。结果A大学以被引用1000次排在B大学被引用950次前面。

没有排除本校自引有两个原因,一是评价规则的制定者接受本校自引,二是排除本校自引需要耗费大量时间,成本高。

随着时间推移,上述两大缺陷已经越来越扭曲了世界各国大学的真实水平,其表现之一是:至今对欧美发达国家大学主要以跟踪性研究和模仿式研究的中国大学,世界排名已经达到了国内科学水平和工业基础难以支撑的高度,且超过了许多至今仍在被跟踪和被模仿的大学。此表现已经被以下3个方面证实.

1、全世界论文他引(论文他引排除了本校自引)前50所大学,中国大学25所,占50%。前10所中国大学6所,占60%。论文他引前10名依次是:哈佛大学、清华大学、浙江大学、斯坦福大学、北京大学、上海交通大学、麻省理工学院、中国科学院大学、华中科技大学、加州大学伯克利分校。

2、中国大学引以为傲的ESI学科排名每年快速上升,原因之一是中国大学相互之间大量引用。对全世界139个国家和地区论文自引排序,中国以68.56%的国内自引率排名世界第一,其余138个国家和地区的自引率为27.87%。有兴趣的读者可以参照本文方法,对ESI学科被引论文作“胜者排名”检验。

3、同样,未见大量基础原创性成果出现,国内高被引作者大量出现,因本文不涉及个人,对此不做分析。有兴趣的读者可以参照本文方法对相关论文作“胜者排名”检验。

基于上述情况,本文使用了前人没有用过的以战胜目标大学为标准的“胜者在前”论文引用原则,由此确定的学校排名称为“胜者排名”,各大学胜者排名名次就是武书连世界大学排行榜的排名。

特别提示:对具体计算方法和数据不感兴趣或者暂时没有时间仔细阅读的读者,可以略过前六节,直接阅读“七、武书连2021全世界4000所大学胜者排名”。

一、数据采集和计分方法

《2021世界论文引用评价》大学部分共收集全世界7855所大学在14534种学术期刊2015-2019连续5年发表的论文之间相互引用数据,其中,国际期刊11674种、国内期刊2860种。14534种源期刊均为雅学资讯网上SCD和SCDW期刊,网址:www.yaxue.net。

没有全日制本科生或者专科生的大学,例如洛克菲勒大学、加州大学旧金山分校,不在评价范围,该类只招收研究生的大学列入后期的科研机构评价中。

所有论文中,论文合作单位小于等于4的,按单位数量计算得分;大于4的,计算前4个单位得分,第5单位及其之后不计分。

计算公式:合作单位数为L时第j个单位对该论文得分Aj贡献如下:

Aj= qj / [1+q-(1+q)1-L]

1 ≤j ≤ L ≤ 4, q = 0.618

引用论文合作单位同理,每篇论文最多计算4个合作单位。每篇论文被引用1次得1分。

得分举例1:某篇由清华大学(j=1)独立发表的论文,被另一篇由剑桥大学(j=1)独立发表的论文引用。

该两篇论文,被引论文作者单位数L=1,引用论文作者单位数L=1,根据计算公式清华大学得到剑桥大学1分。

得分举例2:某篇由北京大学(j=1)和哈佛大学(j=2)合作发表的论文,被另一篇由南京大学(j=1)、麻省理工学院(j=2)、浙江大学(j=3)合作发表的论文引用。

被引论文作者单位数L=2,根据计算公式北京大学得0.618分、哈佛大学得0.382分。

引用论文作者单位数L=3,根据计算公式南京大学得0.500分、麻省理工学院得0.309分、浙江大学得0.191分。

北京大学得到南京大学0.500×0.618=0.309分,得到麻省理工学院0.309×0.618=0.191分,得到浙江大学0.191×0.618=0.118分。

哈佛大学得到南京大学0.500×0.382=0.191分,得到麻省理工学院0.309×0.382=0.118分,得到浙江大学0.191×0.382=0.073分。

同样的方法计算出全世界7855所大学所有论文相互引用得分,截取他引得分最高的4000所大学作为评价学校。

统计所有大学相互引用得分后,当出现一所大学所有论文被另一所大学所有论文引用得分小于1时(即不到1次完整引用),将该引用值归为0,之后获得所有引用得分大于或者等于1的论文引用得分表。

二、胜者在前评价标准

胜者在前系本次评价的唯一标准:例如清华大学引用麻省理工学院1389.60分,麻省理工学院引用清华大学486.75分,清华大学引用麻省理工学院论文比麻省理工学院引用清华大学论文多,麻省理工学院排在清华大学前面;用相对值计算1389.60÷486.75=2.8549,清华大学对麻省理工学院引用相对值大于1,清华大学排在麻省理工学院后面。同理,北京大学引用浙江大学1344.45分,浙江大学引用北京大学1989.17分,北京大学排在浙江大学前面;用相对值计算1344.45÷1989.17=0.6759,北京大学对浙江大学引用相对值小于1,北京大学排在浙江大学前面。

可是若以传统的按他引绝对值计算,清华大学会排在麻省理工前面,浙江大学排在北京大学前面。见表1。

表1 全世界大学他引前50名大学与他引前8名大学引用相对值关系表

打开网易新闻 查看更多图片

表1是全世界所有大学他引前50名排名,也是全世界他引前8名大学(5所中国大学,3所美国大学)与他引前50名大学(25所中国大学,25所外国大学)引用相对值关系表。

观察表1,可以清楚看到,他引前8名的5所中国大学,清华大学、浙江大学、北京大学、上海交通大学、中国科学院大学,对他引前50名的25所外国大学,呈现一边倒的全输。若将他引前20名中的另外5所中国大学华中科技大学、武汉大学、复旦大学、中国科学技术大学、南京大学也列上,结果依然全输。见表2。

见表2 全世界他引前20名中的其他5所中国大学与他引前50名大学引用相对值关系表

由此可见,如果以当前流行的论文他引绝对值为依据的学术评价再继续下去,中国大学将很快占据世界前10名,中国各大学的ESI排名同样居世界前列。

不过,当使用“胜者在前”评价原则对各大学论文相互之间引用关系进行处理后,学校名次会出现颠覆性变化,因为“胜者在前”的评价标准是:赢的学校排在前面,输的学校排在后面。

三、基础得分与初始排名

基于各大学论文引用得分表,得到各大学相互引用的6种状态:

A:引用其它大学得分小于被其它大学引用得分;

B:引用其它大学得分等于被其它大学引用得分;

C:引用其它大学得分大于被其它大学引用得分;

以上引用与被引用得分都不为0。

D:引用其它大学得分等于0,被其它大学引用得分大于0;

E:引用其它大学得分等于0,被其它大学引用得分等于0;

F:引用其它大学得分大于0,被其它大学引用得分等于0;

以上引用与被引用得分中任何一项出现0。

统计各大学上述6种状态后,以6种状态的出现次数确定每所大学基础得分,所有大学基础得分初始均设为0。

当出现一次A,基础得分加1分,出现一次D,基础得分加1分;出现一次C或者F,基础得分减1分,出现一次E,基础得分减2分;出现B时,基础得分不变。

将所有大学基础得分降序排列,得到初始排名。

四、胜者在前评价原则

所有大学之间论文引用均为前述6种状态之一,故可设置一个评价指标,即大学间相互引用得分的比较。

例如,当牛津大学被东京大学引用得分大于东京大学引用牛津大学得分时,牛津大学胜了东京大学,牛津大学排在东京大学前面,反之排在东京大学后面。

基于这种比较,提出了胜者在前评价原则,即在相互引用方面,两个大学比较,被引用得分高的是胜者,胜者排在败者前面。不过在比较数千所大学时,大学间胜负关系并非单一的链状,而是交错的网状。假设某大学赢了当前排名第一的大学,却输给了其它所有大学,那将该大学的排名设置在哪个位置成为需要解决的问题。

因此,需要一个基于胜者在前原则的检验方法,即确定各大学合理位置的方法。

假设大学优秀与否的表现是连续而非离散的,即只赢个别排名靠前的大学不能作为被评为优秀大学的依据。基于此,通过计算各大学基础得分,量化整体表现,设置胜者在前检验对各大学进行迭代排名。迭代排名指的是,重复对排名进行特定操作,每一次对排名的特定操作称为一次“迭代排名”,而每一次迭代得到的新排名会作为下一次迭代的初始排名。

在进行胜者在前检验时,需要先明确检验范围的概念。检验范围指的是各大学在当前排名需要被检验的邻近范围,检验范围长度的一半称为检验半径。基于大学优秀与否的表现是连续的,对于任何大学,在其所在排名的检验范围内,胜过比它排名低的大部分大学并输给比它排名高的大部分大学,此时它当前的排名才是稳定的,否则就需要变动它的排名,这就是胜者在前检验。

胜者在前检验思想是,确定了整体表现的初始排名后,通过胜者在前检验进行迭代,最后能收敛到某个特定排名,这个特定排名是满足胜者在前检验的排名,也就是最终排名。

排名收敛:排名在迭代一定次数后,当不再发生变化或者是达到一个循环变化且步长较小的状态时,称之为排名收敛。

五、胜者在前评价过程

(一)胜者在前检验方法

本次评价中不同排名对应不同检验半径:前100名的检验半径是当前排名减1;后100名的检验半径是被评价大学总数减当前排名;非前后一百名的检验半径是100。检验范围是从当前排名减检验半径到当前排名加检验半径。

对于任何一个大学,在检验范围内,输给比它当前排名在前的大学数量除以检验半径就是向上检验准确率,胜过比它当前排名低的大学数量除以检验半径就是向下检验准确率。

(二)胜者在前迭代方法

根据初始排名S0,依次对每所大学做胜者在前检验,获得每所大学基于当前排名的向上检验准确率和向下检验准确率。当检验准确率大于等于55%时,称之为达标,即当前排名不变动。此时会出现三种情况:

(1)向上检验准确率和向下检验准确率都达标;

(2)向上检验准确率和向下检验准确率中有一个达标;

(3)向上检验准确率和向下检验准确率都不达标。

发生情况(1)时,该大学排名不变动。发生情况(2)时,若向上检验准确率不达标,则排名上升;若向下检验准确率不达标,则排名下降。发生情况(3)时,若向下检验准确率大于向上检验准确率,则排名上升;向下检验准确率小于等于向上检验准确率,则排名下降。

将所有大学迭代一次后,会得到新的排名,该新排名称之为S1。基于此迭代方式,将该初始大学排名S0连续迭代P次,使得S0变成SP。

定义动态平衡状态:对于已迭代P次后的排名SP,再迭代i次,SP+i和SP排名相同,即SP+i=SP(i≤50),则称SP处于动态平衡状态。

定义收敛:在迭代P次后,排名SP达到一个动态平衡状态时,将此情况称之为在P次收敛,并将SP作为最终结果。该最终结果SP称为胜者排名。

六、胜者在前算法描述

定义:

SEi是i大学所有论文在7855所大学中,被引用总数的排名;

Abs(SEA,SEB)为B大学引用A大学的得分;

Uk是当前排名中第k名的大学。

1、数据处理中基础得分计算方法

计算任意大学M基础得分Sc时,先将大学M的初始基础得分设为0(Sc=0)

对于任意非M的其它大学Q,

当Abs(SEQ,SEM)和Abs(SEM,SEQ)都不等于0时:

如果Abs(SEM,SEQ)/Abs(SEQ,SEM)>1,Sc +=1;

如果Abs(SEM,SEQ)/Abs(SEQ,SEM)=1,Sc +=0;

如果Abs(SEM,SEQ)/Abs(SEQ,SEM)<1,Sc -=1。

当Abs(SEQ,SEM)和Abs(SEM,SEQ)中存在0时:

如果Abs(SEM,SEQ)>0,Abs(SEQ,SEM)=0,Sc+=1;

如果Abs(SEM,SEQ)=0,Abs(SEQ,SEM)=0,Sc-=2;

如果Abs(SEM,SEQ)=0,Abs(SEQ,SEM)>0,Sc -=1。

遍历所有非M的其它大学从而计算出M的最终基础得分Sc。

2、胜者在前检验方法

定义:Total(T)为被评价的大学总数,R为检验半径,M为待检验大学,N为待检验大学的当前名次。

∀ N≤100,R=N-1;∀100

,R=100;∀ T-99≤N,R=T-N。

定义:UpError(UE)为在N名次前R个大学中引用待检验大学得分大于被引得分的占比;DownError(DE)为在N名次后R个大学中引用待检验大学得分小于被引得分的占比。

UE为向上检验错误率(=1-向上检验准确率);DE为向下检验错误率(=1-向下检验准确率)。

遍历j∈(N,N+R],I = Uj,如果Abs(SEi,SEM)>Abs(SEM,SEi)

或者Abs(SEi,SEM)=Abs(SEM,SEi)≠0,DENum += 1。

DE = DE Num /R

遍历j∈[N -R,N),i = Uj,如果Abs(SEi,SEM)< Abs(SEM,SEi)

或者Abs(SEi,SEM)= Abs(SEM,SEi)≠0,UE Num += 1。

UE = UE Num /R

基于此检验方法,每所大学在当前排名都能得出对应的UE和DE

3、迭代方法

根据初始排名S0,依次对每所大学做胜者在前检验。对任意大学M,可以获取其当前排名N,并经过胜者在前检验计算出该大学当前排名的UE和DE。此时会出现三种情况:

(1)UE≤0.45 & DE≤0.45;

(2)(UE≤0.45 & DE>0.45)|(UE>0.45 & DE≤0.45);

(3)UE>0.45 & DE>0.45。

情况(1)该大学排名不动;情况(2)若UE>0.45则排名上升,若DE>0.45则排名下降;情况(3)若UE>DE则排名上升,UE≤DE则排名下降。

情况(2)迭代方式

UE>0.45:

第一步:UE>0.45则排名上升,H=N-3;

第二步:若H<100,则H=N-1;若H<0,H=0;

第三步:把大学M放到H位置上。

DE>0.45:

第一步:DE>0.45则排名下降,H=N+4;

第二步:若H<100,则H=N+1;

第三步:把大学M放到H位置上。

情况(3)迭代方式

UE>DE:

第一步:UE>DE则排名上升,H=N-2;

第二步:若H<100,则H=N-1;若H<0,H=0;

第三步:把大学M放到H位置上。

DE>UE:

第一步:DE>UE则排名下降,H=N+3;

第二步:若H<100,则H=N+1;

第三步:把大学M放到H位置上。

DE=UE:

第一步:DE=UE则排名下降,则H=N+1;

第二步:把大学M放到H位置上。

基于以上迭代方式,按当前排名从高到低依次遍历所有大学,记为一次完整的迭代,从而得到S1,S0即变成S1。基于上述的完整迭代,对S0连续迭代P次,使得S0变成SP。

当排名收敛到一个动态平衡状态时,即在迭代P次后,再迭代i次,SP+i=SP(i<=50),将此称之为在P次收敛,并将SP作为最终结果,SP就是胜者排名

七、武书连2021全世界4000所大学胜者排名

依照上述一到六叙述的方法,可以得到武书连2021全世界4000所大学胜者排名。前10名见表3。

表3 世界大学胜者排名前10名大学的胜者排名、他引排名、初始排名

打开网易新闻 查看更多图片

从表3胜者排名前10名可见,即使他引排名或者初始排名靠后的大学,例如普林斯顿大学他引排名83、初始排名85,加州理工学院他引排名74、初始排名105,只要论文质量高,依照胜者在前评价原则,能够进入前10名。

对比:清华大学他引排名2、初始排名13,北京大学他引排名5、初始排名23,两校他引排名和初始排名均高于普林斯顿大学和麻省理工学院,只是由于论文大部分被国内大学引用(清华大学占68.63%,北京大学占69.43%),没有进入世界大学前400名。

(一)武书连2021全世界4000所大学胜者排名前1000名

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

(二)武书连2021全世界4000所大学胜者排名第1001-2000名

(三)武书连2021全世界4000所大学胜者排名第2001-3000名

(四)武书连2021全世界4000所大学胜者排名第3001-4000名