最近,Nature发表了一篇题为Millions of research papers at risk of disappearing from the Internet(数以百万计的研究论文面临从互联网上消失的风险)的文章,诱发了广泛的讨论。

打开网易新闻 查看更多图片

图片来源:Nature

来自英国伦敦大学的研究人员Martin Eve研究了超过700万篇数字出版物,结果发现有超过四分之一的学术文章没有得到妥善的存档和保存(超过200万篇)。这意味着,屏幕前的你辛辛苦苦发表的论文,很可能也会在未来的某一天凭空消失或者再也找不到!

图片来源:Nature

可能有小伙伴会说,我的文章都是有DOI号的呀(被形象地称为数字资源的条形码或身份证),怎么会凭空消失呢?

01论文的消失,究竟是什么原因?

目前,数字对象标识符(Digital Object Identifier, DOI)已广泛应用于标识和链接特定出版物。这串由数字、字母和符号组成的标识符,就像论文的“身份证号”一样,具有唯一性。通过DOI号我们可以方便、可靠地链接到论文全文,从而保证了在网络环境下对数字化对象的准确提取。

打开网易新闻 查看更多图片

图片来源:网络

其实,尽管论文有DOI号也依然存在消失的风险与可能性!

在赫尔辛基汉肯经济学院研究学术出版社工作的 Mikael Laakso说到:“尽管文章有唯一的DOI号,但是这并不意味着该链接永远有效”。此外,Mikael Laakso和他的同事还发现:2000-2019年期间,已有超过170种开放获取期刊从互联网上消失!

为什么拥有DOI这一“身份证号”,论文也会消失不见呢?其原因多种多样,这主要包括:DOI或URL更改失效、数字存档网络服务器故障、期刊或出版商倒闭等诸多原因。其实,这一“奇怪”现象的背后,主要是有两个主要原因在“作祟”:首先,随着学术产出迅速增长,现有的数字存档系统无法满足所有研究成果的保存需求;此外,小型出版商在保存文章方面的风险要高于大型出版商。

纽约市数字归档服务Portico的总经理Kate Wittenberg警告说:小型出版商未能保存文章的风险比大型出版商更高,这主要是由于保存内容需要花费大量资金,而且归档通常还要涉及基础设施建设以及丰富的技术和专业知识,这些都是许多小型出版社无法获得的。因此,小型出版商往往没有足够的资金和技术支持来保留所有的学术成果。

Crossref是由出版商国际链接联合会(Publisher International Linking Association, PILA)于2000年创建的使用DOI技术的跨出版商参考文献链接注册查询系统。Crossref建立了在论文的参考文献列表和引文全文之间的跨数据库链接,使得读者能够非常便捷地获取文献全文。除此之外,Crossref还是全球第一家也是最大一家DOI代理注册机构,为期刊的论文DOI注册提供服务。目前,Crossref为约2万名会员分配标识符,包括出版商、博物馆以及其他机构。那么,作为最大的DOI注册机构,Crossref在论文存档方面的表现如何呢?

图片来源:Crossref

据Martin Eve介绍,他在参与Crossref研发工作的时候,共计检查了700万件带有DOI的作品是否保存在档案中。统计分析结果表明,尽管有活跃的DOI,但其中28%的文章(超过200万篇)并未出现在主要的数字档案中。此外,只有58%的DOI引用至少存储在一个档案里;另外14%的文章因发表时间较晚、非期刊文章或者来源不可识别等原因被排除在存档之外。由此可见,Crossref在文章存档方面也存在不小的遗漏问题!

02论文的DOI消失,对科学研究意味着什么?

可能有的小伙伴会觉得,DOI搜索不到论文,对学术研究影响并不大,无须大惊小怪!那么事实真的是这样吗?

其实,论文作为学术成果的载体,DOI失效也就代表相关研究的传播和应用受到了阻碍,并且也无法核实前人的相关研究信息。如果DOI消失或者通过其搜索不到论文,那么最终导致的结果可能就是“无奈只能对那些无法亲自阅读的文献产生盲目的信仰”,显然这是不符合科学研究原则的。由此可见,当研究者无法获取某些关键信息时,必然会影响他们的研究进度以及学术成果质量!

由于科学研究通常都是呈体系化的,并且需要基于前人的基础上开展研究。试想一下,如果出现大量的“知道题目、知道作者、知道期刊、知道DOI号”但却唯独找不到的论文的情况,那么不仅意味着引文关系断裂,同时也意味着知识体系的断裂!

数以百万计的研究论文面临从互联网上消失的风险,意味着很多学术研究成果可能因为多种原因而无法在互联网上永久保存和获取。这可能是因为出版商合约的关系、技术变迁、研究机构的政策变化等多重因素使研究论文无法长期保存和传播所致。这也给广大科研工作者敲响了“警钟”,提醒大家切勿忽视数字保存领域所面临的挑战。

此外,科研工作者也应该重视研究数据和论文的长期保存问题,及时备份并选择可靠的存储方式,以确保研究成果不会因为技术或合约原因而失去。

我们也提出以下几点建议供参考:

(1)提倡开放获取和开放数据

科研工作者可以选择发布在开放获取的学术平台上(如arXiv、PubMed Central等),或者通过机构和学术社区的开放数据政策来确保研究成果的长期可获取性。

(2)倡导开放科学精神

科研机构和学术社区应该倡导开放科学精神,保障研究成果的共享和传播,避免因为版权和商业原因导致研究成果无法自由获取。

(3)建立可持续的数字存储和管理机制

科研机构和学术社区应该建立可持续的数字存储和管理机制,确保学术研究成果的长期保存以及可持续传播。

总的来说,科研工作者和科研机构应该高度重视研究成果的长期保存和传播问题,积极倡导开放科学,确保学术研究成果的普遍可获取性,推动科学知识的共享和传播。尽管大家可能更多地关注论文发表后能带来的即时效益,但我们同样也应关心学术生态系统整体的可持续性问题。目前,全球仍面临着数字保存和长期访问的挑战,毕竟论文DOI无法找到的问题,不仅仅只是一个技术性错误。试想一下,在若干年后你的同行是否还能阅读到你当年辛辛苦苦撰写和成功发表的论文呢?