打开网易新闻 查看更多图片

新智元报道

来源:Vice

编辑:LRS

【新智元导读】Sci-Hub 是大多数支付不起高昂论文费用的研究人员的福音。如今一个合法版的General Index 带着1.07 亿篇论文,大小超36TB的数据集来了,并且它还支持单词和短句索引!

论文的付费一直是科学研究的壁垒,每年各个科研机构都要给出版商缴纳巨额数据库访问费用,sci-hub的出现使这种情况有所缓解,让科研人员免费看论文。

如今,又一个英雄也来了!

Reddit 上有用户分享了General Index 的种子文件,提取了超过一亿篇(107233728)付费的期刊文章,可以通过搜索关键字和查找论文中的句子来进行索引。

据分享者表示,如果你有论文的DOI号的话,Sci Hub是不错的选择(不涉及版权问题),但是如果你没有编号怎么办?

世界上大部分的知识(论文)都是付费的,所以通常你几乎无法确定你在寻找的东西是否存在,更不用说你是否可以访问它了。

但这种情况从今天开始不会再有了!

Public.Resource.org 的创始人兼通用索引的共同创建者 Carl Malamud 发布了一个36TiB 的数据库General Index,其中包含从1.07亿篇论文中提取的关键词和n-gram(短句)。

打开网易新闻 查看更多图片

有了这个数据库,研究人员和开发人员将能够更轻松地启动大多数学术文献的搜索引擎或目录,或者进行无数的文本和数据挖掘(TDM)研究,而无需单独检索和处理所有原始全文文档。

数据库压缩后大小为 4.7 TiB。如此大规模的数据,通常很难通过HTTP的方式从互联网下载数据,特别是如果你不在服务器所在地美国的话。

所以目前的下载方式是通过重新做种。现在有一个种子盒,可以让下载速度非常快。

该数据库只包含事实和想法,因此不受版权保护,属于结构化公共领域。它附带了一个知识共享零(CC-0)许可证,以使受数据库权利约束的欧盟/欧洲经济区居民更清楚地了解这一状况。

另一方面,Carl Malamud最近赢得了美国最高法院对乔治亚州和爱思唯尔(Elsevier)的诉讼,再一次证实了企图封闭公共知识领域的人都是人民的敌人。

据创始人称,目前General Index 还是早期版本,更加通用的搜索功能还在开发中。并且在某些情况下,文本可能会提取失败,有时元数据不可用或可能不正确,而底层语料库很大,它并不完整且不是最新的。

对于 Malamud 来说,可搜索的科学知识数据库是人类进步的关键。他认为 General Index 是一个查找工具,一个知识词典,一个知识地图,一个我们认为是现代科学实践的核心工具的工具,我们认为这是一项公用事业,并且它专用于公共领域。您可以根据这些内容做自己想做的事,我们没有保留任何权利。

Reddit 网友表示,这绝对是一个非常酷和有用的资源,可以帮助推动新项目,但应该注意的是,这似乎是一种试图将Sci中心语料库公开化的尝试,同时破坏了底层的人类可读PDF,因为他试图把pdf 进行文字化。

打开网易新闻 查看更多图片

General Index 由大学和组织(如Academic Torrents和Archive.org)进行种子、托管和分发,因为它们可以使数据集合法化并将其纳入公共领域。在近40TB的非人类可读数据中,与实际的Sci Hub集合相比,做种并不十分迫切。

从技术上讲,公开分享付费的科学文章是违法的。多年来,一些政府一直试图关闭Sci-Hub。Malamud 认为General Index具有足够的变革性,可以归入公共领域。

sci-hub 的工作原理与General Index 稍有不同,他搜索文章有三种方式,即学术文章的url、DOI、或文本搜索(利用Google Scholar搜索结果提供访问)。

它与一个名为Library Genesis(LibGen)的盗版材料库协同工作,LibGen的工作原理就是:如果你去Sci Hub输入一个DOI或文章url,Sci Hub将为你发送一个验证码给你进行验证。然后,它会在LibGen的文库中搜索来查看是否可以找到该文章的现有副本。如果有,它将该副本传递给用户。

如果Sci Hub无法在LibGen中找到副本,它将使用多个机构访问系统跨发布者平台进行搜索,绕过任何访问控制障碍,并检索该项目的副本。然后它做两件事,第一,它向请求它的用户返回一份副本;第二,它在LibGen中存储一个副本,以便在下一个请求到来时更容易提供。在此过程中,Sci Hub将鼓励您捐款以保持其运行。比特币是首选的捐赠方式。

访问凭证似乎是Sci Hub获得的用户名/密码组合,可用于访问机构订阅。主要是代理或shibboleth类型的访问系统,这种访问能够支持校外访问。

这些显然是由学者「捐赠」的,但目前还不知道是否是这些学者自愿捐赠或是被盗号了。

据马奎特大学图书馆信息技术负责人Edward Sanchez称,一场专门针对获取大学访问证书的网络钓鱼活动已经瞄准了那里的学者,Sci Hub使用了这些工具。

但Sci-Hub 不同意这种说法。当然,如果是学者自愿捐赠的用户名和密码,自然没有人能阻止他们,但不管怎么说,把密码交给不熟悉的人,终归是一种不太好的行为,并且风险极高。

无论Sci-Hub 的做法是对是错,它确实帮助了一些人。

一家开发法医和生物识别软件的早期公司的联合创始人称他们没有钱来支付这些文章的费用,Sci-Hub 和 LibGen 是救星。还有人需要通过在大学的同学来帮忙下载论文。

但这种行为确实是违反道德的,毕竟在当前环境下,这些内容是付费的,而他们通过不为他们希望转变为有价值的知识产权的材料付费,从而获得相对于竞争对手的不公平优势。

但,如果我们要改善我们的世界,科学是一种我们所有人都必须说的语言,而这种语言必须是免费的。

参考资料:

https://www.vice.com/en/article/g5gz5y/archivists-create-a-searchable-index-of-107-million-science-articles