2023 年 8 月的一个阳光明媚的日子,在印度班加罗尔甘地·巴万博物馆二楼的一个房间里,工人们坐在五台巨大的桌面扫描仪前,摆好书,并用脚踏板翻页。

这座博物馆是卡纳塔克邦最大的甘地哲学参考图书馆。在接下来的一年里,各种各样的书籍,包括圣雄甘地的作品集,他的自传《我对真理的实验》的卡纳达语译本,以及其他稀有作品,都将被数字化。它们的元数据将被记录并加入互联网档案馆(Internet Archive)的“知识仆人”(SoK,Servants of Knowledge)收藏项目之中。

这一数字化举措只是知识仆人的最新举措,该项目发起于四年前,旨在保护难以找到的资源。自那以后,它已经扩大了范围,包括与印度各地的各种图书馆和档案馆建立的伙伴关系。

打开网易新闻 查看更多图片

图丨知识仆人数字收藏项目旨在弥补印度图书馆资源的稀缺性(来源:资料图)

如今,知识仆人的收藏记录成为了一个可搜索的数字图书馆,收录了来自印度和关于印度的超过 15 种语言的书籍、演讲、杂志、报纸、棕榈叶手稿、音频和电影。

该收藏项目是一个真正开放的数字图书馆,包含科学、文学、法律、政治、历史、宗教、音乐和民间传说等许多主题的公共领域和非版权作品。所有内容都是开放访问的、可搜索的、可下载的,并可供视障人士使用文本转语音工具访问。

志愿者和工作人员正在继续扩大收集范围,每月在班加罗尔各地扫描约 140 万页资料,更多的合作正在推进当中。

这些藏品是为了弥补印度图书馆资源的短缺。印度政府为促进该国的公共图书馆计划成立了 Raja Rammohun Roy 图书馆基金会,据该基金会称,在这个拥有 14 亿人口的国家,约有 5 万个公共资助图书馆。

根据该基金会 2018 年的一份报告,乡村和部落图书馆可能只有几千本藏书。相比之下,每个州的中央图书馆平均有 77000 本书,每个地区图书馆平均有 24000 本书。其中一些图书馆的藏书毁于火灾,还有许多书因管理疏忽而损毁或丢失。

此外,大多数公共图书馆并不是免费向公众开放的。班加罗尔印度大学国家法学院研究知识产权法的副教授阿鲁尔·乔治·斯卡利亚()说:“想进入我们的公共图书馆非常困难,过了一段时间之后,人们就不再想进去了。我们许多公共资助的教育机构也是如此。”他说,解放这些图书馆的最佳途径之一是将藏书数字化。

技术专家奥姆希瓦普拉卡什·H·L(Omshivaprakash H L)在用印度西南部语言卡纳达语撰写维基百科文章时,他意识到了这些资源的严重匮乏。

2019 年左右,他听说美国慈善机构“公共资源(Public Resource)”的负责人卡尔·马拉穆德()已经在进行类似的工作,将甘地关于印度自治的 Hind Swaraj 系列作品和印度政府的作品等书籍归档到公共领域。奥姆希瓦普拉卡什说:“我也知道他过去经常从二手书店买很多这样的书,然后把它们带到美国进行数字化工作。”

公共资源组织一直在与班加罗尔的印度科学院合作,使用互联网档案馆提供的扫描仪将其书籍数字化,但这一努力已经逐渐减少。奥姆希瓦普拉卡什提议让社区成员提供帮助。

在周末,这些来自当地社区的志愿者就开始扫描奥姆希瓦普拉卡什和买来的一些书。奥姆希瓦普拉卡什说:“真正理解社区合作的理念,我们所需要的当地语言技术的理念,以及我们正在创造的影响。”

扫描仪使用一个 V 形支架来放置书籍,并使用两个单反相机以高分辨率拍摄页面。该设备的设计基于互联网档案馆的扫描仪,但由奥姆希瓦普拉卡什重新设计,可以在印度以较低的成本制造。每个工作人员每小时可以扫描大约 800 页。

流程中更关键的部分发生在扫描后:志愿者要确保使用了准确的元数据,使扫描结果可以在互联网档案中找到,还要引入光学字符识别,经过微调,该技术可以更好地适用于一系列印度语文本,使文本可以通过文本转语音应用进行搜索和访问。

公共资源机构为 SoK 项目提供资金,奥姆希瓦普拉在工作人员和志愿者的帮助下管理该项目的运营。合作者通过社交媒体和口口相传的方式普及该项目。

一位名叫查亚·阿查里亚(Chaya Acharya)的社区成员兼卡纳达语教师向奥姆希瓦普拉卡什提供了她祖父作品的剪报。她的祖父是著名记者和作家帕维姆·阿查里亚(Pavem Acharya),他写了许多关于科学和社会问题的文章以及讽刺文章。令她没想到的是,她在“知识公仆”已有的收藏资料重中发现了更多其祖父的文章。

她说:“仅仅通过搜索他的名字,我就从档案中得到了更多的文章。”随后,她开始收集阿查里亚在 1952 年至 1975 年初编辑的著名卡纳达月刊 Kasturi 的副本,并将其交给奥姆希瓦普拉卡什进行数字化。

该杂志的旧版包含了受欢迎的卡纳达语作家的罕见作品和译本,如古拉瓦迪·文卡塔·拉奥(Gulavadi Venkata Rao)的 Indirabai,它被认为是以卡纳达语写成的第一部现代小说,以及埃德加·艾伦·坡(Edgar Allan Poe)著名短篇小说 The Gold-Bug 的卡纳达文译本。

说,这都是在互联网上打造公共图书馆愿景的一部分,即“自下而上、草根化的东西。这是一群人在互相教学,我们只想继续扫描并向人们提供(这些材料)。这不是一个宏伟的目标或单一的目标”。

“这就是我们的谋生之道。”他说,“我们已经做了很多年了,而且我们还将继续下去。”

支持:Ren

排版:刘雅坤

04 /

05/