打开网易新闻 查看更多图片

体系化推进古籍数字化

​中宣部原文化体制改革和发展办公室一级巡视员、副主任 高书生

非常高兴今天能够参加古籍图典数字化与活化利用研讨活动,对古籍数字化,我从宏观的角度谈谈我的想法。国家图书馆出版社在国家文化大数据体系建设方面发挥了重要作用,也发挥了先锋队的作用,在古籍典籍数字化与孵化利用方面为我们立了一个标杆,在这方面国家图书馆出版社做了大量的工作,而且卓有成效。

新技术的迭代是非常快的,大家都非常关心人工智能到底能做到什么程度。OpenAI的CEO奥特曼认为,到2030年就能达到他理想中的通用人工智能的程度。奥特曼认为到那时,大概GPT已经到了10(GPT-10),将比世界上所有人加起来都聪明。

人工智能出来后,我们关注的不单是技术问题,更重要的是在人工智能发展迅速的今天,它对意识形态的冲击,我们怎么去应对。

到2023年8月份,我们大模型已经超过156个,其中的10亿级参数的大模型已超过80个,还有说现在已经有200多个。这个大模型的主要战斗队是以百度、阿里为代表的互联网大厂,以华为、讯飞为代表的科技行业龙头,还有一些重“创新”的企业。我们这些年一直坚持一个观点:人工智能一定是文化和科技深度融合的产物,文化提供数据源,而科技是在训练大模型。我觉得这是两者之间是密切关系的。

大家都知道人工智能三要素:算力、算法和数据。现在做大模型的大多数都是科技公司,科技已经发力,文化也不能缺席,所谓“不能缺席”就是我们要有数据。如果没有数据的话,我们可能就在这场人工智能的大战当中败下阵来。实施国家文化数字化战略,我们是以国家文化大数据体系建设为抓手,主要的目标是到2035年要建成国家文化大数据体系,它的表征:物理分布、逻辑关联、快速链接等。国家文化大数据体系的战略意义就是把我们中华民族积淀了五千多年的资源转化为数据,我们从这些数据中提取具有历史传承价值的中华文化的元素、符号和标识来丰富中华民族文化基因的当代表达,增强对伟大祖国、中华民族、中华文化、中国共产党、中国特色社会主义的认同。我们最终目的是要做价值观的认同,这是我们推动实施国家文化数字化战略很重要的原因。

打开网易新闻 查看更多图片

文化数字化非常专业且技术性非常强。国家将其提高到“国家文化数字化战略”的高度,同时还明确了三个实现途径:一个是汇集,一个是采集,一个是贯通。

国家文化大数据体系的架构,我们称之为“两侧四端”,四个端分别是资源端、生产端和消费端和云端。特别是资源端、生产端、消费端,是我们的传统领地。但现在最主要的就是云端,我们现在把云端作为国家文化大数据体系建设突破口。云端的内容主要包括两块:一是文化数据服务中心,提供网络服务,目的就是把资源端、生产端和消费端连到一起;一是文化数据服务平台。经过这几年的努力,文化大数据体系的“四梁八柱”已经形成,现已建成11个省域中心,就是云端的文化数据中心;并建设了全国文化大数据交易中心,由深圳文化产权交易所来承建。2023年12月份,江苏文化产权交易所建成了国家文化大数据的华东区域交易平台,现在有两个交易场所。

对于文化数据资源的版权保护:一是技术手段,就是为数据发放唯一的关联标识符。二是行政手段,中国公共关系协会文化大数据产业委员会和北京市版权局形成了战略合作,由北京市版权局做一个可信版权链,这是由版权行政管理部门签发的数字版权证书,得到司法机构的认可。

我们最终目的就是为文化机构赋能,服务文化机构的数字化转型升级,为文化机构提供一揽子服务,包括数据的加工、确权、交易、算力服务以及开发场景模型等。如果把古籍数字化放到文化大数据的体系当中,借助这个体系很多工作就可以更高质量地完成。

(本文跟据“古籍图典数字化与活化利用研讨会”录音整理 )

■ 文章来源:古籍图典数字化与活化利用研讨会

编辑 | 邓旭欣

监制 | 张颀

审核 | 弘文