从“存史”到“算史”,让方志数据真正服务于科学决策,这正是延续千载修志传统、构建中国自主知识体系的时代使命。
原文 :《从“存史”到“算史”:地方志的数智化转型》
作者 |上海市地方志办公室研究室副主任 陈畅 上海中侨职业技术大学教授 马海兵
图片 |网络
伴随“十五五”规划布局与新质生产力理论提出,数字技术对传统文化的赋能迈向知识生产方式变革,方志也被重新界定为全域性、全时空的高置信度地情数据要素。传统检索方式已难以满足方志典籍的知识挖掘需求,生成式人工智能为此提供新契机。依托成熟的视觉语言模型与图检索增强生成技术,方志可被重构为可计算的三维知识空间,时间轴、地理坐标、语义网络在其中交织贯通。那么,如何借人工智能重构方志治理范式,推动其从被动的资源保存向主动的知识计算转型,即由“存史”走向“算史”,成为数字文明时代的重要课题。
既有的数字化建设:坚实的物理底座
“十四五”时期,多地统筹推进志鉴成果数字化与新编志鉴同步入库机制,加快资源转化和结构化处理,地方志数字资源总量持续扩大、质量稳步提升。一方面,专题数据库、地情数据库、史志数字资源库等建设不断深化,内容涵盖历史沿革、风土人情、重大事件、人物传记等多个维度;另一方面,针对资源标准不统一问题,部分地区制定地方志数据规范和操作手册,推动数据采集、著录、存储标准化。很多数字方志馆已具备全文检索、模拟翻页、关键词联想等功能,支持多模式阅读与知识关联分析,显著提升资源可用性与服务精准度。一些地区还打造集存储、展示、检索、服务于一体的综合性数字方志应用体系,积极推动方志数据从静态保存向动态服务转型。可以说,数字资源建设正扎实推进,数据治理能力正不断提升。
如上海市地方志办公室建设的“上海数字方志一体化系统”,实现了方志资源的规模化汇聚与物理可达:通过大规模数字化扫描与基础文本识别,实体志书被转化为触手可及的数字镜像,彻底解决了传统方志“藏在深闺人未识”的传播困境,为“十五五”时期的高质量发展奠定了坚实的物理底座。其中,智库平台提供基础与高级查询功能,初步实现从物理库存向数字仓库的转型,确保地情资料有库可查;智造平台集成了框架结构、总述、大事记等编纂辅助小工具,为修志者提供高效的数字化协同环境;智服平台则通过大数据可视化中心及“云游沪上”方志场景,实现方志资源面向社会公众的多维展示。这些基于物理迁移的数字化成果,是未来开展增量赋能工作的关键基石。
语义解构的待垦区:从有库向有智跃升
方志数据具有显著的二元结构特征。一类是1949年以前的古籍善本,其特点是文言晦涩、版面复杂;另一类是1949年以后的新方志,其特点是数据密集、体例规范,其中最大的价值洼地在于数以万计的统计表格。这些表格记录了数十年经济社会的量化轨迹,却因跨页断裂、多级表头嵌套等结构化难题,长期处于不可计算状态。中国地方志跨越千年,古今概念漂移导致的语义鸿沟,是地方志数智化转型面临的核心挑战。而方志的独特价值恰恰在于其复杂性:千年古籍与当代新志并存,文言竖排与现代表格共处。这种古今异构的张力,要求设计一种双轨并行的治理范式。
以机器认知和生成式人工智能的视角审视“十四五”时期的方志信息化建设成果,其仅实现了数字化,而非智能化。当前,数字化产物主要以PDF或离散文本形式存在,对于大语言模型而言,这与扫描图片并无本质区别:字符可见而语义不可达。无论是新方志中记录经济社会发展的海量统计表格,还是传统方志中蕴含复杂关系的传记文本,在缺乏深度语义解析的情况下,都仅是数字字符的堆砌,而非可计算的知识。这就导致大模型在面对跨文本逻辑推理的高阶咨询时(如分析近代上海工业空间布局演变或跨世纪气候灾害统计),往往显得支撑力不足。
“十四五”时期完成的方志资源物理迁移,仅是一个起点。顺应国家“数据要素×”行动的要求,建立地方志垂域模型,推动方志资源从非结构化的电子文献向结构化的数据要素跃升,已成为打破应用天花板、释放新质生产力的必由之路。在国家文化数字化战略与“数据要素×”行动的双重驱动下,地方志正走向数智化跃升的历史性拐点。
混合专家大模型:地方志价值再现
为了应对上述挑战,需构建双层技术架构:知识层解决古今语义对齐问题,模型层解决异构数据处理问题。在知识层,核心理论框架应包含一套时空映射超级本体。这套机制的设计哲学是柔性对齐而非刚性统一,不采取强行统一词汇的激进策略,而是通过知识图谱的属性链接,实现语义的动态关联。具体而言,将采用同义映射模式,将名称变化但内涵一致的概念进行对齐,如松江府与松江区在特定语境下的行政延续;建立上下位关系模式,如将钱庄界定为金融机构在清代的特定表现形态,实现从宏观产业到微观实体的穿透式关联;引入时间切片模式,对同一名称在不同时期指代不同地理实体的复杂情形进行隔离处理。通过这一三维坐标系的建立,方志典籍中的文献将被转化为可供大模型精准调用的数据资产。
在模型层,建立地方志垂域模型必须充分考虑方志业务的复杂性,这就需要采用混合专家系统(Mixture of Experts, MoE)架构。其核心思想是术业有专攻,即把模型拆分成多个专家子模块,每个专家深耕一个垂直领域,由路由网络根据输入特征动态分配任务。专家子模块分为古文专家、数理专家与归纳专家三类:古文专家负责文白对译,数理专家负责趋势分析,归纳专家负责宏观叙事。系统通过路由机制自动识别任务特征,检测到竖排版面,则分发至古文专家;检测到数值序列,则引导至数理专家。MoE架构的精妙之处在于路由机制,它决定了每个查询由哪些专家处理、各占多大权重。更值得关注的是多专家协同场景。如分析徐家汇地区的商业演变时,路由机制将同时调用古文专家处理晚清笔记史料、数理专家处理现代商业普查表格,并由归纳专家最终整合这些异质信息。这种协同不是简单的拼接,而是语义层面的融合,在最终输出的报告中,古今数据被置于同一分析框架下,形成连贯的历史叙事。MoE架构这一参数分配策略,既确保了在处理具体史料时的专业精度,又保障了面对宏观叙事时的逻辑广度,真正实现从单一通用大模型向复合型专业智能系统的进化。
[全文将刊发于《上海地方志》(季刊)2026年第2期]
文章为社会科学报“思想工坊”融媒体原创出品,原载于社会科学报第1990期第5版,未经允许禁止转载,文中内容仅代表作者观点,不代表本报立场。
本期责编:程鑫云
《社会科学报》2026年征订
点击下方图片网上订报↓↓↓

