现代快报讯(通讯员 杜建宾 记者 于露)日前,南京理工大学沈思教授团队开源发布国内首个人文社会科学领域学术大语言模型——“兰章”,标志着该校在“AI+人文社会科学”知识体系构建方面迈出重要一步。“兰章”凭借百亿词元的坚实数据基础以及两阶段深度优化训练,较好地解决了当前通用AI工具在人文社科全文本挖掘、复杂概念和论证逻辑理解方面“盲域”和“幻觉”问题,不仅可以辅助用户系统地获取和梳理海量学术资源,还能够帮助人文社会科学领域学者总体评价既有成果并敏锐发现新学术研究契机。

“兰章”研发团队历时五年,构建了总规模116亿词元的人文社会科学学术语料库,涵盖CSSCI、CNKI人文社科期刊、人大复印报刊资料、教育部人文社科获奖著作全文(1992~2025年)等中文学术资源以及SSCI、A&HCI期刊摘要及Project MUSE、Project Gutenberg(1992~2025年)等学术资源,保证了学科的均衡覆盖以及期刊与著作的深度集成。“兰章”凭借百亿级词元的坚实数据基础,较好解决了通用AI工具主要依靠论文标题、摘要等简单信息挖掘语料,难以理解完整文本中复杂概念和论证逻辑的难点痛点问题。

“兰章”研发团队选取人文社会科学全文本评测中表现较好的Qwen3-8B与Qwen3-32B基础模型进行两阶段的深度优化训练:在第一阶段,运用116亿词元的学术资料系统融入人文社科学科知识和学术表达方式,提升基础模型的全文本理解能力;在第二阶段,团队围绕核心学术任务设计15697条训练指令,在多学科专家验证基础上反复精细调优,形成并持续提升模型的专业推理能力。经过深度优化训练,“兰章”表现显著优于多款通用模型,有效解决了跨语言环境下低频专业术语的识别盲区问题和学术文本生成中的逻辑碎片问题,图书自动分类准确率比通用模型高出30%。

打开网易新闻 查看更多图片

团队负责人沈思教授介绍,“大模型不是代替学者思考,而是立足实际学术研究,把自主知识体系的构建延伸到模型化和计算化的层面,从工具层面为人文社会科学学术创新提供持续支持。”目前,“兰章”已上线魔搭社区试运行,15697条训练指令数据已全部开源共享。

据了解,近年来,学校高度重视哲学社会科学工作,积极推进一般社会科学与学校优势学科群的交叉融合,以数智技术赋能哲学社会科学研究。“兰章”的发布,是学校积极推进精品化特色化哲学社会科学研究,加快构建中国哲学社会科学自主知识体系进程中的又一最新成果。