近日,由南京农业大学和中华书局古联(北京)数字传媒科技有限公司合作研发的中华物产大模型在世界互联网大会乌镇峰会发布。围绕“AI赋能下的中华物产与文明探源”,我院教授包平和信息管理学院教授王东波分别作了《数智赋能下的中华物产与文明探源》和《中华物产大模型简介》的主旨报告。
图1 我院教授包平做主旨报告
中华民族有着百万年的人类史、一万年的文化史、五千多年的文明史,我国先民在漫长的社会实践以及与自然和谐共生的历程中发现和创造了丰富多样的物产资源。从《禹贡》记载的九州禀赋,到《诗经》描绘的诸方土俗,诗词歌赋勾勒出的四时风物,水墨丹青渲染成的江山丽景,再到《本草纲目》的药物集萃,《天工开物》的工艺精成,这些兼具文化和科学双重属性的宝贵文化遗产是人们探索物产知识和古人精神境界的重要依托。
当下数智技术高速发展,构建中华物产知识库、梳理中华物产演变历史脉络,探索中华物产与文明之间的深切关联,是新时代做好中华优秀文化创造性转化和创新性发展的有力抓手。
据悉,此次发布的中华物产大模型是一个集合了多家机构数据资源、算力资源和算法资源的系统工程。整体构建过程分为物产大模型预训练语料构建、预训练模型训练、对话模型构建与知识库问答实现三大板块。由于物产大模型需要同时满足对于古今物产资料的有效处理,因此需收集到含有高质量物产信息的语料。南京农业大学中华农业文明研究院所保存的手抄本《方志物产》资料是合适的训练语料之一。
图2 中华农业文明研究院方志物产手抄本文献
包平表示,从2008年开始,包平教授团队在中国农业遗产研究室之前的海量工作基础上,进行了中华历史方志物产文献的补遗和全口径物产文献的辑录和智能化整理,涵盖了地方志以外的其他记载物产的文献,包括正史、农书、本草、名人笔记、博物志、异物志等,使这套中华物产资源达到4800万字并逐步开始活化利用,团队基于此资料开展了深入的智能整理与知识挖掘研究,为后续与中华书局古联公司联手构建中华物产大语言模型奠定了坚实的数据基础。
图3 连续2年对江苏进行物产文献系统性调研
在上世纪50年代,时任中国农业遗产研究室主任的万国鼎先生先后派出百余人的团队前往国内40多个大中城市、100多家文史单位,手工抄写了7532部地方志中的物产内容,整理装订成《方志物产》《方志分类》《方志综合》《方志补遗》,计686册、3600万字的方志物产专题文献,这一叹为观止的人工工程被学界称为“红本子”。后由南京农业大学人文与社会发展学院王思明教授团队进行了数字化扫描、文字的计算机录入、转化等,生成了WORD电子文档。
图4 数智环境下中华物产文献的保存与开发利用
包平认为,中国拥有数量极其丰富的长时段连续记载的物产历史文献资源,团队正在进行智能化活化系列研究和应用场景的拓展,取得了良好的进展,开发一种能够同时利用好古代和现代物产信息的大语言模型对于推动物产资源的活化利用具有重要意义。未来,依托南京农业大学中华物产与文明探源协同创新中心这个平台,在加强对中华物产史的理论研究基础上,还将在人工智能和物产挖掘结合的研究方向上进一步深耕,推出能够支持更多模态物产资源处理的工具,推动中华物产文化走向世界。
(供稿/数字人文中心,编辑/王誉茜,审核/李日葵)