跨学科团队开辟数字人文的清华路径

2026.01.20

    文字

    王一竣


    图片设计

    梁晨


    资料提供

    文科处

    人文学院


    编审

    刘蔚如  周襄楠

    张歌明  张莉 

    贠尔茹 


    栏目统筹

    周襄楠  贺茂藤

五年系统攻关,数十项基础设施,近百篇论文成果,其中二十余篇发表于《中国社会科学》及国际计算语言学年会等知名期刊和会议……当《全唐诗》的声律规则被算法模型所重构,当《红楼梦》的知识来源被文本相似度分析所发现,当“大数据技术与传统文献学的现代转型”和“文献学的数字化转向”等重大命题首次得到系统深入阐释,古典文学文献的研究范式正在发生深刻变革。

由清华大学人文学院院长、数字人文研究中心主任刘石教授领衔的国家社科基金重大项目“基于大数据技术的古代文学经典文本分析与研究”于2025年结项并获“优秀”等级。作为国内首个系统实现“古典文学+大数据”深度融合的标志性成果,该项目构建起以数据聚合、技术聚合、知识聚合、向量聚合全链条的方法体系,为人文学科在数字人文和人工智能时代的创新发展提供了全新方案。

刘石教授指出,随着人工智能与大数据技术的深入应用,古籍整理研究正从电子化、数字化,迈向知识化、智能化。这一转变意味着,古籍这一传统文化遗产的客观载体,将在重构知识体系、激发学术创新、服务数字强国建设等方面发挥前所未有的重要作用。

可校验的阅读:从古籍数字化到古典文学文本新勘

古籍为何成为数字人文研究的突破口?这一选择并非历史与未来的偶然交互,而是建立在文本特性上的学术自觉。

“古籍本身就是一个相对独立、边界清晰的客观存在。”重大项目团队成员、人文学院李飞跃教授指出,“它在研究上偏重求实求是,加上近年古籍数字化的迅猛发展,为数字人文探索提供了理想对象。”正因这种独特的客观性,研究团队选择从古典文献出发——从那些被千百年不断抄读、注释、阐发的文本中,借助“可计算的阅读”,寻绎古典新义。

团队成员多为从事与古代文学相关的学者,最初的目标很朴素:让古典文学文献的材料处理更高效。一部典籍作品的核心实体如何抽取,其频次特征如何分布?其篇章结构、词汇语法有何规律?借助算法与模型,研究者得以穿透文字表层,重新解构文本,这正是迈向“知识化”的坚实一步。

在研究过程中,团队发现,数字技术的潜力远不止于“测量文本”,更在于“理解文本”乃至“重现现场”。他们用主题模型分析古典文学文本的风格聚类,用社会网络理论勾勒作家的交游脉络,用概念分析追踪思想演变,甚至结合地理信息系统(GIS)与天文软件还原文史时空现场。

截至项目结项,团队已建成多模态语料库,涵盖经史子集四部文献文本及全球古籍影像数据。在刘石教授的总体统筹下,六大子课题协同推进,构建起深度交叉融合的学术创新合作体系。计算机科学与技术系孙茂松教授团队主要负责大规模语料的人工智能技术研发,统计与数据科学系邓柯副教授团队主要负责古籍文本的分词、专名识别、知识图谱构建与分析等工具研发,由此产生了一系列具有广阔应用场景的发明专利。

“Top WORDS”算法示意图

其中,子课题一聚焦大数据时代的古代文学文本分析技术,邓柯副教授主持开发了“Top WORDS”中文无监督分词算法与古文命名实体识别模型,让机器“读懂”古籍中的上下文语义脉络。子课题二构建基于人工智能技术的古典诗歌数据库与分析系统,孙茂松教授主持研发和训练了BERT-CCPoem古诗文模型,让算法会“听”诗、也能“写”诗。子课题三建设以事件库为核心的作家生平数据库,联通人物、纪年与地名等信息,让古代作家的生命轨迹与历史脉络在时空框架中叠加重现。子课题四用计算风格学方法重读明清小说,构建文本语料与戏曲词表,揭示不同时期文学风格的演变。子课题五结合复杂网络理论,以量化分析挖掘人物关系与话语结构。而子课题六聚焦古典诗歌的形式研究,构建智能分析系统,让传统诗学理论得到量化检验与可视化呈现。

全球汉籍影像开放集成系统

与上述研究相同步,项目组在基础设施层面进一步整合成果,构建了多层次、开放共享的数字人文基础设施体系:“全球汉籍影像开放集成系统”“中国古典文献资源导航系统(奎章阁)”“时间轴知识图谱”“璇琮数字人文智慧平台”等相互联通,共同构成了支撑古籍整理、学术研究的数字底座,为古典文学文献的知识化、智能化探索奠定了坚实基础。

重识经典:以算法拓展文学研究新范式

如果说数字化最初只是为了让古籍更好地“被看见”,那么随着研究的深入中,它逐渐成为一种新的理解方式。算法的介入,让古典文学研究从主观抽样走向客观实证,从经验分析走向多维量化,从而变得有标准、可验证与可累积。

《红楼梦》研究一直是中国古典文学研究的热点领域,传统红学家多依赖细读与语感来进行文本分析,而数字人文手段则为红学研究世界开了一扇新窗。项目团队运用多种模型综合计算《红楼梦》诗词与唐宋诗歌的语义距离,发现曹雪芹通过意象替换和语义迁移,将前人作品重新组织创造;而在其诗学体系中,占据核心位置的是《才调集》等清代诗文选本,这一发现改变了学界“《红楼梦》诗歌化用底本为《千家诗》”的传统判断。就这样,团队以算法和数据追溯曹雪芹的知识结构与阅读背景,重新界定了《红楼梦》的诗学渊源。

唐宋文学编年时间轴

数字方法也让古典诗歌研究焕发新机。项目团队以《全唐诗》为对象,建立了兼容“广韵”和“平水韵”两种古代押韵体系的声律数据库,用计算方式重新审视唐诗的声律规范。研究发现,唐诗格律的演变并非一条直线,而是在多种声调组合中不断试探与平衡,最终才形成今人所见的面貌。而在诗学语义层面,算法还揭示出李白、杜甫对《昭明文选》的创造性化用——二人系统性借鉴前人诗句,通过重新组合、语义转化,形成了各自的独特风格。这一发现让“灵感”有了可验证的依据:“诗仙诗圣”不仅是天生之才,更是文化记忆与学习积累的再创造。

女子艺文资料库

“当我们再看一首诗时,看到的已不仅是文本本身,而是它在更高维度空间中的位置与联系。”李飞跃教授说。数字人文让文本从线性平面进入高维网络,在文字、声音、图像等多模态关联中被重新理解。这种“高维阅读”让经典重新焕发生命力,也让我们以新的方式理解文学的生成逻辑。

这些突破性成果的背后,是一场真正意义上跨越学科壁垒的集体探索。项目在中文系牵头下,联合计算机系、统计系等多学科师生,共同探索古代文献在数字时代的创造性转化。在这一过程中,难点不在算力,而是标准——如何让算法理解古人的语言与情感,如何在计算中保留文学的细微与复杂。每一次分词、每一次模型校验,都是人文经验与技术方法的双向磨合。

数字人文的价值,正是在经验与技术、算法与文本的往复对齐对话中,让理解重新获得证据,也让数字被赋值,重新获得意义。

从人文引领到文明传播:数字人文的清华路径

在全球范围内,当前人文学科正经历一场深层结构性转型。人们越来越意识到,要将科学的严格、系统、明确的方法特征带到人文学科中,来解决那些迄今为止大多以偶然的方式被处理的人文学科问题。统计数据现在无处不在,成为我们交换知识的语言。李飞跃教授认为,人文学科不能以其特殊性规避一般性,也应引入过程可重复、数据可验证、方法可复用、结论可推广的研究方法。

当“全面、精确、可验证、可重复”成为学术的基本逻辑,人文学科不得不重新思考:在一个被量化的世界中,如何安放人文的位置?

在这种知识范式的变迁中,清华数字人文研究所走的是这样一种路径——不是用技术取代人文,而是从人文问题出发,进行知识和价值对齐。项目组成员、人文学院唐宸副教授认为:“机器制定的规则与有经验的人文学者制定的规则会相互补充,数字人文要找出它们的共性与可通约性。”在人文与算法的循环中,前者提供理解与判断的维度,后者提供计算与验证的能力。

以古文语料的分词与命名实体识别为例,算法生成统计模式,而人文学者依据语法传统与语义经验不断校正模型,使其能够识别古代文本中格律、修辞与语境的复杂性。正是在这种互补中,技术的精确与人文的洞察相互校正。数字人文由此成为一种新的方法论——在数据中重建人文的尺度。

项目团队承办世界古典学大会古典智慧与数智时代分论坛

这种由人文定义技术的研究方式,也让数字人文超越学术范畴,走向文化交融与文明互鉴。依托“全球汉籍影像开放集成系统”,无论身处何处,无论书在何处,都得以一键检索全球中文古籍影像,跨越国界建立知识关联。2024年11月,首届世界古典学大会在北京举行,清华大学承办古典智慧与数智时代分论坛,刘石教授在论坛上作题为“古典知识工程:构建人类文明共同体的东方古典学构想”的主旨发言,引发了国内外参会学者的广泛共鸣,新华社《半月谈》2024年第12期亦以《当古典学遇上数智时代》为题加以报道。

在学术共同体建设方面,项目团队做了长期、大量的工作。连续举办六届的清华数字人文国际论坛已成为代表国内中文数字人文乃至文科前沿的会议品牌,累计吸引了数以千计的海内外学者投递征文、激荡思想;并行设置的未来学者论坛,致力于持续发掘数字人文青年人才,培养新一代学人在数字人文的沃野上破土成林。清华大学数字人文中心与中华书局古联公司牵头成立了数字人文专业发展联盟,数字人文学术共同体逐渐显形。

首届数字人文专业发展联盟年会暨第六届清华数字人文国际会议

自2017年举办首届数字人文国际工作坊的星火初燃,到2025年成立数字人文研究中心,清华数字人文团队逐渐构筑起以国家社科基金重大与重点科研项目、《数字人文》集刊、国际学术论坛、本研课程与未来学者培育、门户网站与智能平台建设为核心的数字人文学术链,在交叉学科的深水区开拓创新,推动传统人文学科在智能时代的数字化转型和发展。

清华大学中华传统文化智能实验室架构图

2025年11月,随着中华传统文化智能实验室获批教育部第二批哲学社会科学实验室,清华数字人文团队工作进入了新的阶段。实验室将致力于加强跨学科、跨领域协同创新,结合大数据和人工智能等新技术手段,打通出土文献、传世文献与现代学术文献,创建“中国古典知识库”与“中华传统文化大模型”,以服务数字中国和教育强国建设,推动中华优秀传统文化创造性转化和创新性发展。

  • 010-62793001

  • webmaster@tsinghua.edu.cn

  • 北京市海淀区清华大学

  • 意见反馈

版权所有 © 清华大学

京ICP备15006448号

京公网安备 110402430053 号