近日,由清华大学数字人文团队历经数年研发的“典津:全球汉籍影像开放集成系统”正式上线发布。该公益性平台聚合了全球数百个数据库逾70万条中文古籍数字资源元数据,为学界提供标准统一、开放获取的古籍数字影像资源“一站式”集成服务。
近年来,随着数字化技术的普及,全球众多图书馆、博物馆及学术机构投入巨大力量,将馆藏珍贵古籍进行数字化扫描,形成了海量的古籍影像资源。然而,这些资源分布在数百个不同的数据库平台,著录标准千差万别,检索接口各异,访问策略不一。一位研究者若想穷尽获取某一典籍的数字化版本,往往需要辗转多个网站之间,反复检索、比对、记录,不仅耗时费力,且容易产生遗漏。“‘典津’不仅破解了长期困扰中国人文学界的‘资源孤岛’难题,更构建起一座连接传统文献学与前沿数字智能技术的桥梁,为学界进一步活化利用中华优秀传统文化遗产提供了坚实而便捷的基础设施。”项目负责人、清华大学人文学院教授李飞跃如是说。
2023年10月,典津系统发布初代版本,月访问量逾70万人次,访客遍及全球150多个国家和地区。此次“典津”系统升级,最核心的突破在于将人工智能深度融入数据处理的每一个环节,构建了一个全流程AI大模型驱动的智能聚合框架。面对来源庞杂、格式不一、质量参差的海量原始元数据,团队创新性地设计了由“原始数据层、标准数据层、关系数据层、应用数据层”组成的四层架构,每一层都由特定的AI智能体集群负责,形成了一条聚合中国古典知识的“智能流水线”。过去需要数月手工调查才能勉强摸清的资源分布情况,现在几分钟内即可一览无余。学者可以轻松比对同一典籍在全球收藏的不同版本影像,从纸张、墨色、印章、批校等细节进行远程“目验”,为版本鉴定、文本校勘提供前所未有的便利,弥补了无法亲见原书的遗憾。由于提供了开放、灵活的API接口和子集建库功能,该系统实现了从“数据内容平台”向“知识生产平台”的进化,成为一个重要的上游“数据港口”。
清华大学数字人文团队负责人、人文学院院长刘石曾提出构建“中国古典知识库”的倡议,旨在以存世古籍文献为基础,突破其原有物理和文本结构,构建富含实体、属性与关系的宏大知识网络,实现古典知识的深度组织与智能管理。“本次典津系统的升级发布,正是迈向这一宏伟目标的关键一步。它解决了海量底层数字资源的智能聚合、标准化与关联化问题,为上层知识抽取、语义关联奠定了坚实的数据基础。”刘石说。
编辑:李华山