中国语言文学系

Department of Chinese Language and Literature

“清华大学数字人文与文学研究国际工作坊”举行

由清华大学中文系、芝加哥大学Text lab、清华大学图书馆共同发起的“清华大学数字人文与文学研究国际工作坊”于6月10日、11日在清华大学逸夫馆报告厅隆重举行。这是数字人文研究兴起以来,国内首次举办以“文学研究”为主题的数字人文研究领域国际会议。这次会议吸引了校内外百余人参加。

工作坊缘起于清华大学、芝加哥大学和《山东社会科学》杂志社最早发起的数字人文与文学研究专栏。由清华大学中文系的王中忱教授、刘颖教授和执教于哥伦比亚大学的戴安德博士、浙江大学的姜文涛博士、首都师范大学的赵薇博士共同召集,旨在推动数字人文方法进入文学研究领域,并展示最新的前沿成果和研究实例。

 

这次活动获得了来自清华大学中文系、古典文献研究中心、芝加哥大学Text lab、东亚语言与文化系、英文系,哥伦比亚大学亚洲语言文化系,上海图书馆和清华大学图书馆等各方支持和响应。工作坊的演讲和讨论模式也广受与会师生的欢迎,讨论热烈,成果丰硕。

为期两天的工作坊分别由清华大学中文系的邓盾老师和会议召集人之一姜文涛博士主持。

 

在首日的报告之前,清华大学人文学院副院长刘石教授致辞,将目前文学领域的数字人文研究分为平台搭建和使用平台进行研究两大步骤,肯定了目前学界在数字人文领域的成绩,并表达对数字人文与文学研究领域前景的期待。

10日的报告环节中,来自芝加哥大学的霍伊特·郎教授和苏真、朱远骋、戴安德博士团队分别介绍了他们最新的研究成果。

霍伊特·朗(Hoyt Long)教授团队使用机器学习的方法识别和研究英文俳句,通过机器学习俳句特有的词频、音节数、常用意象等特征,对语料库中的材料进行分析和区分。其研究中表现出的对文学和普通文献材料辨别的思考和对机器学习误判情况的解读,对于数字人文学者重审“细读”式的文学研究和文学文本的“文学性”提供了值得反思的案例。在下午的报告中,他又以“青空”日本文学数据库的复杂关键词检索为例,详细讲解了可检索数据库中如何使用复杂关键词叠加搜索大量文献,并展示了进一步处理结果时数据平台可以为研究者提供的有效筛选和提取手段。虽然青空检索平台是基于日文的数据库,但可以推广的方法和类似平台的同类功能为与会者学习和使用检索平台开展研究提供了借鉴。

霍伊特·朗报告的翻译张子涵

苏真、朱远骋、戴安德博士的Text Lab团队则借助上海图书馆民国期刊电子数据库项目的建设,对民国期刊文献进行大规模的文本和数据分析。

苏真、朱远骋、戴安德博士的Text Lab团队在致力于探索统计学、数字人文和前沿计算机技术在大规模文本分析中应用的同时,他们也保持对文学文本和历史史料的谨慎态度,以期使用技术手段获得对中国近代文学和历史客观、宏观分析的新视角。

上海图书馆的戴梦非女士对此项目促成的民国期刊全文数据库做了详细的介绍和使用说明。

戴安德博士则将清华大学的数字人文研究前身上溯至早期清华导师梁启超和毕业生卫聚贤,并重提民国时代“用应用统计的方法来整理国学”的号召。

统计专家朱远骋博士还就他们使用到的统计学方法以及在研究中需要注意的陷阱做了专门报告,用四则研究中的小故事引出诸如“辛普森悖论”“熵的陷阱”和“可置换原则”等文献统计的重要原则和值得注意的问题,为使用统计学方法开展文学研究的学者提供了生动详实的具体案例。

此外,来自清华大学古典文献研究中心的张力伟研究员代表中心向与会者介绍了关于“古典文献知识工程”的构想,这一平台体量大、文献全面、可检索程度高,在傅璇琮先生等老一辈专家的关心下较早着手实施,并已取得初步成果。

来自清华大学中文系的江铭虎教授也做了《大数据环境下的语言认知与计算》专题报告,向来宾展示清华大学中文系计算语言专业在语言认知与数据分析方面取得的成果,并提出了未来学科交叉与融合的希望。

次日的报告由工作坊召集人之一、来自浙江大学的姜文涛博士主持。

在半天的报告中,霍伊特·朗教授再次以中日近代小说作为研究对象展示了数字人文方法在文体研究中的应用,无论在微观的词汇、意向检索统计还是宏观的体裁、类型和写作风格分析方面,数字人文方法都为研究者展示了不同于以往的角度,使得定性、描述和批评的研究一定程度上转化为量化的、可视的和非主观的数字成果,展示了文学研究的另外一种可能性。

霍伊特·朗教授另外两场报告的翻译虞宙

来自南京大学的陈静教授和但汉松教授,分别就《中国数字人文跨学科研究现状》和《数字化文学批评的进路与反思》做了专题报告,为使用中文进行研究的学者介绍了目前中国数字人文领域的发展进程。作为新兴的交叉学科,中国数字人文研究还很年轻,但在此概念提出之前,国内已经有许多学者致力于相关领域的研究,并涌现出许多成熟的研究成果和具备检索、分析功能的数据库,如“中国近现代史全文检索数据库”“全唐(宋)诗分析系统”“唐宋文学编年地图平台”等。同样的,作为一种文学批评的方式,数字人文的基本思想也很早地在文学领域萌芽,并随着计算机技术的发展得到越来越多的重视。但汉松教授特别强调数字人文方法在文学批评领域的独特性,一方面提醒研究者避免数字人文成为语料库研究方法的简单附庸,另一方面也对计算机语言中二元逻辑的局限与文学研究中的文学性之关系提出了自己的期待与担忧。

 

会议召集人之一、毕业于清华大学的赵薇博士和两位来自清华大学人文学院的研究生严程、涂梦纯同学也就自己的具体研究做了报告。

赵薇博士的《社会网络分析与叙事性作品研究》,使用R语言、Gephi等技术手段针对李劼人的长篇叙事作品进行了一系列的数据分析和统计,并借助数字加权和算法应用发现与阐释小说人物的关系和作者的叙述意图,在展现和分析长篇小说时空情节、人物功能的基础上,回应了前辈学者通过直观阅读所得出的关于小说主人公和叙事意图的判断。

来自清华大学中文系文艺学专业的博士生严程同学在《女性的友谊与诗:顾太清和她的秋红诸姊妹》中,用具体的交游网络研究实例展示了借助Gephi基础功能统计交游圈的交往情况和发现异常问题并加以解决的个案,为文学研究者借助数字人文的理念和工具发现论题提供了可操作的实例。

来自计算语言学专业的硕士研究生涂梦纯同学则使用计量统计的方法分析时下热门的同类型网络小说《鬼吹灯》和《盗墓笔记》,从字、词、句和文学风格等不同角度解读了两种小说的区别与造成的效果,探索了与传统文学批评不同的研究路径。

此外,来自海关出版社的刘冬女士还介绍了旧海关史料数据库的开发状况和使用方法。

清华大学中文系的王中忱教授在上午的报告结束后做了总结发言,在总结各位与会学者研究成果的同时,也带领大家展望数字人文与文学领域研究的前景,并对在座的学者和年青一代学人寄语殷切期望。