魏希德:数字人文研究的问题意识

作者:魏希德 郭华苓 徐嘉泽 郑晴心;转自:公号 DH数字人文

DHer访谈

魏希德 郭华苓 徐嘉泽 郑晴心

————————————

受访人简介:魏希德(Hilde De Weerdt)教授现就职于荷兰莱顿大学(Leiden University)区域研究所,致力于中国古代思想史及政治史研究,尤其关注人际网络对中国政治的塑造影响。继《义旨之争:南宋科举规范之折冲》之后,其研究著作Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China的中译本(《宋帝国的危机和维系:信息、领土与人际网络》)即将出版。在数字人文研究领域,魏希德教授主持开发的Markus古籍半自动标注平台颇具影响力。同时,基于Markus平台功能的开发及应用,她主持参与了“信息沟通与帝国:中欧历史比较”(Communication and Empire: Chinese Empires in Comparative Perspective)、“中文文本自动化数据抽取”(Automating Data Extraction from Chinese Texts)及“新亚洲媒体生态的批判研究方法”(Critical Approaches to New Asian Media Ecologies)等项目。

采访人简介:郭华苓,清华大学中文系;徐嘉泽,清华大学统计学研究中心;郑晴心,清华大学中文系。

访谈地点:清华大学艺术博物馆1911咖啡厅

访谈时间:2019年12月15日17:00—19:00

访谈背景:在2019年12月14日由《数字人文》编辑部召集的“《数字人文》创刊仪式暨北京数字人文国际工作坊”上,魏希德教授发表了题为“数字研究与合作:里程碑及关键挑战”(Digital Research and Collaboration: Milestones and Key Challenges)的报告,结合自己的研究经验,分享了关于数字人文工具开发、实际应用及未来发展的观点。2019年12月15日,围绕数字化方法与传统历史学训练如何进行有机结合、人文学者与数字技术学者如何建立起良好对话关系等问题,魏希德教授与我们在清华大学艺术博物馆进行了更深入的探讨,进一步强调数字方法的应用需要与研究问题适配,求新求快不应是采用数字方法的动机,更好地提出以及解决问题才是数字方法与人文研究结合起来的内驱力。

魏希德教授(右二)在清华大学接受《数字人文》访谈后,与访谈者郭华苓(右一)、徐嘉泽(左一)、郑晴心(左二)合影

问:您在进行数字人文研究的过程中,是如何将传统学科训练、新式研究方法以及自身研究兴趣进行结合的?

答:对我来说,这种结合实际上是一个十分自然的过程。我并没有特别设想过要如何把它们融合在一起。作为历史学者,我的研究首先会围绕一个历史学问题开始。我会结合自己接受过的学术训练去考虑我所关注的问题及所需材料,再针对具体材料和问题,尝试寻找最契合的研究方法,最终再综合利用这些方法来解决问题。所以一开始我还是会采取我们一直以来学习的研究方法,那就是文本细读(close reading)。我是一位思想史学者(intellectual historian),会倾向于使用细读材料的方法,但是近来我也比较喜欢阅读涉及方法论的一些内容,会思考、对比、评估哪些方法可能对我的研究有用处,可以带来有用的结果。举例来说,作为一名研究思想史的历史学者,我对接受史(reception history)很感兴趣,会关注譬如人们是怎样阅读书籍或地图这样的问题。这是一个很难回答的问题,因为大多数情况下,人们在看地图或读书时是不会留下过多的痕迹的,所以必须要检阅大量的材料来寻找这些有限的痕迹。在这些材料中,你有可能会找到一首关于某人阅读了某些内容的诗歌,也可能找到一封谈论该如何阅读某些内容的信件,又或者会找到当时的读者阅读后所写下的评注。当然在阅读材料的过程中,你也极有可能一无所获,或是无法将找寻到的材料很好地联系起来。虽然一开始我主要采用细读的方法,但是当我开始学习网络分析(network analysis)的相关内容后,就开始设想能否采取一种可以更加系统化地给材料中人们谈论阅读经验的内容加注(annotate)的方式。所以,结合自己的问题和材料,在做研究设计的时候考虑到这种结合其实是十分自然的。

但你必须先掌握传统的研究方法,比如学会如何查阅一份目录或是查找一本书。于我而言,更多地接触传统形式的材料有其重要性。一方面是因为目前还有很多的材料没有被数字化,另一方面的原因是在这样的训练过程中你能学到很多的技巧,譬如当你想了解有关某个人名或地点的信息时,你会知道应该在哪些字典里查询到相关内容,用数字化的方法看待材料有其局限性,你可能会忽略一些内容,你的参考文献也可能是有缺漏的。同时传统的训练中往往蕴含着一种阐释性的思考问题的方式,促使你思考如何更好地解读材料。即使采用数字方法,面对量化结果,也还是需要回归材料,去作出解释。所以我想说明的是,对于传统方法与数字方法而言,你不仅要能够分别利用它们,同时还要清楚如何使二者产生交互。这意味着当你采用新兴的量化方法时,这些方法一方面能够帮你提出问题,另一方面还会促使你回归原始材料、通过更多的阅读去寻找问题的答案。至少这是目前我运用这两种方法的方式,我不想只是为了求新、求异而采用新的研究方法,这种尝试应当是更广泛的研究过程的一部分。我对于新方法的使用实际上是十分多样的,但我并不以方法论作为专攻的对象,我所关注的还是问题本身。我曾经尝试过网络分析、简单的定量分析(quantitative analysis)、表格分析(tabular analysis)等方法,也使用过数据库(databases)、统计软件(statistical packages)、语料库语言学软件(corpus linguistics packages)、空间分析(spatial analysis)以及地理信息系统软件(GIS packages)等。我还学过一些其他的内容,但有一些我还没有在研究过程中使用过,因为它们跟我现在所做的研究可能并不契合。我也对主题模型(topic modeling)、使用Python进行词频分析(word frequency analysis in Python)等有所了解,这些方法都很有趣,但我还没有在研究过程中使用过它们,就是因为它们和我感兴趣的问题并没有那么契合。

以前,历史学者们时常会表达这样一个观点,所谓的历史研究方法并不存在,历史学者所做的只是去阅读,然后把自己的所思所想写下来,方法论并不会介入其中。我对这个观点有些异议。我认为我们需要面向不同的专门史研究的方法训练,需要去了解前人是如何处理他们所面对的材料的,譬如面对一些专门的文献材料,你可能需要了解目录学(bibliography)、关于抄本文献(manuscript)的知识、古文字学(palaeography)、版本学等。如果是研究艺术史的话,可能了解可视化分析(visual analysis)的知识也很重要。如果研究经济史,那么也应该对经济学知识有所涉及。如果是研究思想史,需要了解社会学、概念史(conceptual history)、观念史(historyof ideas)等不同领域的处理方式,包括从图像研究的角度(graphical approach)。显然研究方法也包含理论化的知识。有能力去解读你所关注的材料并提出有趣的问题很重要,对于知识的摄取当然并没有标准限定的范围。

当我们在培养学生进行历史学研究的时候,我认为首先应当教授给他们最基本的学术技能,然后根据他们的兴趣设置不同的课程模块供其选择。作为学生,你可能做不到精通所有领域的知识,但是你应该对这些不同领域的优势和问题有所了解,应该坚持去学习。通常来说,当你开始尝试新的研究方法时,会很快地意识到自己会犯一些错误。掌握这些新方法需要比较长的一段时间,比如想要学习统计学的方法可能需要至少两年的时间。学生阶段可能会有比较充足的时间来学习,但是对我而言,因为还要承担授课任务和行政工作,时间通常比较有限,所以在了解新方法的时候,我会确认自己是否掌握了这种方法的核心观念及运作方式,同时还会和领域内的专业人士合作,他们会帮助我理解这些方法,从而避免做出错误的选择。

问:Markus作为非常成功的数字化文本处理和分析的开放平台,它的成长历程是怎样的?

Markus其实是我在一个项目中使用到的研究方法的概括总合,这个项目主要关注笔记材料中的沟通网络(communication networks),后来我们发现实际上还可以做点什么使这种方法也能在其他项目里发挥作用。我们采取的是敏捷软件开发(agile software development)的方式,在开发的过程中会设想研究问题,制定研究方法,开发普遍适用的功能,然后再根据用户的需求补充相应的功能。Markus的很多功能其实都是基于用户在研究中产生的需求而开发出来的。最开始涉及人物的标注,我们只有自动标记的功能,关于这个功能我可以谈论两个小时。现在我们增加了更多的功能,两天也说不完。但我始终认为我们应当更有针对性地进行功能开发。对于一个项目来说,重要的不是覆盖所有可能性,而是将其中一点做到尽善尽美。对于Markus来说,我们关注的核心功能就是标记,就是如何让用户可以更好地进行文本注解。我们还有一个策略,就是将Markus和其他数字人文项目整合关联起来,例如我们不在Markus平台上直接做可视化,而是把数据传到其他平台上来做可视化,同时我们还会考虑如何为用户提供一个更好的注释环境,所以就会尝试同其他的学术数据库做关联,将中国历代人物传记资料库(CBDB),中国历史地理信息系统(CHGIS),法鼓文理学院建立的地名规范资料库(Place Authority Database)、佛学规范资料库(Buddhist Studies Authority Database Project)中的数据也利用起来辅助标记。同时,Markus还可以对韩文文本进行标记,自动标记所依据的也是规模较大、经过学者精心整理的参考材料。另外,考虑到用户可能不一定对地名或人名的标注感兴趣,我们也提供了介绍不同人工标注方法的使用指南。

Markus网站首页,https://dh.chinese-empires.eu/markus/beta/

在开发Markus的过程中,我们也有很多的合作伙伴。如台湾大学项洁教授的一位学生帮助我们开发了检索关键词的方法(keyword discovery method)。我们也有一些资金支持,可以和莱顿大学计算机科学研究所合作开发机器学习的单元(machine learning unit),这一部分目前我们还在改进中。我想用墓志铭材料的标记作为例子来具体说明机器学习这一功能。假设你在Markus平台上传了50篇墓志铭来进行标记,仅仅使用自动标记功能可能会产生一些错误,以姓名标记为例,自动标记有时会造成应该被标记的“姓”被遗漏,或者标记结果不准确的情况。除了人工纠错的方式,也可以通过机器学习来修改自动标注的错误。首先我们可以使用Markus上的功能,让机器学习已经上传的50篇墓志铭文件,机器可以对具体术语出现的环境进行统计分析。这种分析并不是基于词的,而是基于标签(tag)的,机器会通过考察标签所处的环境来进行分析。所以当机器学习完这50篇墓志铭文件后,当你再上传一篇其他墓志铭文件到Markus平台上,就可以选择根据之前学习过的标注方式来产生新标注。例如墓志铭中往往会出现很多亲属称谓(kinship terms),如果选用自动标记,一些跟在亲属称谓后的不完整的人名(如“子某某”,“某某”为墓志主人儿子之名)可能不会被识别出来。而选用机器学习功能来进行标注,机器可以判断出在墓志铭中“子”后面出现的两个字符可能会是人名,再基于此种判断产出一个语汇列表,用户可以选择其中符合要求的语汇作为标记参照的补充。目前这一功能还是比较基础的,和我的设想还有较大出入,我们之前是希望机器可以从用户修改的过程中学习到自动标注系统出现错误的模式规律,搞清在什么情况下自动标注会出现错误。

同时,Markus的关键词剪辑器(word clipper)可能会是一个很有帮助的功能。当用户对数量有限的人名感兴趣,或是在关注一些特定具体的地点,如街道、寺庙、山峰,而这些地点的名称并未收入到地名规范资料库的时候,就可以使用这一功能来辅助标注。我们曾经在关于明代小说的研究中应用这一功能,来探究在不同的明代小说中处于中心位置的地点有哪些。当你试图找到文本中关于特定地点的所有信息时,可以先在文本中选择一个地名语汇,将它放到关键词剪辑器里,设置为一个关键词。然后通过查找文本中与该关键词作用相同的语汇,你就可以标注出一系列文本中出现的地点。考虑一下语言的结构,我们会发现地点语汇常常出现在这样的结构中,例如“我在什么地方”“我去什么地方”“我在什么地方做什么”等等,语言是有规律的,地点语汇通常会与特定的动词和介词进行搭配,由此凭借对关键词前后出现过的语汇进行频率分析(frequency analysis),就可以获得我们期待的结果,这一工作原理和机器学习具有相似性。

问:相比于《义旨之争:南宋科举规范之折冲》[1]专注于各种思想与政治群体围绕科举话语权展开的竞争过程,您的后一本著作Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China[2]更加着重于析理12世纪以降中国精英阶层广泛共有的感受,更具备信息和网络的现场感,这是否应该归功于数字人文研究的深入?

答:这本书的前一部分实际上更像是标准的文化史、思想史研究,关于数字研究方法只在后半部分有涉及一些。所以这本书中关注的问题并不主要由新的研究方法引发,而是我在阅读,尤其是研究第一个项目的时候,在阅读类书的过程中想到的。《义旨之争:南宋科举规范之折冲》这本书主要关注的问题就是当时的科举考生到底是如何为考试做准备的,在准备的过程中他们会用到哪些总集和类书等。然而在阅读的过程中,我发现很多类书会援引会要、实录等材料中的内容,我很好奇,想知道类书的编修者是怎样接触和获取到这些材料的。所以问题的产生还是源自传统的学术训练、阅读积累以及相关的背景知识,这些都很重要,我认为一个好的项目是需要基于一定的语境知识的。

数字方法确实对我的这一项研究有所影响,主要集中在书中两个章节的内容里。一旦你对数字方法有了一些了解后,你会意识到其实很多问题可以更有效率地得到解决。譬如版本之间的比对,其实可以用语料库语言学的方法来完成。我曾经比对过不同版本的王明清的《挥麈录》。整体内容差异不大,但是在个别字词上会有所不同,例如像用于指代金、辽的“虏”字,在清朝统治的背景下,是有所改动的。这种明显的差异是可以被系统地挖掘出来的,当我学习了一部分语料库语言学知识及版本比对的数字方法后,就可以使用这些方法来系统性地挖掘文本差异。当然,我也可以花费一年的时间逐行比对不同版本的文本内容,但是我不会选择这种方式。

我并不认为数字人文必须以一种理论的形式呈现出来,但是每种相关的方法论背后都有其理论支撑。批判地理解方法和理论以及它们所适用的情境是非常重要的,否则可能会导致误解,或是事实上的忽略。使用数字方法确实可以带来一些结果,但它并不一定能够满足使用者的全部期待。就像Markus的用户们通常会抱有很高的期待,希望这个平台可以帮助自己找到全部所需的内容,但实际上它并不能做到这种程度。我觉得我们使用数字方法的目的不应该是求快,只有当这种方法能够很好地解决问题时,我们才应该选用数字方法。使用数据库检索固然会快一些,但这并不意味着一定会得到更好的结果,因为在缺乏上下文语境的情况下,你极有可能会误读检索到的材料。在我自己看来,很多做大规模定量分析研究的人通常会承认自己工作的局限性。他们的研究可以提供一个全局的概貌,但其中很多细节尚不能解释清楚,因此就需要深入到微观层面,深入到文本中来,去进一步阐释其内涵。

说实话,我认为很多从事微观层面研究的人文学者不是很喜欢这种做法,只要有意愿,人文学者确实可以把数字方法和文本分析结合起来,但问题是这种做法对我们所感兴趣的问题、文本或者作者来说到底意味着什么呢?这就是为什么我认为不能单纯为求快而使用数字方法。只有当这种数字方法可以为你的问题提供一个好的答案时,它才是一个最好的选择。使用数字方法确实存在风险,一旦开始使用它们,你极有可能会需要做很多一开始没预料到的额外工作。目前阶段,很多人对数字方法兴趣高涨,但还是要控制自己的期待。一开始先完成研究计划是非常有帮助的,因为这样你就知道自己要做的有哪些,同时可以避免增加不必要的尝试。如果我现在是一个学生,可能一开始不会尝试做一个很大的数字人文项目,我会选择一个容易掌控的项目,并努力把它做好,因为这样既可以证明自己使用数字方法的能力,同时我也可以挖掘出足够的细节来解决这个问题,由此文科背景的研究者也会对我的成果感兴趣。人文研究还是应当从其背景知识出发。

问:数字人文研究的推进与发展需要数字学者和人文学者非常紧密的合作。您认为人文学者和数字学者之间的合作怎样开展是比较有效的?人文学者和数字学者双方应该付出怎样的努力呢?

答:我曾经和计算机科学、社会学、数学领域的专家学者有过合作。对我来说,开展合作的过程就像是建立一种对话关系。在合作的过程中,我不太喜欢直接把数据和问题抛给合作者,然后等待他们的反馈。这种合作方式有的时候会成功,但在大多数情况下不会。双方之间缺乏沟通会产生一些问题,例如合作者可能会选择他们习惯的方式处理你的数据,但这种处理方式并不是定制化的,可能并不适合你的项目,只是强行把一些方法运用到你的领域里来。同时,这样做也不太能引起你的合作者的研究兴趣。就我自身的经验来说,找到对人文领域或历史研究极为感兴趣的计算机科学家其实并不容易。对于很多计算机科学家来说,我们所能提供的数据或数据集(data set)并不如一些现代议题来得充足,譬如像交通、商业、保险等问题。通常来说,我们并不会是他们首选的合作者,所以,我们必须选择对计算机科学家来说同样有趣且有收益的研究问题。这种合作关系应当是共赢的,展开合作对双方的研究工作都有裨益,这就意味着提出的研究问题需要是有趣的,同时有足够的空间让计算机科学家也可以在方法论层面有所推进和贡献。在我的项目团队中,我和合作的计算机科学家经常会面和沟通,每当他遇到问题或是有所建议的时候都会联系我。所以基于何种模式的合作会成功呢,我想可能就是要保持良好的对话关系,一起会面讨论数据、问题和方法。这种对话非常重要,因为通常来说,好的结果都是通过讨论产生的。当我产生了一个想法,我需要和合作者一起讨论来修改研究设计,需要探讨哪些是技术上可以实现的,哪些是我所预期想看到的内容,如果我不说出自己的想法,可能我的合作科学家也不会清楚我关于研究的设想。这一层面的讨论很重要,有助于研究设计与人文学者的研究需求以及工作流程更加契合。

可以说,人文学者和数字学者所说的确实不是同一种语言。我们始终需要记得,你的合作者可能并不了解你所感兴趣的问题,或者并不熟悉你所读过的文献。这正是为什么我把这种合作关系称为一种对话,合作双方需要学会如何彼此沟通。一开始对话的过程可能并不顺畅,需要经过很多次的沟通磨合,但是学会如何交流是必要的。人文学者和数字学者之间的合作关系是具有学术性的,彼此都具备各自领域的理论、知识,希望对某个问题的研究推进有所贡献。我认为人文学者应当从这种合作中学到些什么,或许你没有能力完成所有的计算,但至少可以从抽象层面去了解这种新的方法论是怎样运作的。

以网络分析为例,网络分析这种方法的底层逻辑是什么呢?它实际上是基于这样一个概念,当你去看待任何人物或对象(object)和其他实体(entities)之间的关系时,你会对这个人物或对象的属性有更多的了解,例如这一对象是否处于关系网络的中心,它是否是不同关系间的调节点,或者它是否和更多的实体之间有所关联。这种分析的核心概念是,当各种关系间的连接建立起来后,信息就会通过这样的网络传递出去。对现在的历史学者来说,这可能是一种常识。但实际上大约几十年以前的中国历史学者们才开始思考有关生活在同一地区的人们是否会具有某种共同特质这样的问题。除了考虑地域因素,我们也应该想到人际关系及其他种种要素间的关联所能产生的影响,即使你同另一个人并不亲近,你们之间依然可能建立起间接的关系,这就意味着信息有途径在你们之间传递开来。我认为我不应该只是向我的合作者提供数据,我自己也应该了解网络分析背后的理论根据,应该了解如何计算出有意义的关系,应该知道什么是聚类(clustering)、什么是密度(density)、什么是中心性(centrality)和邻点(neighborhood)等等。

我会去阅读软件的使用指南,在阅读的过程中,能学到很多东西,我能够积累足够的知识储备去和我的合作者进行沟通,他们会告诉我怎样操作是更好的方式,我合作的数学家就会建议我把概率(probability)也考虑进去,而不是只看绝对数(absolute numbers)。我想说的是,不要放弃,人文学者和数字学者之间的合作,或许要花一年的时间来磨合,这就像你开始学习一门新的语言,最初的几个月你可能讲不了太多的内容,但是过一段时间你就可以用它来进行对话了,对于数学逻辑语言的学习,道理是一样的。

问:数字人文的研究方法是否可以为来自不同地区的学者们提供一种更具普遍性的研究范式,能够跨越不同地域的研究传统差异?

答:这是一个有趣的问题。我想在数学领域,数学家似乎倾向于认为数字和公式可以作为一种通用语言(universal language)。自然科学的发展会基于这样一个观念——科学是没有国界的。很多人会觉得一些数字人文的方法论更接近社会科学或自然科学的方法(这也是一些人不喜欢数字人文的原因)。基于此,数字方法产生的一些结果,同阐释得到的结论相比,可能会更客观、更易于传播分享。譬如你做了一些地图、图表、网络图,人们通常会认为解读这些成果的方式是唯一的。我不是特别同意这样的观点,事实上我们有很多不同的解读方式。在我们进行数字人文教学的过程中,一个很主要的问题是,人文背景的学生通常可以批判地阅读文本,但是他们不太能批判地理解图表,或者当他们在做一张地图的时候,他们通常会考虑这个地图是什么样的,会试图提供一个关于现实情况的客观描述。但这种认识是不准确的,我觉得很多科学家也不会同意这种唯一性和客观性,他们也会认为还有很多新的东西可以去考虑、去开掘。我认为,对人文背景的学生来说,目前存在一个提高数字素养(digital literacy)的问题。

从某些方面来说,我也不太希望我们将数字人文研究标准化到一定的程度。实际上数字人文研究中一个很大的挑战,就是去生成你自己的图表和方法,而不是仅仅去使用社会科学学者和自然科学学者已经尝试过的方法。你需要在接纳使用这些方法的同时,去思考探索新的研究方式。我认为在文学研究的领域,这种探索开展得更好一些,提出了很多有趣的问题,例如如何将小说中提到的村庄呈现在地图中,如何将小说中途经不同方向的旅行行迹做一个很好的可视化表现等等。现在我们倾向于认为地图的制作是科学的,早期的现代地图已经有了经度和纬度,我们可以知道一个地点的确切位置。但是小说中的空间表达以及不同地点之间的关系和现实情况存在差异,这也会导致呈现方式有所不同,所以你必须思考其他的将知识可视化的方式。数字人文在这方面是很有帮助的,它可以提供比传统方法更多的可视化空间关系及其他种类关系的方式。

具体针对这个问题,我同意不同区域的研究存在各自的侧重点,这一部分可能是由于国家间研究传统的差异造成的,但也有一部分原因是和学术机构间的不同传统相关,这就是说即使在中国大陆、欧洲和美国等区域各自的内部,处理问题的方式也是有所不同的。事实上,不同的学校和不同的学术谱系之间也会产生跨国的、国际上的联系,因为学术工作者会在空间流动,一些人可能在日本或德国学习,之后他们会再把学到的东西带回本土。自从20世纪以来,学术谱系已经变得非常国际化。所以差异固然存在,但我们通常会比较国家间的差异,对不同国家内部的不同学派之间的差异却关注得较少。应该说在数字人文领域,情况是类似的。

数字人文研究存在很多不同的分支,我不太喜欢用普遍性视角来看待数字人文,就是因为这种说法似乎是在表明数字人文方法存在连贯性和一致性,但实际情况并非如此。数字化研究工作的开展存在很多不同的方式,很多人对彼此使用的方法都有保留意见,他们也不一定想被归为一类的研究者。重要的是,我们也要认识到,并不是所有的数字人文方法都是定量的,也有人在做网络分析,有人做数字故事(digital storytelling),希望用数字化的方式来做叙事等等。如果在美国的话,有一些机构做更多的大规模文化分析的尝试,而在荷兰,占主流的可能是计算语言学,因为我们有大量的语言学家,他们对计算语言学、对神经网络(neural network)非常感兴趣。所以不同的数字方法在不同区域的发展可能跟具体哪种方法吸引了大量的学生以及这些学生后来又在哪里继续教授这些方法有关,由此整个群体不断扩张。我很希望会有更多的互动产生,诚实地讲,我不认为在学术研究中我们会用一种通用的“语言”进行交流,我也希望可以保持这种多样性。

问:您是否会在自己的课堂上向学生介绍Markus或其他相关的数字人文工具?您会觉得将数字化的研究方法和思维融入到传统人文学者的培养中是未来的一种趋势吗?您能给想要踏足数字人文领域的未来学者特别是人文领域的学者一些建议吗?

答:关于数字人文的教学,在莱顿大学(Leiden University),五年前我和一些同事建立了数字人文中心。建立这个中心的主要动机是希望对数字研究方法感兴趣的教职人员可以走到一起,从而更好地进行交流,在中心得到资助后,我们需要在本科生层级的数字人文教学上投入更多精力。于是我们开启了一个数字人文的第二学位课程,本科生可以选修六到七门课程,课程内容包括Python编程、可视化、空间分析、自然语言处理、计算语言学等等,同时学生们还需要完成一些期末项目。目前的问题在于,能够开课的内容还是太少了,很多项目找不到真正可以授课的老师,我们需要自己去代课。这是本科生层面。对硕士生和博士生,我们会举办一些工作坊和暑期学校。这其中还存在一个问题就是,快速发展的计算机科学和我们教授给学生们的内容之间存在差距,同时这种差距还在不断扩大。所以我确实认为我们应该招聘更多的老师,使他们可以讲授更多样的内容,比如基于图像的数字人文科学、面部识别技术以及除此之外其他各种类型的图像识别等,这目前仍然是一个较大的挑战。学习数字人文最好的方法可能是你真正把这些方法应用到自己的项目中去,这意味着你必须一周一周地有规律地去展开你的项目,方法的应用也需要根据你的项目进行定制,你可能也需要一位导师或是一个小团体,来同他人讨论你的项目。同时,莱顿大学的图书馆也有一个数字学术中心,有很多对一系列数字研究方法颇有研究的专业人员,学生可以带着自己的材料去进行咨询,然后从这里获得一些方法上的建议。

对未来数字人文学者的建议,我想强调一个观点,就是好的数字人文项目源于一个好的数字人文研究设计,这意味着你需要提出一个好的问题,同时仔细考虑使用哪一种方法论以及你要如何具体将这种方法运用到你的项目中去。这一点对我来说可能是最重要的。一定要确保自己不会误入歧途,不会去盲目尝试过多的东西。之所以人文学界对数字人文研究多有批评,我想其中一个原因可能是人们往往变得过于热情,然后他们开始克隆模仿已有的项目。他们会轻易地决定将某一种方法应用到他们的工作中,而不去考虑这种方法是否真的适合。

当研究过程中产生的结果并不符合我们的期望时,我想可以从以下几点出发考虑。

首先,早期的一位数字人文学者John Unsworth曾经表达过这样的观点,在人文学科的研究中我们也应该愿意去谈论失败。[3]在自然科学领域,很常见的一种说法是,我们尝试了这个方法,但由于种种原因没有成功。我相信在一些情况下即使是失败的经验仍然值得一提。如果你真的相信某个新方法会有成效,但最后没能成功,你依然能从反思失败的过程中学到东西。这也是探索过程中的一部分,你依然可以发表关于这个项目的文章,即使结果最终没能如你所愿。

其次,你需要学习如何在研究开展的过程中调整你所使用的方法。通常来说,一个好的研究设计需要反复斟酌,这意味着你可能需要先做一个试验性研究(pilot study),特别是当你在进行一个大规模的数字人文项目的时候。你需要在试验的过程中考察目前的研究方案能否被调整到更具可行性的状态,按照这一方案开展工作是否会产生有趣的结果。如果你的试验性研究没有得到有用的结果,这说明你可能需要放弃目前的项目或者再去考虑其他的问题,也有可能你只需要简单地对你的研究设计进行再调整。在开始整个项目前,你首先需要回到第一阶段,看看你的研究设计,对它进行一些调整,然后做一次试验,如果产生了好的结果,你就可以进行下一步,如果没有好的结果,你还是可以再回头考虑。由此,通常来说,我们的研究过程可能会呈现为一种连续的形态,但在很多情况下,这个过程是曲折反复的,每一阶段你都要回到上一个阶段,然后再进入下一个阶段。

另外,除了产生显著的数据结果,我想如果可以通过更多的数据来印证一种前人提出的理论或假设也是一种有价值的探索。前人提出了30个案例来探讨一个问题,如果你能证明前人获得的结论可以推广适用于更多的案例,对我来说也是极有意义的。即使你没能提出一个新的理论,但是你进一步证明了既有理论的真实性与合理性。

编 辑  | 严程

注释:

[1]魏希德:《义旨之争:南宋科举规范之折冲》,杭州:浙江大学出版社,2016年。

[2]Hilde De Weerdt, Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song, China, Cambridge: Harvard University Asia Center,2016. 中译本《宋帝国的危机和维系:信息、领土与人际网络》,即将由江苏人民出版社出版。

[3]See John Unsworth“, The Importance of Failure,” The Journal of Electronic Publishing, vol. 3, no. 2, 1997.

原刊《数字人文》2020年第3期,转载请联系授权。