王涛:数字人文视野下的历史研究

作者: 王涛 邰沁清 王林旭 ; 转自:公众号 DH数字人文

DHer访谈

王涛 邰沁清 王林旭

————————————

王涛

受访人简介:王涛,南京大学历史学院教授,研究领域涉及教会史、德国史、数字史学等方向,主要作品有:专著《主教的书信空间》,论文《挑战与机遇:“数字史学”与历史研究》《数字人文框架下〈德意志人物志〉的群像描绘与类型分析》《18世纪德语历史文献的数据挖掘:以主题模型为例》等。

采访人简介:邰沁清,北京语言大学汉语国际教育研究院硕士研究生;王林旭,北京大学信息管理系博士研究生。

访谈时间:2019年12月15日

采访地点:清华大学李文正图书馆仰望咖啡厅

———————————— 

问:之前看您的文章里提过,您从2013年开始接触“数字+人文”的研究工作,这是一个怎样的契机呢?

答:是的,其实我是更先接触到“数字史学”的概念,因为我本身是做历史研究的。学者做研究,肯定需要不断拓展,会经常阅读,会思考,在这过程中总能发现新问题、新领域。2013年一次很偶然的机会,我接触到了“数字史学”的概念,就此产生兴趣,开始关注这个领域的研究。

慢慢随着阅读相关文献与研究,对这个领域有了深入的了解,我在2014年写了一篇关于数字史学的研究综述:《挑战与机遇:“数字史学”与历史研究》,发表在2015年的《全球史评论》上。也非常的凑巧,同一时期的其他相关期刊都刊发了类似的综述性、介绍性的论文,可见大家也都不约而同地在关注这个话题。从某种意义上也可以说,这是学术发展的一个必然趋势吧。一方面,文章的作者大多是年轻的学者,他们需要找到一个新的突破口,或是让自己在学术界有专攻的方向,这就是一个机会。另一方面,相比于过去,现在的网络条件、数据开放程度都变得更加成熟和便利。在关键的时间点,天时地利与人和,可以说既是一种学术发展的必然,某种意义上也是一种新兴产业获得注意、逐渐走进大家的视野的表现。

问:刚进入一个新领域,突破传统的史学研究,会不会遇到一些困难?您又是怎么开始“数字史学”研究的呢?

答:其实,相比于困难,我觉得这对于历史学者来说更是一种挑战和优势。如果我们单纯做世界史、德国史研究,在语言能力、文化背景以及材料文献方面,或许是很难超越研究德国史的德国学者的。但是“数字史学”提供的新的研究方法一定程度上可以实现“弯道超车”,让我们能比较平等地站在研究世界史的国际同行中间,并且获得一定的优势,同时也更能适应史学研究在数字时代的新需要。

我在2015年发表文章后不久,正好有一个机会去美国哈佛大学访学。那个时候了解到了CBDB(中国历代人物传记资料库),一些相关的Workshop(讲习班)和学术活动也进入了我的视野,所以我能够有机会在这个领域有进一步的提升。过去我只是自己看书、梳理、思考,并不了解“数字人文”学术共同体,曾以为自己好像发现了一个新天地,甚至有点洋洋得意。但研学时才关注到,很多中国学者已经做了一些很好的、类似的技术,包括数据库和基于数据库的一些研究,比如基于CBDB数据库展开的社会网络分析研究、群体传记分析研究等等。

我在参加讲习班以后,遇到了一个对自己学术产生影响、非常重要的一个人——王宏甦。他是CBDB数据库的项目经理,也擅长做技术,我经常向他咨询、跟他聊天,包括如何展开数字人文研究,特别是在历史学这个领域。我逐渐了解到懂技术的重要性,于是从那个时候便开始学一些工具和方法,特别重要的是开始学习python编程。我是推荐跟着Python OK学习的,之所以学习python一方面是因为这门编程语言相对比较简单,另一方面这本书是基于一种游戏的思维来进行教学的,在完成游戏的过程中学会写代码,有趣、浅显,也好入门。可以说,我是比较幸运地找到了一本好的入门教材,取得了事半功倍的效果。有些入门教材针对有计算机背景的学习者,这让人文学者很容易打退堂鼓。虽然我没有和程序员一样好的编程状态,但是在我看来,所谓的懂编程或者说能够用这些工具、方法,其实最核心的就是懂这些原理。编程这个技术的真正意义是作为一种工具,实际上是拿来用的。某种意义上说,能看得懂代码,基于自己的需求做一些修改,这就已经算是达到了学编程的基本目的。人文学者也不用去纠结一些特别高深或者复杂的计算机技术问题,因为本质上,数字人文研究需要合作。哪怕真的不懂编程也无妨,可以寻找其他人来与你合作。但合作的基础在于你能将需求用一种比较清楚的方式讲出来,这个清楚表达的前提就是学者能对原理、数据工具或者算法有一定的了解。

在哈佛访学期间,我开始慢慢掌握这些相关知识,这是一个非常重要的起步。渐渐熟悉这些比较重要的原理后,我开始对国内外研究现状进行文献调研。这也是开启一门新学科时的研究方法,需要了解该领域研究的当下状态,学者们都在做什么工作,有哪些重要的方向以及有何成果。通过这些调研能够明确很多内容,也是了解数字人文领域的必要步骤。比如,开展研究需要获得什么数据?如何获取?面对众多现成的数据库,要怎样利用其中的数据?在获得数据后,我们可以利用编程和数字工具进行数据清洗,开展一些基本的分析,包括词频统计、关键词的检索等等。在明确这些流程后,就可以做出一个很小的案例。这个案例也相当于一个从零开始的比较完整的项目,也就能够知道利用数据可以做到什么地步,也可以了解一个看上去比较成熟的、带有问题意识的项目大致是一个什么样的状态。这样,学者也可以通过讨论、交流和请教,基本了解到人文学者对数字技术可以或者说应该掌握到什么程度,也能够得到一个比较完整、基础的训练。

问:您能为初学者介绍一下传统的历史学研究是怎样开展的,以及数字化工具又可以从哪些角度帮助解决历史学问题吗?

答:数字人文领域内的研究工作其实不同于传统历史学的研究路径。从本质上说,传统历史学并没有一个直接的流程告诉历史学家应该怎么做,所以历史学的研究其实是具有个性化色彩的。如果一定要总结一个传统历史学研究框架的话,最核心的方法一定是文献阅读,在文献阅读的过程中找到问题的答案。但是另一方面,传统的历史学研究问题必然会涉及一些考证,比如某一个历史人物到底做了什么?他的人生轨迹是什么状态?历史学家就是要在考证的过程中弄清楚历史事实。而要去填补历史的事实、或做到无限接近历史的事实就需要各种各样的文献材料来支撑,这就像律师为他的当事人辩护一样,需要各种各样的材料来支持某种立场或观点,并把这个证明的过程合理化。

基于历史研究这样的目的和追求,我们在过程中可以采用各种各样的方法。比如发现文本之间的关联性并找到一个合理的解释,我们就可以用到像“文本分析”这样一些数字人文的方法,同时也会用到一些数据库进行信息检索。历史研究的问题除了考证之外,还可以提供一种解释或判断,包括评价历史事件的历史意义。比如说工业革命的历史意义和价值,这样的议题在历史研究中是非常重要、也非常核心的问题。而我们对这样的历史问题的判断,其实是基于对材料的阅读或了解。在传统的阅读中,人的脑力有限,只能看到有限的材料;但基于数字人文的方法,可以帮助我们在研究中纳入更多的材料,或者可以认为,用这样的方法几乎能够覆盖我们可以找到的所有材料。当我们利用人脑阅读时,从统计学的角度来讲也是一种抽样,是抽取了一部分材料来阅读,或者说是阅读到了一部分材料。所以,采用数字人文的方式时,通过所谓大数据的方式,就能够阅读到所有材料。如果说以前利用传统的阅读方式可以阅读一百篇,那么基于机器学习的方式就可以阅读一千篇、一万篇,且所用的时间更少,因此得出的某种结论或判断也就可以更客观一些,这就是数字人文在历史学研究中的优势和便利所在。现在数字人文中强调的“远读”“文本分析”“文本挖掘”,就是这样的方式。

问:那么您觉得,这种基于大数据的历史学的研究,能否给探索历史问题带来新的突破呢?

答:前面说了数字人文方法的一些优势。但其实数字人文不一定要追求一个惊天动地的研究,数字人文的方法也不一定能让学者得出与原结论不一样的结论。即使在自然科学领域,也不是说所有研究的目的都是为了要发现或者给出全新的东西,更多的是需要证据来解释传统的议题。对于历史研究来说,数字人文也可能仅仅是利用另一种方式来证明传统的观点。过去,传统的认知往往是基于尝试或仅仅是一种非常模糊的判断,而数字人文的研究通常是基于大样本来进行,其结论也会更加客观、更加贴近所谓的真实,虽然数据库有时并非百分之百正确,但人文研究可以允许在一定范畴之内有差异。作为一个整体性的研究,具体的错误和瑕疵是允许存在的,或者说是可以避免的。这可能也是数字人文在这个领域当中发挥作用的一个关键。

前段时间有一些反思数字人文的文章,认为数字人文没有提出一个不一样的结论。其实,这种看法的前提是那些批评的学者们对它抱有一个不切实际的期待——“数字人文”本来应当如何如何。但数字人文本来就不是无所不能的,它有自己的局限性。特别是有数字人文实践经验的学者,当你的认知越谨慎,在实践中反而能更直白地认识到局限。研究本来就是探索性的,所以我也是抱有着一种相对平和的心态。

问:我们知道,数据和工具很重要。那么其实在具体问题的研究过程中,客观数据有时会和自己的想法有异,您是如何看待这种情况的?

答:我自己在数字人文研究的过程中,很多时候都是一种探索性的尝试。在开展研究前会有一定的心理预设,预设的结果可能是促使你去探索的一个方向。但通过数据和算法得到的结论和预测的结果有差距时,通过解释为什么有差距也是一种研究。无论是证明了预设,又或是和预设相违背,数字人文的研究成果都值得去解释。所以这样看,数字人文确实是有它的魅力的,它可以帮助我们切入一个看问题的角度,或者引领我们找到问题所在。

但这个时候学者需要知道,不能只是用了一个数字人文的方式或工具,研究就结束了。无论是使用文本挖掘、社会网络分析或者是GIS,最终都会得到一个数据结果,但这个结果不是研究的终结,而是人文研究的开始。学者们的研究必然是基于一个结果,当然这个结果是来源于合理且正确的数据、方法和运算过程的。这时,这个所谓的不是传统阅读可以得到的结果何以存在,就需要有人文背景的学者进行解释,这也是我们人文学者需要进一步探讨的一个起点,是比单纯的工具和算法本身更重要的。

还会有一些批评的言论认为,数字人文的方法如果普及之后大家都可以用,那么同样的数据利用同样的方法得出的应该是同样的结论,那人文研究还有什么意义,人文研究的个性又如何来体现?其实,可以体现个性的地方正是你如何看待一个结果,例如一个简单的词云统计图,历史学家和物理学家看到的东西一定是不一样的,而为什么会不一样呢?这背后就有这个学者个人的学识、眼界以及观念,这些可以帮助他获得不一样的结论,也就体现出人文研究的个性。学者在解读和分析数据时是结合具体的问题进行的,研究历史人物的解释框架和研究历史事件、历史趋势的解释框架必然是不同的,并没有一个通用的解释的切入点。比如说量化分析中,通过调查一些大学生的学籍可以发现“寒门难出贵子”并不是真实的,这个研究对社会分层现象的解释就是基于社会学框架的,同时也需要基于教育史来进行分析,并结合一些其他的报告,在相互交叉和比对的过程中得出结论。

问:数字人文的研究和进步离不开人文学者和数字学者的通力合作,您觉得在这个过程中,应当是怎样的一种模式呢?

答:确实,数字人文研究中,人文学者和数字学者合作是十分重要的。数字人文的一个应有之义就是合作。团队中一般有做技术的,也有做人文研究的。前面介绍过人文学者往往需要了解一些编程和使用工具的技术,做技术的学者其实也需要考虑到人文学者的需求,拥有一定的“人文素养”,这是为了各方能够相互理解需求和问题,有共同的话语体系,促成真正有价值的合作。但这个过程也不需要很刻意去培养,因为各方想问题的角度是不一样的,比如计算机背景的学生,想要做文本挖掘,他更关注的是算法,比如提取关键词算法的精确度、召回率提高了,对他们而言就是一大成果;但是对人文背景的学者来说,准确率的差别影响不大,更重要的是该关键词能够对文本做出什么解释,关键词的分布排名能否说明问题。

在南京大学,还有陈静老师等一些年轻教师,我们会定期聊天讨论新想法或者可以开展的研究,也会经常参加一些学术会议交流碰撞思想。目前也有一些做技术的年轻公司在谋求发展,意识到人文数据这一块对他们来说是可以发展的方向,可以做出一些有意思的东西,具有人文情怀;从另一角度讲,这也是有利可图的,将产品商业化,有利于持续做下去。其实从国家的层面看,如果能让管理部门认识到数字人文在学术研究中的可能性和重要性,投入资金和教育的支持,这样学校对外部的依赖也不会那么强,而且从培养年轻人的角度看,也是一个好的机会,真正让年轻学者参与到项目中,从头了解利弊,这也才是比较成熟的培养方式。

问:像您刚才说的,希望“让年轻学者参与到项目中”,想必这也是您开设数字人文课程的原因。能不能请您介绍一下这门课程,以及您在实践中感受到的效果?

答:对的,我是从2016年秋季学期开始,在南京大学开设了面向历史系本科生的数字人文课程——《数字工具与世界史研究》,希望能够通过完整的课程,让历史系本科生了解数字人文的哪些方法是可以被历史学研究、使用的,也为他们提供进入数字人文领域的机会。这门课程我准备了比较长的时间,在网上做了梳理工作,结合之前去哈佛访学的经历,基本上在当时是与美国学术界接轨的,但也做了一些本地化。现在每一年也都在开设,随着时代、技术的变化和更新,内容也有相应的修改和提升。在培养过程中,确实有一些年轻的学生知道了这个领域,认识到这是一个比较好的发展方向。其实,未来的数字人文如果要发展,课程体系的改变也是非常重要的一个方向,如果不了解基本原理和基本方法,会影响整个项目的进程。如果大家能在同一水平讨论的话,确实会迸发出一些新的可能性。

现在在培养本科生的课程中,国外的内容往往更多聚焦在数字史学概念和理论上的探讨,但是我会更加重视务实和实践。这可能和不同学者的研究习惯有关,我会更加关注落实到某一具体问题的研究时,在实践中去辨析概念。而且,对于年轻学者来说,若是在理论概念上还没有任何定论时去理解、区分这些概念,反而会让他们更不理解,而在亲手实践过一些项目后才会加深自己的理解,发现显然数字人文并非无所不能,进而展开思考,在探讨数字人文概念的同时,一边做一边反思。就像经常说的一句口号——“Just do it!”在课程进行中时,往往是去教学生可以做什么,让他们在摸索的过程中形成自己对于数字人文的看法,而这样可能会更好。

问:您觉得“数字人文”是一门学科吗?从研究方法上看,和“精读”相比,“远读”的模式会更好吗?

答:其实到目前为止,我还并不认同“数字人文”是一门学科,因为现在没有专门的人去研究这个学科,不知道它研究内容具体如何、有什么理论方法。对于刚开始希望使用数字工具来探索研究的学者来说,可以先掌握一些工作的流程,但要树立一个大前提和研究方向,研究的内容需要落实到具体问题。

数字人文只是提供了一种可能的方式,就好比人生病了去中医馆,医生需要从中药库里取药,并不是只用一种药,也不会用所有的药。历史研究就好比这个过程,中药库的每个格子就好比历史研究的方法,也许这个格子里的“药”叫做“文献对读”,另一个格子里的“药”也许就是“数字史学”了,而在这个过程中,最重要的是对症下药。因此,把数字人文当作一种研究方法的话,那么它和所有的研究方法都是平等的,也并不会哪个更高明或更低劣,它只会在它的应用场景之中来解决问题。并不需要为了追求数字人文而强行解释,没有必要“为赋新词强说愁”,还是要具体问题具体来看,因地制宜。

这样听来,数字人文似乎只是提供了一种工具和方法,但也不单是如此,它可以帮助我们发现一些问题。从我本人的研究——《数字人文框架下〈德意志人物志〉的群像描绘与类型分析》来说,“德国历史人物传记数据库”收录了很多德意志的历史人物,每个人物都有从出生到死亡的比较详细的记录和比较准确的信息,如果把从出生到死亡想象为一个网络的话,当把几万个人的数据都放入到这样的出生到死亡的网络中,就会发现,出生到死亡是有一个趋势的。特别是15世纪德国人死亡的状态和18世纪德国人死亡的状态是不一样的,15世纪人们的死亡更集中在德国的南部,例如慕尼黑、维也纳;但到了18世纪人们的死亡就聚集在了德国的北部,像柏林、汉堡这样的城市。这种发现用传统的方式是很难做到的,但用数字人文的方式,把数据和工具结合在一起,就可以发现新的现象。当然这并不是一个全新的问题,但至少它提供了一种思路,在这样的指引之下可以去追问,为什么会这样,就可以发现新问题。而这也是数字人文一种比较核心的状态。

正因它提供了一个新视角,学者极有可能从哲学的高度去进行反思。正如很多时候,一个新的理论框架的进步可以打开一个新的研究领域。以历史学领域为例,以前主要研究政治史,而新文化史背后的哲学逻辑是对普通人的关注,突破了以往关注帝王将相研究的局限,是一种自下而上的研究,从这样的角度看,可以说是和背后的理论联系在一起的。

在数字人文的领域,我们看问题的角度都会发生改变,这样的话也许就会有不一样的领域出来,但若还没有达到这样一个程度,研究也要落实到某一个具体问题。这样一来,研究者们其实不应该把自己当成是数字人文学者,而是回归到自己本身的身份,是语言学、历史学、文学的学者,去研究一个领域内的真问题。在解决问题、思考问题的过程中,有的问题能够用传统方法解决,有的能够从数字人文工具去研究,如果用数字人文方法能够得到一个很好的解释,那么数字人文就是一个比较好的助力。

问:除了上述提到的研究方法和研究角度之外,您觉得还有什么工作是对于数字人文研究有重要意义的呢?

答:在数字人文领域的研究中,数据库是非常重要的。过去构建数据库背后的逻辑是传统的,是将文本扫描进行数字化,现在是做结构化的关系数据库,比如CBDB会把人物相关的概念关联起来,现在甚至还有智慧数据,这样可以挖掘数据中更多的有效信息。可以说数据库建构的模式大大进步了,但是不管模式怎么进步,数据都十分重要,因为所有数字人文后续的发展都以之为基础。有了数据之后,还需要基于数据发现新的问题,找到新的答案,都是要依靠数据库。

但是数据库的建设需要资金与人力的支撑,是一项需要长期奉献的事业。从现在的学术评价体系来看,单纯做数据库无法当作论文、专著之类,是一个很基础的投入,对于学术上的成长少有帮助。从某种意义上讲,如果要推动数字人文发展或者说让数字人文变成一个学科,就要让做数据变成一个有效的学术工作,使大家在一个坚强有力的学术共同体下。

目前的数据库的建设工作可以说是欣欣向荣,但比较大的问题是,重复性的建设多,从一些国家社科基金的课题可以看出,很多关于大数据的立项有都有类似的项目。这当然很重要,它能够成为基础设施的一部分,但前提是数据库能被开放使用。现阶段有可能已经做了一些数据库,但是大部分学者还并不知道,或者没法用。希望不要再重复建设了,数据共享之后才能发现有人在做类似的工作。如果大家能在一个开放性的平台上面研究会更好,各种算法和工具应用起来也会得到比较好的效果。

问:采访的最后,想请教您个人对于数字人文领域未来发展的想法是怎样的,有什么建议、期待,以及对历史系的同学们有什么指导呢?

答:谈到数字人文领域未来发展的问题,其实如果把数字人文、数字史学当作一种方法的话,单纯谈方法是没有价值的。如果要让方法和研究产生直接的联系,必须要有具体的问题。比如说在理科的研究中,会有研究大气中的成分以及各成分浓度的,这一定是一个自然科学的研究。如果没有一个切入点或问题意识的话,这样一个研究与历史学肯定是没有关系的。但如果我们去研究历史上的大气的状况,会发现它在历史上有一个变化,而在解释其如何发生的时候,结合历史背景可能就会发现它和工业革命有关系。即便是自然科学的方法,结合一个历史问题,同样的方法就可以帮助历史学家进行研究,可能会找到一个新的角度。

其实数字人文在国外也是一个新的领域,国外的发展近况也进入到了一个瓶颈时期。西方学者也在不断地讨论应当走向何方。他们的学术共同体的状态比较健康,有各种会议、组织、研究,吸引了许多人,也有很多人抱着新奇的态度进入这个领域。在我看来,这其实是做得越来越细,很多学科都可以跟它相关,这也意味着其实有很多专业的老师谈论的是自己专业的问题,而各种不同学科背景的人集中在一起只能分享共同的技术与方法,背后的人文阐释难以共享。但很明显,如今国内外的会议都是类似这种状态。所以现阶段,我认为学者应该回归到自己的领域去,与同领域内的学者讨论问题,这也是我未来对它的一种期待。

每个人对于数字人文会有自己的理解,首次提出“Distant Reading”的Moretti在接受采访时说:“数字人文就是Nothing。”但在我看来,可以更进一步,说数字人文其实是Everything,很多东西都可以把它放到数字人文的框架下,未来研究之路上大家都知道这是个什么概念,而不需要去强调它,就跟空气和血液一样,已经融合到我们的日常学术研究中了。

希望历史系的同学们的心态要开放,吸收不一样的思路和角度。这其实和我如何关注到“数字史学”是一样的,肯定要不断地思考、阅读、了解新的资讯,也肯定需要在研究上有一些突破,不能总是固定在已有的路径上。现在也有很多渠道,可以让学生们了解怎么展开研究。数字史学是一个比较开放的领域,在这个领域里,只要有一个比较重要的问题,在解决这个问题的时候就可以和数字技术发生一定的联系。

 编 辑  |  严程

原刊《数字人文》2021年第2期,转载请联系授权。