包弼德:数字人文要配合学术思考

作者:包弼德  高旭东  尹倩 ; 转自:公众号 DH数字人文

DHer访谈

包弼德  高旭东  尹倩 

————————————

受访人简介:

包弼德(Peter K. Bol),美国著名中国古代史学者,现任哈佛大学东亚语教授,兼任《数字人文》季刊顾问。1980年获美国普林斯顿大学中国史博士学位,2005年创办哈佛大学地理分析中心(HCGA)并担任首届主任,曾任哈佛大学东亚语言文明系主任、东亚国家资源中心主任、教育发展副教务长等职。主要关注7至17世纪中国的思想史、士绅史与地方史,有《斯文:唐宋思想的转型》(“This Culture of Ours”: Intellectual Transitions in T’ang and Sung China)、《历史上的理学》(Neo-Confucianism in History)等多部论著。主持建设中国历代人物传记资料库(CBDB)和中国历史地理信息系统(CHGIS),并担任中国历代人物数据库项目执行委员会主席和中国历史地理信息系统管理委员会主任。

采访人简介:

高旭东,清华大学社会科学学院博士研究生;

尹倩,上海大学文学院博士研究生。

访谈地点:清华大学人文社科图书馆报告厅

访谈时间:2019年12月15日

————————————

包弼德教授在《数字人文》创刊会上发言

问:您为什么会选择唐宋时期的中国历史作为重点研究对象?

答:当我还是学生的时候,就开始关注唐宋时期的中国历史,主要因为唐宋是中国历史上的一个大变革时期。我们知道,历史学界有“唐宋变革论”的说法。另外,需要说明的是,我对于中国历史的研究兴趣并没有受到导师或者其他人的影响,纯粹是出于我个人的爱好。我在《历史上的理学》这本书的第一章里有相关叙述[1]

问:您是如何逐渐关注数字人文的?又是如何展开数字人文的相关研究?

答:我不认为自己是数字人文研究者。我一直是历史研究者,持有的也是历史的研究立场。我刚开始接触数字人文是在1970年代,当时还没有现在这种个人电脑。在1977年至1979年,我写博士论文时,使用打字机打字是一项艰巨的挑战。严格意义上来讲,我不是个好打字员,进行论文写作时,几乎每页都会犯打字错误。当时听说我们计算中心的电脑终端上可以使用行编辑器(line editor)来进行文本的编辑,它能帮助我进行文本的全局修改。这是我最开始使用“电脑”的经历。从那时起,我发现电脑可以帮助我们极大地提高效率。

大约是1970年代,地理信息系统(GIS)开始兴起。后来在1980年代,我们看到了第一个关系型数据资料库,这和文本数据库不同。比如这次工作坊上,陈松老师讲授的就是一种关系型的数据库。1990年代出现了社会网络分析的软件。刚好那时我们开始研究地方史,于是就开始自己做关系型数据库。那时,学者郝若贝(Robert M. Hartwell,1932-1996)有一天来问我:“我过去收集的研究资料能不能赠送给哈佛大学?”[2]我说,“可以,我不反对”。我没有想到,后来他突然去世了。

我收到这些资料以后就一直在想,应该怎样对其继续保存和研究呢?2000年,我们和复旦大学历史地理研究中心的葛剑雄老师和满志敏老师,利用郝若贝送给哈佛的资料,建立了中国历史地理信息系统(China Historical Geographic Information System,缩写作CHGIS)。在当时,我们的目标是给学者们提供一个共同的平台,并且可以把中国的历史地名正确地映射在地理底图上。这虽然是很简单的想法,但我们花了许多年才完成。

2005年,我们开始做中国历代人物传记资料库(China Biographical Database,缩写作CBDB)。这个项目也利用了郝若贝留下来的资料,当时共有两万多人的信息。同样对这批数据感兴趣的,一位是研究中国文学的学者傅君劢(Michael A. Fuller),他主导了将这批数据制作成关系型数据库的工作[3]。后来,陈松老师也加入进来[4]。北京大学中国古代史研究中心的邓小南老师、博士生方诚峰等等也陆续加入[5]。我们看到,从《史记》开始,大量包含人物传记资料的史籍开始出现——《史记》大概一半都是传记资料。所以,中国古代的传记资料非常多,我们需要深入研究。我们开始建设这个数据库时,需要大量的电子文本,当时用到了台湾“中研院”的汉籍电子文献资料库。那时,我们开始引入和学习计算机技术来挖掘数字文本。这是我们当时最重要的事情。

中国历代人物传记资料库项目的内容非常丰富。如果你们对它感兴趣,还可以直接前往中国历代人物传记资料库的北京大学小组进行咨询[6],或者登录我们的项目网站了解详细信息[7],在项目网站中,我们专门介绍了中国历代人物传记资料库项目的来源和组成。我们最近新增了一些唐代的数据,现在正在利用《中国丛书综录》进行中国古籍目录资料的数据挖掘。另外,我们还在积极推进地方志、缙绅录和宋代的墓志铭等多种数据的挖掘。

问:您是带着什么样的问题建立这两个数据库的?您认为自己的数字人文研究有什么特色?

答:我们做数据库不是从研究一个具体问题开始的。我们认为,数据库是一种模型,建立一个数据库是一种建模工作。我们做这两个数据库的目的,不是专门给我或其他人的特定选题服务,而是可以给学界整个历史研究领域服务,包括文学史、宗教史等等——我希望这个数据库能包含一切中国历史研究的内容。我们很早就发现,数字人文研究一定是相互合作(collaborative work)才能发展,不可能是一个人或者独立的机构就可以做出来的。

就我个人而言,我做了很多关于地方史、地方志、地方精英和士大夫家族的研究,这些研究在网络上都可以找到[8]。我最近写完的一本书就是关于地方史的:一方面,关注了社会网络和社会关系的不同模式,另一方面,利用地图考察了从12世纪到16世纪中国社会网络模式的变迁。这个研究需要大量数据才可以做到。

就我们的数据库项目而言,有很多合作方的参与,由多个国家的学者共同合作开发,绝不是以我一己之力完成的。我们也有一个小组在清华大学,是和清华大学统计学研究中心的邓柯副教授合作建立的。如果要说在这里我有什么独特作用的话,就是我需要向基金会申请资金,促进多个单位的合作。

问:您认为在历史学的数字人文研究中,哪些元素比较重要,或者起了很关键的作用?

答:我非常关注“信息”,会一直思考我们该如何深入地利用海量信息。这里拿地图(地理信息)举个例子。我之所以对地图感兴趣,可以从以下三个方面解释:

一是地图和历史关联紧密,由来已久。地图在历史研究中的应用总是以时间和空间的形式进行视觉呈现。这些视觉呈现的基础是经过搜集和整理、结构化且固定的数据集及数据库;而历史总是随着时间的变化而不断变化,从这一维度上来说,将历史研究的方法和地图研究的范式进行有效的结合是一种方法论上的挑战。

二是数字技术、地图技术的快速发展,使得利用数字媒介技术研究地图成为可能,同时技术的发展也使不具备地理专业知识的学者可以方便地使用电子化地图信息进行研究。这为研究者短时间内获得大量信息、进行海量数据的分析提供了便利。

三是考察中国历史自身的特质、回溯唐宋时期的历史概貌和当时的地方社会时,我们不难发现,其中存在着大量有价值的信息和数据。这些数据在地域上的分布并不平衡,这与各个地方不同的保护政策有关。另外,唐代的科技、文化、经济、艺术具有多元化的特点,在诗、书、画各方面涌现了大量名家。很多学者聚焦其中某一领域进行分析及研究。在这样多维度信息的背景下,基于数据库资源和可视化图表,某一时期、某一地域、某一国家的研究对象就可以被清晰、完整地呈现出来。我们通过这些海量的历史数据和信息,能更敏锐、精准、全面地把握中国历史的更迭和中国文化的变化,以及中国经济的变革。同时,我们也能够借助这些技术,通过众多人文研究者的协力合作,共同推进跨文化研究。

数字技术主要从时间和空间两个要素介入历史研究。在时间上,就如我刚刚说的,历史总是在不断变化,朝代在不断更替,这里面存在一个线性的时间变化维度。在空间上,历史上的很多事件很可能同时发生在很多不同的地理空间,将这些历史信息和历史事件进行结构化整理,有助于历史研究。所以我们花费了很多的时间和精力来构建中国历史地理信息系统。地理信息系统(Geographical Information System,缩写作GIS)涵括地理学、地图学以及遥感和计算机科学,并对空间信息进行分析和处理——简而言之,就是对地球上存在的现象和发生的事件进行可视化分析。我们希望通过中国历史地理信息系统的构建和完善,使得传统人文研究者能直接利用数据资源进行可视化分析,更易于从时间和空间的维度全面了解某一时期历史、某一地域文化以及某一诗歌流派等。

问:您认为数据库能代表“真实”的历史吗?您认为数字人文是否是一种追求客观的方法?中国历代人物传记资料库是否会有版本选择和文献纠错?

答:历史学聚焦的是某一历史时期的人物、事件以及相关史料等,是对“历史”的再阐释。关于你们谈到的史官有时并没有“真实”记录历史的问题,我觉得主要可以从两个角度进行解释:一是理解历史的“相对真实性”与“客观唯一性”。从客观上来讲,历史的记录具有唯一性。诚然,历史文本或许是由统治者或者胜利者书写的,但史官在记录历史的过程中仍具有相对真实性。二是在研究具体历史问题的过程中应注意到,就同一历史事件而言,不同立场方的描述也不尽相同。换言之,由于敌对双方利益和价值观不同,对同一历史事件的描述和评价也不大相同。同时,也要注意正史和野史等不同性质书籍的阅读,以达到互相验证的目的。这一研究路径或许可以回应你对数据库记录的真实性的存疑。

我同意数字人文是一种追求客观的学术方法。但是,比如当你要设计一个传记资料数据库时,首先,你需要确定收集什么样的信息,需要设计什么字段(fields),需要编辑哪些数据表(tables),对吗?这里有一个说法:我们只是收集史籍中的事实陈述(factoid)。它本身是对还是不对,我们并不详加考证。中国历代人物传记资料库的目标,就是要收集文献里的事实陈述,把它们变成数据。我们已经知道,文献传记资料有时会不准确,在编纂的时候可能就有错误,有时还会有偏见。我们再三提醒中国历代人物传记资料库的使用者,这不是一个词典,而是一个数据库。数据库是要利用大量的数据才能进行分析,需要发现大量数据之中的模式(patterns)。比如,我给你一千个例子,你说只能找到30个错误,这对研究结果有没有影响?这些少量错误的数据叫作误差范围(margin of error),即正态分布中可以忽视的小概率数据。

版本选择当然很重要,你要选择最好、最可靠的资料来源。我们会在中国历代人物传记资料库里,标注用哪一年、哪一月的哪一个版本。如果发现错误,很容易追溯和修正。

问:数字人文研究是否有局限?这种局限应当如何克服?

答:数字人文研究当然是有局限的,在有些方面可能会像你刚才说的那样。数据库只是生活的模型(models of life),它只是冷冰冰的机读(machine readable)数据。比如,如果你在关系型数据库里做一个查询,得到的结果只是一种信息或数据,而不是解释。又比如,你可以用数字人文的方法发现从12世纪到14世纪士大夫之间的社会网络模式发生了变化,可是这并没有解释它为什么会发生改变。

你知道电脑很“笨”,数据库不会给你解释。你虽然发现了什么在变化,可是我们还要解释怎么变化的、为什么会变化,这是历史学家的责任,也是我们的工作。

问:您是否认为数字人文对“两种文化”的沟通有帮助?您如何预期之后的数字人文走向?

答:我不认同斯诺(C. P. Snow)关于“两种文化”的看法。因为我认为,至少在人文(humanities)和科学(science)之外,还有社会科学(social science)的存在。所以我也不认为数字人文对“两种文化”的沟通有什么帮助。

关于数字人文的预期,一方面,我觉得或许可以通过一个问题来解释:你认为将来的互联网信息技术会变得更重要还是更不重要?如果你认为互联网技术将不再那么重要,那么你可以不管数字技术对社会与人类产生的方方面面影响;如果你认为信息技术将变得更加重要,那你就要去推进这件事——这就是事实。另一方面,“数字文化”(Digital Culture)也是当代文化的一部分,当代文化正是文学研究者关注的重点。随着数字技术和媒介技术的不断发展,我们如何去研究媒介技术影响下的当代文化也会变得非常重要。

问:数字人文是否对人文学者的计算机技术提出了更高的要求?您认为目前数字人文的发展还需要克服哪些困难?

答:数字人文能告诉我们什么是数据,将会在数据和数据分析(data and data analysis)方面给人文学界带来变革。因此,我们也需要一定的模型和算法基础。比如你没有计算机专业基础,如果现在想做一些关于中国历史的数字人文研究,一定会有人批评道:你的计算机基础并不扎实。

但是,我不是科学家,我是一个学历史的人。尽管我不会编程,可是我可以利用这些数据库做研究。我只是在很多方面都懂得一点点,这是很重要的。比如你讲自然语言处理(natural language processing),我懂你讲什么。懂得其他人都在做什么,这个是很重要的。如果你要主导非常复杂的项目,各方面都要懂得一点,知道为什么要这样做,知道处理问题最好的方法是什么。

我认为,数字人文发展最重要的问题在于经费,这在中国和美国都是一个问题。电子文本的数据库已经商业化了,中国的爱如生就是一个例子。我们推动中国历代人物传记资料库的目标就是让它商业化。中国历代人物传记资料库和其他许多数据库之间有很大的不同:它不是一个面向用户的简单检索界面,而是一种关系型数据库,是一种查询系统(query system)。如果你要知道如何建立和使用这种查询系统,就必须懂得数据(data)、数据表(table)、编码(coding)等术语是什么。

问:您如何看待欧洲和美国目前的数字人文发展?您对中国数字人文的发展做何评价?您如何看待传统人文研究和数字人文研究的关系?

答:对于世界各国数字人文的发展问题,我认为,欧洲数字人文的发展基础总体而言比美国要好些。事实上,我并不是特别了解目前欧洲各国数字人文的发展情况。单就美国而言,并不是所有地方都会进行数字人文研究,这是一个很大的问题。搭建数据库和设计数据研究工具、平台是非常重要的工作,但有很多学者认为这并不是真正的学术研究。

我认为,人文学者无需对数字时代的到来感到忧虑。数字人文可以拓宽我们的视野,可以发现新的领域,而不是取代旧的领域。我觉得很有意思的一点是,很多人还觉得用数字人文这种方式研究历史是违背初衷的。这是不对的。对于这种观点,我认为学习历史一方面必须详细地阅读文献、收集资料,另一方面也可以使用大量的数据。两者并不冲突。以前我们得到大量的数据非常不容易,现在容易多了。学习历史不需要唯一的方法。

中国的数字人文研究是最近几年开始的。我们的第一次会议大概是八年前,当时各个大学的很多年轻人都参加了。我们怎么支持他们?两年前,我们在上海开了一个大会,欧美、中国和日本很多大学和图书馆的学者都参与了[9]。我当时就谈到了,网络基础设施(cyber infrastructure)是一个很重要的问题。当然有硬件方面的问题,比如服务器等等,这在中国和美国都是类似的。但是在中国研究有一个好处,就是计算机专家都是中国人,他们对中国历史懂得一些,所以工作起来比较容易。看到很多中国的新人参加数字人文研究,我们应该感到很高兴,这不是坏事。

我举一个例子:在1920年代到1930年代,燕京大学的洪业先生开始主持做“引得”。但是在那个年代以前,中国没有“引得”,它是18至19世纪在欧洲开始慢慢出现的,原本是为了让欧洲人看《圣经》更方便。中国人使用“引得”看“四书五经”是一种全新的方法。当时有人批评说,“引得”不好,因为这会使得人们不再通读经书本身了。可是我们觉得,“引得”逐渐让更多人开始看到经书的内容,并且加以利用。从这一方面,人们看到了新的问题和新的方向。现在数字人文也是一样的。

附录:包弼德教授在清华大学《数字人文》创刊仪式上的发言纪要

2019年12月15日,《数字人文》创刊仪式在清华大学人文社科图书馆报告厅隆重举行。哈佛大学包弼德(Peter K. Bol)教授受邀做主旨演讲。

针对《数字人文》创刊,他认为需要从认识论和方法论两个维度进行反思,聚焦两个基本问题:一是明确何为“数字人文”;二是学习与数字人文相关的科学技术是否值得,或者说借助这些技术进行的研究是否能取得传统研究无法取得的成果?

一方面,他指出文学、艺术和社会科学等不同学科领域的研究学者对“数字人文”有不同的阐释。不过,在这些不同的学科领域中,都存在着两种研究模式,即“学者模式”(“Scholar” modes)和“创造者模式”(“Maker” modes),这也是艺术史学家和艺术家之间的区别。“学者模式”下对“数字人文”的阐释主要是指作者或研究者运用数字人文相关技术对作品进行量化研究的过程;“创造者模式”下对“数字人文”的诠释则指运用数字人文相关的方法建构数据、工具、平台等。不同研究模式下,研究者和创作者对数字人文提出的要求不尽相同。他从历史学者的视角对“数字人文”进行了界定:数字人文是数据科学在历史研究中的应用。另一方面,他从方法论的维度,将数字人文研究范式与传统人文研究范式进行了比较,并提出疑问:“数字人文研究方法与传统文学研究范式相比,能取得新的发现与研究成果吗?”“存在只有数字人文才能实现的研究吗?”以及“数字人文研究方法与传统研究范式相比,可以在某些方面更有效吗?”

通过对“数字人文”两个基本问题的回溯,他简要介绍了《中国历史学刊》(Journal of Chinese History)的发展情况,随后分别从“研究期刊”“数据库、研究工具和研究平台”以及“结论和挑战”三个方面进行了深入剖析:

第一,有关中国史学数字学术专刊。不同研究者聚焦不同时代、不同研究视域,进行面向数据的探索和研究:比如傅君劢(Michael A. Fuller)的主题建模与韵律学研究、谭凯(Nicolas Tackett)的唐朝寡头政治研究、魏希德(Hilde de Weerdt)的宋词研究、陈松(Chen Song)对宋代碑文的研究、薛凤(Dagmar Schaefer)的元代自然灾害研究、陈必佳(Chen Bijia)的清朝官僚机构阐释以及常超一(Charles Chang)的当代城市研究等。

第二,数据库、工具和平台的介绍。这一部分旨在向不具备编程能力的人文学者解释,即使没有技术背景,也可以方便地利用大量结构化的数据进行研究。他结合了不同学者的研究成果,详细介绍了数据库、研究工具以及研究平台。比如,CBDB(China Biographical Database,中国历代人物传记资料库)、CHGIS(China Historical Geographic Information System,中国历史地理信息系统)、Ctext(Chinese Text Project,中国哲学书电子化计划)、LoGaRT(Local Gazetteers Research Tools,地方志研究工具集)以及标记工具Markus(码库思)、数据分析工具Docusky等。

第三,结论和挑战。结论是,这些数据库、研究工具和研究平台能让数字人文研究者无需复杂的技术知识背景,就可以使用大量结构化数据进行学术研究。有关数字人文数据、数据分析以及可视化分析方面的挑战可从三个方面来思考:一是如何使研究平台和工具长期可用;二是如何让读者获得在学术期刊中使用的大量数据;三是如何向读者开放社会网络分析图表背后的数据与可视化图表等细节信息。

采访手记:数字人文发展的三个方向

在计算机信息技术蓬勃发展的当下,数字人文俨然成为很多人文研究者选择学习的新技艺。从哈佛大学包弼德教授本次在清华大学的讲座和访谈总结,我们或许可以从以下三个方面一窥当代数字人文的发展方向。

首先,学术研究需求与新兴技术手段催生了数字人文方法的兴起。正是在研究中国历史的过程中,包弼德教授和同事们萌生了用当时新出现的计算机技术建立数据库的想法,并且逐渐和包括中国同行在内的多个国家和地区的学者广泛合作。正如他所言:“学习历史不需要唯一的方法。”

同时,数字人文的影响无疑是非常可观的。数字人文的新方法激发了人文学界的新问题:以往已经解决的问题现在或许面临着新的挑战,以往未能解决甚至无法解决的问题现在有了解决的可能,以往或许不成立的问题现在成为了真正的问题。这些都留待学者们继续进行探索。

尽管如此,人文学者们依然要努力思考学术问题,这也是包弼德教授在不同场合屡次提到的一点。在采访时,他依然不断地强调,自己不是数字人文学者,而是历史学家。正如包弼德教授所言,尽管数据库可以给研究者带来极大便利,但是它不能代替我们进行问题分析和历史解释。即使在数字人文领域,学者们的学术思考依然是必不可少的。

讲座附录据包弼德教授于2019年在12月15日在清华大学《数字人文》创刊仪式上的报告整理而成,主要由尹倩整理,高旭东、尹倩进行采访,高旭东撰写采访手记。非常感谢中国历代人物传记数据库(CBDB)项目经理王宏甦先生对本次访谈的大力支持。

编 辑  | 严程

注释

[1]《历史上的理学》(Neo-Confucianism in History),包弼德教授著,2010年由浙江大学出版社出版中文版,(新加坡)王昌伟翻译。在第一章中,他从“对外关系”“南北问题”“商业与城市化”以及“社会变迁”四个维度对11世纪的新世界进行了细致阐释。

[2]郝若贝(Robert M. Hartwell,1932-1996),美国著名历史学家,曾任宾夕法尼亚大学教授,代表作有《750—1550年期间中国的人口、政治和社会变迁》(1982)等。

[3]傅君劢(Michael A. Fuller),现为加州大学尔湾分校东亚研究系教授。

[4]陈松,现任巴克内尔大学东亚研究系副教授。

[5]方诚峰,现为清华大学历史系副教授。

[6]北京大学中国古代史研究中心,北京,中国,100871。

[7]https://cbdb.fas.harvard.edu,网址由王宏甦先生提供。

[8]http://chinalocal.omeka.fas.harvard.edu/lu-family?fbclid=IwAR3Y88c4iLof53yeLBl9rHI9iVHbvSZOLyOiheZo5VWMWKq56Z5z3OQStZQ,网址由包弼德教授提供。

[9]https://ctext.org/digital-humanities/shanghai2018/zh,网址由王宏甦先生提供。

原刊《数字人文》2020年第4期,转载请联系授权。