铁屋里的巨象:“数字人文”与现代文学的文体、文献计量

作者:赵薇;转载来源:“近代文学研究”公众号

原载:《现代中文学刊》,2019年第1期,有删节

任何新鲜事物最初引起人们的惊诧莫名和议论纷纷,方式无外乎那么几种。仅就作为一种文学研究方法的数字人文而言,无论探索者的步子迈得多么谨慎,难免还是会遭遇恪守审美自主性的人们的莫名抵惧。一方面,解构主义者持续了二十年的“文学终结论”余温尚存[1],现如今,诸如“人工智能会取代文学研究吗”、“数字时代的人文精神面临冲击和挑战”一类话题仍能不时制造耸动人心的“紧迫性幻觉”;另一方面,应对这一“危机”的通常姿态比一、二十年前要硬气多了——顺应欧美学界现成话语的好处就是,可以毫不费力地拈来“起源”、标签和调子,将其作为“新自由主义”的“病症”加以讨伐[2],以至于到头来,众说纷纭的对象本身,反倒成为一头受困于铁屋中的“巨象”(陈静语)。这在某种程度上也是由于,很多时候,我们并不知晓我们谈论的到底是事物本身,还是那个存在于媒体镜像中的形(想)象。总之,当人们开始将数字人文同谷歌翻译、微软小冰写诗、“大文豪苏轼的朋友圈”等等炫奇的技术展示划等号,以一种相对刺激或阿Q的语调来谈论之,当资深文学从业者也已经满足于从新闻和科幻小说中“蹭热点”,便鲜有人关心什么是真正的“数字人文”了。

然而略显讽刺的是,舆论环境越是如此,事实情况却常常截然相反。实际上,任何一种事物都不会横空出世,任何研究路向必由其自身的历史承传而来。当下的“数字人文”固然有多种发展可能,但一种多少需借助计算和实证来实现的文学研究,自其发端时起,便从未曾放弃对“文学性”之本源的探求(如果说真的有“文学性”这回事的话)。若是非要对其本质和来路定性,我宁肯说这不过是结构主义和文学形式主义。这一潜在脉络中,任何真正有价值的一线研究,不仅无法抛弃所谓人文研究的“压舱石”,还会比以往任何一个时刻都更加依赖它。所以在此,我愿意一遍遍重复先前的老调:数字人文的文学研究,究其根底,是要尽最大努力去填平横亘在经验研究和阐释学传统之间由来已久的沟壑,而任何卓见的得出,也无不需建立在“远读”之发现和“细读”之积累深刻互补的基础上。

撇开诸多成见不谈,放下“数字人文”这个内涵较宽泛的概念,我们不妨先就“现代文学研究中的计量方法”作一简单回顾。从历史上看,针对文本进行量化统计分析的现象大致可以追溯至19世纪的计量文献学、20世纪20年代的俄罗斯形式主义、二十世纪中叶的法国年鉴学派,甚至1920年代的梁启超。[3]二十世纪下半叶的中国文学研究中,数字工具并非陌生事物。在经典化程度较高的古代文学研究中,文体测量学甚至在个人电脑普及之前就有了用武之地。一个有名的例子是1980年代中期,陈大康先生为了检验《红楼梦》作者的统一性问题,采用今天看来十分笨拙、耗时的人工统计步骤,检验了书中27对惯用语、100多个虚词以及98758个句子在前八十回和后四十回的分布状况,[4]有力反驳了汉学家陈炳藻先生关于“后四十回的作者亦为曹雪芹”的“翻案”结论。有意思的是,在这一堪称独步的探索中,研究者还顺带注意到一个有趣的小问题,那就是在前八十回中,王夫人和李纨这对婆媳之间“竟没有说过一句话”。他遂以此为发掘点,深入探究小说中的人物关系和主题意旨,写成《李纨判词之谜》等系列文章。现在看来,当时引导陈先生去注意这些问题的,除了背后的数理统计思维,更离不开对作品情节成百上千遍的“检阅”之功,非做到烂熟于心不可。这一过程中,某种宏观测量手段和经年累月的“细读”功夫早已浑融为一,二者很难截然分开。今天我们当然可以适度运用社会网分析(social network analysis),从统计结果上去直接发现这一问题(李纨和王夫人的关系权重即便不是零,也将会是一个很低的数值),但是对这一结果的解释,乃至经典作品的复魅,却绝非一番煞有介事的理论运用便可敷衍的。试想,若没有对作者人物观和叙事意图的反复琢磨领会,没有对《金瓶梅》以来卷帙浩繁的章回体世情小说的研阅经验,将难以给出足以服人的文学解释和社会学分析,更不要说将红学研究向前推动哪怕一小步了。

事实上,在中国现代文学学科内部引入一定规模的量化比较手段,也并非多么新鲜的事情。统计分析和“远读”的思想在陈平原先生《中国小说叙事模式的转变》和贺麦晓(Michel Hockx)关于中国“新文学”文体生成问题的研究中已有体现。贺麦晓称自己出版于2003年的Question of Style:Literary Societies and Literary Journals in Modern China, 1911-1937便是用“远距离阅读”的方式完成的。1990年代,他曾遍访欧洲和中美各大图书馆,收集1911—1937年间出版的各类文学杂志,寻求民国战前出版的文学杂志的总体特点,尤其是这些杂志如何将文学社团的活动与范围更广的“文学场”实践联系起来。但在此书中文版付梓之际,他却不尤感慨,在数字化革命发生的今天,任何接触过上海图书馆民国期刊数据库的人都可以证实,他当年所见,只占中国1911—1937年间出版的文学产品中很少的一部分。[5]十多年后,苏真(Richard Jean So)和霍伊特·朗(Hoyt Long)这些后起之秀,已成为北美数字人文研究的前锋力量,在他们自己的时代纷纷开启了同样类型的研究。由霍伊特·朗、苏真等人发起的芝加哥大学文本实验室借助历史悠久的跨语言、跨学科的ARTFL数字化项目,目前就致力于同上海图书馆合作,将上图馆藏以全文电子化(digitalized full-text)的形式呈现出来,经由中、美两国学者的共同努力,建成“Republic China Periodicals Corpus:1918-1949”的大型期刊语料库分析平台。[6]这意味着不仅需要与多语言的语义检索分析界面Philologic5进行对接,还须对民国时期活跃着的上万名作者的笔名、别名、生辰、籍贯、教育、出版、行踪等元数据(metadata)信息进行逐一考辩和编纂工作,同时攻克现代中文文献分词(tokenization)和文学文类自动识别(genre identification)等技术难关。而在此基础上更大的抱负兴许还在于,不仅要让全世界的研究者都能够借助这一类数字人文平台,对民国时期各类写作倾向、思想观念及文化范型的发展特征,形成阶段性或总体意义上的清晰认识,还要为更长时段、大历史的世界文学研究奠定基础。正如研究者在这一项目前身中所做的尝试,自2012年起,他们便借助大量来自美国、日本和中国的现代文学期刊数据,绘制出全球范围内现代主义诗歌跨太平洋传播的“路径图”,其中包括了来自美国东、西海岸、日本和中国早期新诗在内的三个诗歌社群的活动情况。[7]有意思的是,其中显示的问题意识,正与贺麦晓早年曾从事的关于刘半农、文学研究会诸诗人群体的社团研究相映成趣,构成了质化和量化研究取向在不同时期的呼应。现如今,如果我们将研究建立在最终完善版的上图—芝大语料库上,也许可以更加敏捷地找出那“最后一块拼图”——文学场中真正的“brokerage”(中介者或“掮客”)角色,去证实或发现更多像刘半农一样,在各种文体的新旧融合时期身兼数职的重要人物和场域位置,得出更可观的结论——而非像彼时的苏真和朗,迫于数据的限制,只能大致勾勒出民国时期诗人群体活动的形态学特征,[8]同时,如果我们借助该平台最基本的语义检索功能,配合文献和文本的细读考辩,还可以进一步去发掘和辨析像刘半农这样的先锋诗人,在“散文诗”这一类典型的“新文体”的译介、创生过程中发挥的文化功能,继而从大规模文学生产的角度来确证“文体问题”和现代语言、文化变革间的深层关联。[9]

不难看到,之所以将这些研究相提并论、视为一个有继承关系的连续体,不仅因为事实即如此,更是因为同是以东亚现代文学为基本行当和训练的学者,无论从言文一致运动,还是白话文革命来看,构成其最基本的研究动力的,都是对所谓“现代文体”发生问题的终极兴趣。对这一特定问题的处理,无疑需要具备打通“内”、“外”的架构能力,把一个看似简单的语言形式问题放在更广阔、复杂的文学规约、文学体制和世界文学实践的背景中不断加以历史化的审视。在文学研究普遍受到“布迪厄复兴”的影响后,文体测量和语料统计分析的加入,促使近现代文学研究者们将文学社会学又往前推了一步,加上了更加精准的量化手段,这更是从对象、问题和文学(史)本位出发的一种自然选择和必然动向。恰如这一项目的总名称“Textual Optics”所提示的,基于文体、语体和文献测量的数字人文所能提供的应该是一架可做文本勘探(text mining)之用的“双重”透镜,它既可望“远”,也足以显“微”。在这一方面,同样卓有成效的个案探索还见诸斯坦福大学文学实验室的《正典/档案:文学场域大型动力学》系列成果。[10]

当然,在我们放眼这些业已存在的数字人文,或者说测量取向的现代文学研究时,兴许还忽略了一个更为微妙的问题,就是研究(者)的领域和身份之别。正如我们大多数时候都愿意将贺麦晓等人的研究明确地称为“海外汉学”一样,受自身视野和出身所限,当前一些热衷数字人文的西方学者也容易将以中国文学为对象的数字人文研究归于区域研究辖属之下的中国研究(China Studies)中。不能不说,这种归类是令人遗憾的,因为由此可能造成的问题是将一些颇具特色的本土研究遮蔽掉。事实上,从这种角度出发,一个更有意义的问题或许是如何和汉语学界以及固有的“中国现、当代文学研究”发生有效的关联和对话,或者反过来说,无论是本土还是海外的中国(现代)文学研究者,如何借助于数字化时代的计量手段和开源精神,从共有的视域出发,去回答一些大家共同关心的学术史问题。

从最保守的意义上讲,任何手段和方法都不是外在于某一领域的,而是从研究对象自身的发展中分泌而出的一种“非此不可”的需求,因而,任何有效的方法都是一种量身定制的方法,需要建立在方法自身的合理性和延续性之上,作为一种方法、工具和计量手段的数字人文尤其不外乎此。这种自内部生发而来的需要,制约着人文研究中问题意识的形成。这一点,正如我们从《自我重复与东亚文学的现代性,1900——1930》中看到的,来自美国的中国文学和日本文学研究者联合中国统计学家,为了探测和确证“重复”这一发生在中国浪漫主义和日本私小说中重要的语言趋势和心理模式,从他们的文学阅读经验出发,重新启用了测量信息冗余量的“熵”和语料库语言学中的常用指标字符型符比(TTR)等词汇集中度测量方法,以之来探测究竟是什么样的文体特征造就了中、日浪漫主义小说中“自我指涉”类写作类型的审美潮流。[11]显然,此项研究的问题意识最初即来自于海外汉学关于日本和中国现代小说研究的推进程度,意在回答“重复”在建构东亚现代意义上自我生成的“叙事自我”中所发挥的实际作用,以及这种模式跨语言成立的原因。同样包含在这一意图中的,还有对希利斯·米勒、德勒兹和弗洛伊德等人以西方文化为中心样本所做的关于“重复”之讨论的隔空和“隔域”回应。[12]

可以看到,愈发精巧繁复的数据训练和建模,绝不会仅仅满足于给文学史上的现成结论再添注脚。以多特征模型来识别“新文学”的文类,建立一种新的比较框架,用以查看某些“西化”的语言策略和风格自主生产之间的深层互动,也可算作这一类研究的基本立意,这大致上仍可以归为比较文学与世界文学的议题,是由“世界文学”问题牵引出的一类研究取向。此类研究还包括《文学模式识别:文本细读与机器学习之间的现代主义》、Turbulent Flow: AComputational Model of World Literature等等[13],构成了对莫雷蒂在《世界文学猜想》中所设想的、带有一定后殖民批评色彩的世界文学图景的检验和批评。[14]尽管现在看来,这种讨论的方式仍像是外在于我们本土研究的问题域的,但是现时代数字基础设施的共享和研究主体的流动不居,为世界范围内研究共同体的形成提供了更多便利,也促使我们重新去发现今日民族文学研究的路径和意义。

至此,无论是贺麦晓拒斥“五四主流”、还原一个更真实的文学场的诉求,还是苏真、戴安德等人的比较研究,都呈现出一种打破“中心—边缘”既有区分、追求更宏阔、全面的“整体性”之气象,而这正与数字人文的根本精神趋同,趋向了一种“全景”式的人文研究之初衷。正如一部分有识之士意识到的,永远以“文本”为对象的“数字人文”所能提供的,也许恰恰是积极化解所谓“人文科学世界性危机”的有效策略。[15]那么,如何以“数字人文”为契机,通过加强各研究畛域间的沟通合作,突破被现代理性规训得愈发精专、细密的学科分野,避免人文学走进日趋狭隘的死胡同,回到“有物混成”的发端状态……便理应成为所有一线研究者们共同思考的问题。

(此文写作于2018年7、8月间,发表时单位为首都师范大学文学院和芝加哥大学纽伯尔文化与社会科学院,内容亦有删节)

注释:

1 J.希利斯•米勒:《全球化时代文学研究还会继续存在吗》,国荣译,《文学评论》2001第1期。

2 戴安德、姜文涛:《〈数字人文:观其大较〉主持人语》,《山东社会科学》2018年第7期。

3“数字人文”在西方的历史和命名,参戴安德、姜文涛:《数字人文作为一种方法:西方研究现状及展望》,赵薇译,《山东社会科学》2016年第11期。

4陈大康:《从数理语言学看后四十回的作者》,《红楼梦学刊》1987年第1辑。

5贺麦晓:《中文版自序》,《现代中国的文学社团和文学杂志(1911-1937)》,陈太胜译,北京:北京大学出版社,2016年。

6负责这一项目的具体建设和维护工作者除了 Hoyt Long 教授,还包括芝加哥大学 ARTFL项目技术总监 Clovis Gladstone, 历史系博士生 Spencer Stewart,东亚研究系硕士生朱吟清,Neubauer Collegium访问研究员赵薇,以及清华大学英语系本科毕业生吴佩珍。平台相关介绍参见 https://textual-optics-lab.uchicago.edu、https://neubauercollegium.uchicago.edu/faculty/textual_optics.

7Richard Jean So, Hoyt Long, “Network Analysis and the Sociology of Modernism”, Boundary 2, 40(2), 2003, p147-182.

8此项研究涉及中国的部分数据相对稀少,仅采集到了8本关键性文学刊物的出版数据。

9赵薇:《从“无韵诗”到“散文诗”的译、写实践:刘半农散文诗观念的形成》,《中国比较文学》2015年第3期。

10阿克•阿尔吉-休伊特等:《正典/档案:文学场域大型动力学》,汪蘅译,《山东社会科学》2017年第9期。

11霍伊特•朗、戴安德、朱远骋:《自我重复与东亚文学现代性,1900-1930》,《山东社会科学》2018年第7期。

12参见李欧梵、普实克、耿德华(Edward M. Gunn)、刘禾、柄谷行人、James Fujii、Janet Walker等人的相关论述;霍伊特•朗、戴安德、朱远骋:《自我重复与东亚文学现代性,1900-1930》,《山东社会科学》2018年第7期。

13霍伊特•朗、苏真:《文学模式识别:文本细读与机器学习之间的现代主义》,林懿译,《山东社会科学》2016年第11期;Hoyt Long and Richard Jean So, Turbulent Flow: A Computational Model of World Literature, Modern Language Quarterly, 77:3, 2016.9, 345-367.

14Franco Moretti: “Conjectures on World Literature”, 网址见:https: //newleftreview.org/ II / 1/ franco-moretti-conjectures-on-world-literature.

15周宪:《再发明与在行动:化解人文学科世界性危机的路径》,《南国学术》2015年第2期。