远读的系谱 – 中国数字人文 | 数字人文门户网站 | DHCN

作者：泰德·安德伍德；转自：公众号 DH数字人文

概念与实践

泰德·安德伍德 / 美国伊利诺伊大学香槟分校英文系和信息科学学院

伊豆原英悟(译) / 清华大学人文学院

——————————————–

摘要：把用实证研究方法描述文学作为数字人文的一个次领域，这种看法变得流行起来。其实早在互联网出现之前的数十年间，远读就有了独特的系谱——其中大部分都与计算机无关。不如把这个领域理解为文学和社会科学之间的对话，这种对话由雷蒙德·威廉斯和詹尼·莱德威等学者开启，继而慢慢转向一种明显的实证研究方法。现在我们需要坦率接受远读隶属于社会科学，以便将陷入对数字工具发散性探索的研究进程重新聚焦。明确这一主题，还有助于减少关于远读研究者和数字人文研究者之间的沟通障碍。

关键词：远读《阅读罗曼史》威廉斯社会科学《计算机与人文学》

——————————————————-

引言

近十年内，用实证研究方法去描述文学史，作为数字人文的一个次领域，变得流行起来了。起初，我并不重视这一实证方法与文学史研究相结合的做法，学者研究的对象是复杂的历史，而这却是一种新闻快讯式的处理方法。譬如《纽约时报》所载，凯瑟琳·舒尔茨(Kathryn Schulz)在2011年将远读描述为“目前在‘数字人文’标题专栏下正在扩散的”众多方法之一^[1]。有反对意见的读者可能会反驳道，这两者互不包含。虽然这一课题无疑是在2011年之前就被讨论，但“远读”和“数字人文”却是在此之前十年，在不同的学术领域，为描述不同的研究而创造的两个术语。在远读的先例中，数字科技未扮演如此重要的角色。毋庸置疑，没人会指望报纸上的一篇小报道能够全面反映学术变迁史。

可是最近，我已经注意到了学者开始用同样的方式讲述学术史：即把所有对文学史的量化的或实证的研究方法都看作是该学科的数字化转型。例如，在艾米·埃尔哈特(Amy Earhart)的“数字文学研究”的系谱中，“远读”被描述为学术传统中出现的最新转向，而她所指的学术传统最初都以编辑理论和互联网为核心：“我在本书第一部分阐述的电子文本大部分都具有代表性：技术主要运用于创造理想化的或者优于纸质文本的版本。数字文本研究(digital literary studies)乃至范围更大的数字人文领域目前的趋势，随着诸如斯蒂芬·拉姆塞(Stephen Ramsay)、弗兰克·莫雷蒂(Franco Moretti)、马修·约克斯(Matthew Jockers)、杰弗瑞·洛克威尔(Geoffrey Rockwell)等现代数字学者运用技术对文学文本进行转移、操作以及改革，表现为逐渐远离对表征的关注而趋于阐释性功能。”^[2]

也许可以说，在“数字文本研究”(埃尔哈特认为这一传统可以追溯到1990年代的互联网带来的巨大影响)领域，阐释性问题的出现可能相对较晚。但是埃尔哈特在文章中提到的这些学者却比网络要年长得多。文学的量化解读，可以从书籍史、社会学和语言学回溯至19世纪的一系列实验中去^[3]。这一模式从狭义上来说是数字人文的一个分支——就像我们可以说披萨是美国菜的一个分支一样。这两者都是从不同社会背景中引进的，并且都继承了其自身更加久远的历史。

Amy E.Earhart, Traces of the Old, Uses of the New: The Emergence of Digital Literary Studies

写本有关美国食物史的书籍没有什么不好，同样埃尔哈特决定关注互联网的出现而开创的特殊的批判性传统也没有错。只要读者还记得这一历史的诸多要素在其他地方有更为悠久的前史，就没有人会被误导。当然，这些前史也会随着时间的流逝而被遗忘，然后新的一代人就把披萨主要与芝加哥或者纽约联系起来了。如今，远读和人文社会学常被纳入“数字人文的大数据研究”^[4]。在我看来，这是把重点放在了一个奇怪的地方，这还意味着我们已经开始忘记(或者至少要淡化)我们过去工作成果的重要体现。“大数据”是21世纪的技术专业的流行语。把它作为一个分类项，用它来归整更为久远的针对人类文化组织的研究模式，就是一件奇怪的事了。

为了厘清已经开始被合并在一起的不同的知识传统模式，本文要把目光转向20世纪中叶。我要特别强调的是，远读不是一种新趋势，它既不是数字技术决定的，也不是由当代对于“数据”这个词的热衷而定义的。自称做远读分析的研究者(distant reader)所提出的问题，原本是由那些研究文学史和社会科学的交叉研究学者(如雷蒙德·威廉斯和詹尼斯·莱德威)所架构起来的。当然，计算机科学也是至关重要的影响因素之一。但是，将远读和其他的文学批评形式进行区分的核心实践，从本质上来说，并不是某种技术，而是一种将历史知识探究描述为实验的实践，这种实践所使用的假设和样本(文本或其他社会证据)，是在作者得出结论之前就被定义好的。

对人文学科知识整合的探索带来了修辞上和社会上的挑战，这和整合数字媒体所带来的挑战是全然不同的。做远读分析的研究者和数字人文学者会共存，这是人们愿意看到的。但是我们不能认为，这种共容性是理所当然的，就像同一事物的两个自证版本。它们并非如此，而且关于它们共存的制度化形式还需进一步商榷。

一、“远读”

大规模的文学史研究并不是一个新概念。白话文学研究(vernacular literary study)在19世纪进入大学时，已经是一项有着宏伟目标的项目了，它试图追踪近一千年间文学、语言和社会的平行发展。直到20世纪，单一文本的精读才成为文学研究的范例。如果我们以长远的眼光来看该学科的历史，最近对大型数字图书馆的研究就只是一个更为宽泛的大趋势的表现。这一趋势始于20世纪中叶，它更倾向于还原文学研究的历史志向本貌。

但是这也有点太长远了，对理解当今学术争论没有太多帮助。为此，我们需要一个更为严谨的架构，这个架构能够积极地描述过去约半个世纪的文学史实证研究方法所要达到的目标，而不是将它们简化为对21世纪技术的表现。本文将提供一个中等规模上的解释。我选择的架构即“远读”一概念。我想从一开始就表明一点，这个词并不是必然的，还有其他一些适合的选项。安德鲁·格德斯通(Andrew Goldstone)认为“远读”倾向于突出文本的阐释(阅读)，而忽视了社会结构问题^[5]。詹姆斯·英格里希(James F. English)已经阐明，类似的解释可以围绕“文学的社会学”(sociology of literature)这一说法组织起来^[6]。如果想包括文学研究以外的学科，那么“文化分析”(cultural analytics)可能是同样合适的选项。简言之，就像大多数的历史现象一样，我所描述的趋势是由众多重合的想法组成的,正确的描述方法也不止一种。

我之所以选择“远读”，是因为这个概念可以凸显文学历史实验的宏观尺度，而不是局限在理论性的假定、方法或所分析的对象上。尽管我理解格德斯通对词汇的疑虑，可我认为我们还是可以把“远读”解释为对社会结构的、同样也是对文学形式的探究。“远读”有一个关键性的优势，就是它生动、令人难忘，而不像“某某挖掘”或“某某分析”这些词一样令人感到生硬。另一方面，它确实也有一个显著的缺点：它通常被理解为是新兴事物，这会妨碍我们对20世纪研究成果的信任。我需要在接下来的篇幅中详尽叙述。“远读”一词的确是莫雷蒂在2000年前后创造的，虽然他是我所要描述的学术传统中的重要学者，但也没有理由把他发明的这个词作为整个模式兴起的原点。“远读”这个命名所描述的不是一种全新的方法。这个词第一次出现，是在《世界文学猜想》一文中，它似乎是在描述一些常见的学术活动，综述以前的研究^[7]。“远读”已经逐步演变为研究文学史某种具体方法的代名词，但这种被描述的方法无疑是远远早于此术语出现的。

莫雷蒂在21世纪之初的研究是重要的，这不仅因为它开创了探索宏观文学的思路，还因为它为既有课题注入了新的可能性，催生了新争论的基本原理。关于莫雷蒂的贡献，我乐于谈论更多，但本文有一个更大的目标——一个兴起于20世纪晚期的批判传统，这包括原本被称为“书籍史”或“文学社会学”以及最近所强调的量化性实践。所有这些课题的共通点是，它们提出了关于文学的广泛性的历史问题，并通过研究社会样本或文献证据来回答。这些示例样本的数量从几十个到上百万个甚至更多。比起去规定表征的具体模式或范围，我更想强调对样本进行的潜在的实验性研究结构，前提是这些文学史中的样本必须是被构建而不是现实就存在的。

这个前提很具有一般性，已经多次出现，所以我所描述的传统可能缺乏清晰的界定。许多传统文学史研究，会在开头构建一个非正式的样本，例如哥特小说。这些研究把样本的构建从历史推演的过程中分离开来，从这方面来讲，我认为这已经近似于远读了。因为这种文学研究方法的某些版本可以追溯到19世纪，所以去寻找一个起源的时刻是毫无意义的。远读的出现，不是当某一位文学学者在决定尝试社会科学方法时灵机一动产生的，而是通过一系列的尝试，才逐渐从偶然的史学实践中逐步转换为明确的试验方法的。

二、20世纪中叶的发展

一项包含时段更长的研究可能会通过不同的途径来关注这个事件。马克思主义文学理论就具有重要的影响。雷蒙德·威廉斯也是值得单独成为一个章节的。他1960年前后的著作奠定了其理论基础，至今还在支撑着许多当代的研究。例如，他坚持文学文化从来都不是一个统一的对象，而是由一个不断闪现的新的形式和残留下来的旧有形式组成的多层次的东西，在选择的过程中对历史进行回溯性地转化。读过威廉斯的著作后，就很难会想象有一个文学范例的单一定义，或一个唯一正确的文学文献史。在《漫长的革命》(The Long Revolution)一书中，威廉斯也通过“长时段(la longue durée)”预示了当代的远读，并强调了我们对过去的无知:“没有人真正了解19世纪的小说。没有人读过，或者可能读过它的所有文本，不管是印刷的书籍还是廉价的连载刊物。^[8]”

对远读出现的完整解释也可能会要占据书籍史的一个章节。书籍史学家们不得不明确地定义样本，因为图书馆不能涵盖他们所研究的全部内容。同时历史学家们也推动了文学史更加具体地定义其研究对象,例如，把生产过程从传播和阅读实践中分离出来，但这些研究已经是广为人知的了^[9]。

由于篇幅有限，我必须要跳到发展的后期去谈，也就是从书籍史的理论基础发展后，马克思主义文学理论开始结合来自社会科学的实验方法。我们可以从詹尼斯·莱德威的《阅读罗曼史》(Reading the Romance, 1984)中找到这种结合的完美例子。

Janice A. Radway, *Reading the Romance: Women, Patriarchy, and Popular Literature*

这本书挑战了大众文学仅仅传播意识形态这一普遍的认识，成了女性主义学术的里程碑著作。莱德威认为，批评家们过早地把自己的解释方法推给了读者。例如，一个批评家挑出一本通俗小说，辨识出似乎是隐藏在情节中的性别规范，并断定此书的作用就是要强化这些规范。但这种做法能在多大程度上告诉我们读者的实际想法?读者更重视这些故事的哪些方面?这些书在读者的生活中扮演了什么角色?莱德威通过研究一类与某书店有联系的女性群体，推断读者对故事意义的掌控力比批评家预想的要大。爱情小说似乎起到了类似“独立宣言”的作用，即使性别角色在叙述中所呈现出来的还是一些传统的东西，也可使读者从作为妻子和母亲的责任与压力中解放出来。之后的很多关于粉丝文化的主体能动性作用研究的论点都得益于莱德威的结论。

她的方法依赖于问卷调查、采访和数据，而文学研究者在效仿她的方法方面的速度则要慢得多。

表1 莱德威关于“爱情小说中最重要的三个元素”的调查统计^[10]

莱德威的量化式方法乍看和我们熟悉的远读的例子相去甚远。她不讨论演算，她使用数字的目的主要是用来计算和比较。例如，询问读者最看重小说中的哪些元素。最近的远读的例子已经发展到比这更为复杂的程度，但是同时也可以保持简单。比如，莫雷蒂依靠参考书目来测量各种写作文类的寿命周期，我曾经询问过读者关于他们在90部爱情小说中对时间逝去的印象。

诚然，当代远读通常要基于文本证据，或者是基于过去人物的社会证据而非基于问卷调查。当然，采用远读方法的研究者更关心读者的接受程度^[11]。可是，当你在研究采用远读方法的研究者将接受程度描述得跟莱德威的《阅读罗曼史》一样丰富多彩，差别是非常明显的。但是，我想强调的核心研究实践足够宽泛，可以涵盖所有这些不同类型的文本证据。莱德威将她所提出的问题与为回答问题收集到的证据、以及她最后得到的结论分开来，如此而已。此外，她还将研究过程的各方面按照顺序组织起来。简言之，莱德威的书是作为一个实验而设计的，而且可以肯定的是，这是一个观察性的实验。莱德威并非在测量干预所产生的影响，她也不以严格的假定和演绎的形式来表达她的推理。相反，她从人类学角度出发，让自己在看到有趣的细节时停下来，发表评论。毕竟，她在探索一个新的研究领域，遭遇着一些尚未正式定义的问题。但从根本上来说，《阅读罗曼史》一书实质上属于“经验主义研究”，以“检验某某假定的有效性”为目标的^[12]。莱德威的叙述坦率而有趣，这本著作可能读起来并不完全像社会科学的书，但是，她所使用的修辞都是在尽量谨慎地避免证实性偏见(confirmation bias)。这就是使用范围定义清晰的读者和小说样本，而不随意引经据典地迎合早已被定义的理论的意义所在。

莱德威博士学位的研究领域是美国研究，她目前在教授传播学。但其他社会科学的传统也还徘徊在《阅读罗曼史》的背景下。此书的问卷调查和采访也都与社会科学的方法相呼应。当莱德威审视罗曼史小说本身时，她的方法又同时呼应了社会学和结构人类学。例如，在系统地阅读了20部爱情小说后，她发现了一套“二元对立”原则，它把女主角、女配角、男主角和男配角组织成一个对称的结构^[13]。她用正负号来表述这个结构当中的两极对立关系，这让人回想起列维-施特劳斯《野性的思维》(The Savage Mind, 1965)中的图解。她对每部小说进行系统化取样和编码，这也正呼应了社会学家应用于大众媒体“内容分析”的手法。

或许我们要来强调一点:语言学不是莱德威项目中的重点。当代的远读还受到一种不同的知识传统的影响，此传统致力于语言细节的量化分析。这个传统做出了至关重要的贡献，这一点我们需要承认。但我认为在关于远读的当代叙述中，语言学可能显得有些过于抢眼，以至于让我们看不到其他事物的存在。语言学范畴和莱德威探求的社会学范畴同等重要，我并不是要让两个科目一较高下。相反，我认为我们需要同时看到这两者的影响，以便理解组织此研究进程方法的一般普遍性。我们对大范围的文学史知识并没有增加，因为在语言分析中有一种特别的魔力(或者说在女性主义社会学中有一种特殊的道德上的权威)。项目之所以成功，是因为学者们已经学会如何用一种避免证实性偏见的方法来检验大范围的文学历史学中的假定前提。若非如此，也就很难取得这种大幅度的进步。如果你在一个可能会引用10万部不同的小说作为证据的领域工作，证实性偏见会让所有概括都同样正确，直到你想出某种程序来限制你选择的自由。正如心理学家们所说:“拥有丰富证据的领域需要某种方式来限制‘研究者的自由程度’”^[14]。

三、莫雷蒂的贡献

尽管莱德威的著作在整个1990年代受到英语文学文化研究界的广泛赞扬和引用，她所使用的方法却并没有被广泛地采用。正如詹姆斯·英格里希所指出的，一直以来，文学研究者都会快速地从社会学家那里借用研究成果，但是却迟迟不借用他们的方法^[15]。我们可以从多方面为我们的迟疑找借口，但事实上，这还要归结于体制的惰性:文学研究课程根本不教研究生内容分析方法或涉及数字方面的内容。然而，也有一些文学研究是沿着《阅读罗曼史》中所建议的方法而发展起来的，例如一位与远读密切相关的学者，在《文学屠场》中写道:莫雷蒂发明了一个编码方案来描述侦探小说“线索”的角色。而后，他读了大约20个故事样本，记录下线索的每个方面存在与否的情况，进而将这些故事排序成树状图(见图1)^[16]。

这个方法非常接近莱德威对爱情小说的研究方法:从20部小说的样本，到系统阅读找寻具体特点的方案，再到图标中表示两极的正负号。我并不是说莫雷蒂的研究受到《阅读罗曼史》的特别影响，更有可能的情况是两位学者的方法都直接来自结构人类学和社会学。但无论此影响是来自于文学批评还是社会科学，都是有一个连贯的传统可以追寻的。莫雷蒂补充了一个莱德威所没有的进化假设，这可能是在2000年他的论证最能激起读者震惊、促进其思考的地方。但从今天的角度看，我们可以看到莫雷蒂的进化假说并不比莱德威对问卷调查的依赖更具有决定性。他们之间的研究关键的潜在相似性，使其成为对其他学者来说长期践行的生产型研究模型，这就是为什么要把实验来开展的原因。

诚然，对过去的历史进行实验性的研究超出了跟普通量杯和棱镜等联系起来的有关“实验”的一般性定义。我们不能干预过去，然后问它是否像我们假定的预测那样发生了改变。但这是在固定数据集上进行“实验”的地质学家、天文学家和计算机科学家都拥有的问题^[17]。远读是一门历史科学，它需要借鉴诸如卡罗尔·克莱兰德(Carol Cleland)定义科学的方法，不仅倡导以未来为导向的干预，更坚持让系统的测试具有“不受到既成认定误导”的假设^[18]。例如，文学史家可设定基于一些在没有得出结论之前所选择的文献样本而产生的可供试验的假定，最大限度地减小由既成认定带来的误导。我们可以称这种方法为最低程度上的“科学”，但这并不是在暗示我们必须突然接受所谓化学家，甚至是心理学家的习惯。想象性的文学作品很重要，是因为读者喜欢它。如果让一丝不苟的假设测试耗尽了写作的热情和灵活性，那么文学批评将一无所获。使用数据的文学史家不得不以某种方式将缜密和简单结合起来，并减少那些错综复杂的细枝末节对我们所关注课题的致命性影响。但是，在这些修辞性的限制下，可以说远读会“追求”社会科学的方法:它不仅由对历史宽度的追求所定义，也被适合历史学科的科学方法所定义。

当然，不是每个人都同意克莱兰德的定义。对许多学者来说，“远读”这一术语依旧是由于2000年前后所发生的问题语境而形成的，当时似乎是一场围绕着文学正典问题的持久争论的顶峰。修正文学正典这个过程开始于解决种族和性别在文学阅读和研究方面的失衡问题，到1990年代末，更为系统性地扩展至试图恢复一个比正典范围更大的“伟大的未被阅读到的经典”^[19]。虽然此话题的政治影响愈来愈分散，但它仍然保留了关于文学正典的争论的道德热情。因此，如果读过莫雷蒂早期针对大量文献的实验，就会将其解释为一种规范性论证，即唯一有效的文献样本是最具可能性的样本。莫雷蒂的文章并不是在系统地肯定这个立场，但是这些文章有时会让读者产生这种理解。例如，决定将这些被遗忘的书籍的档案馆描述为文学的“屠场”，呼应了与恢复使命相关的道义感伤。我认为这种感伤的规范性力量不是这个课题中最持久和最具影响力的部分，但这是读者应该注意的部分，因此这也是读者经常记住的部分。

莫雷蒂坚持要重建一个最大限度完整的档案，这也是学者们有关远读花大量时间争论的一个部分，许多批评家认为，恢复所有是不可能的^[20]。从这个毋庸置疑的前提出发，他们有时推断(更具争议性的是)，全面性甚至并不是一个合适的目标^[21]。我不在此重演争论，在我看来这是在浪费精力，因为有很多有效的方式可以呈现过去。对文学作品生产感兴趣的学者可能会想接近完整性，而对文学作品感兴趣的读者则更喜欢关注一小部分有影响力的作品。一些社会问题取决于作者的身份，另一些则取决于读者。而对于其他有关人类历史的道德参与模式而言，社会广度的共时性问题要比历时性范围问题更重要。所有这些抽样策略都有其用途，没有理由在它们之间做最终的选择。关于文学正典争论的后遗症也许让文学学者有点急于强迫自己做出这样一个选择。在看到许多关于这个话题的不成熟的争论后，我尽量不参加任何不同样本代表性的争论，直到我看到一些证据，证明这场争论对“被讨论的历史问题”有所改变。考虑到有价值的不只是一个样本，但它们都是为特定目的而被暂定的，它们不是正典，所以在一个问题被定义之前，抽象地讨论它们的代表性是没有意义的。此外，不管你是看了一万篇晦涩的文献，还是两百篇精心编排的文稿，相同的模式还是很明显的。因此，在研究的最初阶段，在“关于什么是构成历史上相关和合理的分析样本的争论”问题上停滞不前是错误的^[22]，这个问题没有正确答案。如果暂缓争论而开始比较不同样本的工作，我们会将研究进行得更好。

关于莫雷蒂在远读方面的几个贡献，我一直尽量对其轻描淡写，这些贡献通常被视为具有明确意义的:他创造了术语，他强调了包括非经典著作在内的样本的全面性。然而，我确实认为21世纪此类性质研究项目的扩展是归功于莫雷蒂的。为了说明原因，没有比引用《文学屠场》的最后一段更好的了:“绝佳的机遇，这是一个文学研究上未被拓展的广阔天地，可以采取多样的方法以及真正意义上的集体努力，文学史上前所未有。绝好的机会，极大的挑战……这需要在方法论方面具有最大程度的勇气，因为无人知晓十年后文学研究中知识意味着什么。我们最好的机会在于知识立场的完全多样性以及它们完全诚恳、直言不讳的竞争。没有既定秩序，不存在虚与委蛇，不用妥协，不用对任何一个有权势的学术团体献媚，百无禁忌。”^[23]莫雷蒂有两个贡献举足轻重:其一，他指出文学史并不是一个已被详细研究过了的、精心绘制的领域，而是一个“未被拓展的广阔天地”，因为实际上我们对它的宏观面貌知之甚少。我的主要意思是，莫雷蒂给远读注入了新的可能性从而重塑了它。其二，我想强调的是他的推断，即彼此冲突的规范性主张之间要互为妥协，这并不像很多文学学者认为的那般紧要。

在此，我们发现采用远读方法的研究者和他的同行之间一直存在着误解。长期以来，文学研究这门学科一直围绕着规范性辩论而展开，这些辩论都旨在定义文学批评家应该研究的对象。我们从19世纪的文学批评中学会了强调这种问题性，它在今天依然存在于历史与形式、表面与深度、批评与欣赏相对抗的激烈争辩中。根植于这一传统的学者理所当然地希望将远读解释为同种类的规范性立场。大概采用远读方法的研究者也在表达一种诸如对“细读(close reading)”的原则性反对。在此情况下，下一步的行动就自然是辩证地否定近与远的关系。观察者们往往非常乐于提供这类折中的解决方案^[24]。对文学批评家来说，这是一个明显的答案。但从远读内部来看，这似乎是在胡诌。采用远读方法的研究者并不反对细读。他们只是指出一个关于历史的地图上的空白区域——那里可能存在着关于大量样本或长时间轴的问题——以表明“没有人真正知道那里有什么”。承认自己的无知，并不是可以做出有意义的妥协的事情，这需要不同的回应。与其将远读解释为该学科的规范性论证，不如通过简单地询问它所识别的盲点是否还含有任何有趣的内容来判定。

我当然是一个有偏见的观察者。就我个人而言，当瑞安·霍伊泽尔(Ryan Heuser)和朗·勒-凯克(Long Le-Khac)发表了证据,证明19世纪的小说里存在一个从抽象到具体描写的持续的、大范围意义上的转变之后，我开始相信，新的研究在2012年取得了成绩^[25]。随后几年里，采用远读方法的研究者探索了有关金钱、性别、种族、地域与文学传播等社会问题，以及诸如体裁、情节、情感和时间等形式上的问题^[26]。在许多情况下，学者们仍无法就他们所发现的证据的意义达成共识。例如，霍伊泽尔和勒-凯克在小说中发现的从抽象到具体的转变，这被理解为文学和非文学语言风格开始在大范围内分道扬镳、彼此迥异了，这影响了诗歌、非虚构作品和小说^[27]。如果所有这些发现都是我们以往以一种心照不宣或无意识的方法所已经知道的——就像怀疑论者有时说的那样——那么我们的无意识肯定就已经知道了那么多相互矛盾的事情，以至于“知道”这个词显得出奇的慷慨。就像发明了空气泵并不能马上说服读者有真空的存在一样，围绕新证据产生的共识呈现得非常缓慢。对特定结论保持谨慎是有必要的，但在这一点上，我丝毫不怀疑文学学术上存在着盲点。文学史上许多重要的模式至今还未得到很好的理解，因为在对单个作品阅读的范围内，这些模式很难被领悟到。

四、远读与计算方法

到目前为止，我对数字几乎没有介绍，对计算机更是只字未提。我把远读定性为早期宏观文学史形式传统的延续，仅以一种渐进性的实验性方法而有所区分，这种方法是在得出结论之前，由样本和假设构成的。对于这一传统来说，最为重要的跨学科联系，直到最近都仅仅存在于社会科学而非在计算机科学中。

然而，不可否认在过去的25年里，这种文学研究中的社会学方法，融合了计算科学的传统。这个融合的过程是复杂的，我在此不做详细说明，可以参考马克·奥尔森(Mark Olsen)及其在芝加哥的ARTEL(American and French Research on the Treasury of the French Language)项目，或者马修·约克斯与其斯坦福文学实验室，或者约翰·昂斯沃斯(John Unsworth)与其涉及群岛居民的MONK(Metadata Offer New Knowledge)项目。无论哪一个项目，很明显的，大规模的文学史研究中已经充满了由语料库语言学、信息检索和机器学习方法而产生的观念。我不打算轻视这种融合的重要性，这是我职业生涯中最激动人心的一部分，我要感谢我刚才提到的每一个人。

我也不想说计算仅仅是为了达到莱德威和莫雷蒂已经充分证明的结果。数字人文的批评者常常假定计算机科学在人文学中仅应该保留其工具性，绝不应“挑战”我们的“基本标准或程序”^[28]，这误解了计算学科在学术史上的地位。计算的价值不仅仅在于加速文学研究或扩大其规模，相反，计算机科学带来的观念正在给文学学者们带来新的课题^[29]，并鼓励我们以一种更具有理论特色的方法来构建现存问题^[30]。例如，机器学习代表了一种思考文学概念的全新方法，比如体裁，可能就是围绕着松散的家族谱系相似性而不是清晰的定义组织起来的^[31]。

Steven E. Jones, *The Emergence of the Digital Humanities*

简而言之，我丝毫没有任何动机去强化学科的边界，也不是要严格坚持文学研究史内向化。然而我不得不承认，远读仍然是文学史研究的方法，而不是一种计算学的方法。当然，远读有多重系谱并根植于许多学科。但总的来说，在追溯和过去的联系时，我还是会返回去强调莫雷蒂、莱德威和威廉斯的思路。我的理由很简单:一种基于社会科学的文学研究方法本身就能够产生重大的历史结果——不管有没有用到电脑。但是相反的说法通常不成立，譬如仅靠计算方法，不进行社会层面的调查，就不足以改变文学史研究现状。

坦率地说，我们知道计算方法已经在文学研究领域上运用了30年，却没有对此学科造成重大的影响。《计算机与人文学》(Computers and the Humanities)杂志创刊于1966年，它成为一个野心勃勃的知识界的中心，为音韵学、索引建立、数据库设计和语言教学做出了重要的贡献，但整个项目对文学史研究影响甚微。斯坦利·费希(Stanley Fish)在1970年代就有相似的观察^[32];这一点，马克·奥尔森也不全然否认，他在1993年的《计算机与人文学》杂志上写道:“用计算机作为辅助的文学研究未能对整个领域产生重大影响。”^[33]根据奥尔森的观点，错误在于通过研究“单个文本或单个作者所有作品中微妙的语意或文法结构”来解释“一个文本如何实现其文本文献效果”。后来，计算机被证明是“非常不适合”回答这些新的评判性质的问题的，而专注于这些问题“往往使研究者不能积极地运用这种工具来提问该工具更适合用来回答的问题，即对海量简单语言特征的研究”。^[34]奥尔森接着提到，更具讽刺意义的是，这种更为广泛、更简单的文本处理方式似乎正是最近文学理论和符号学发展所需要的(他引用Roland Barthes、Michel Foucault和M. A. K. Halliday)。如果这两个研究部门能够互相联系起来，计算分析就有可能最终在文学研究中占据中心位置。

正是这篇文章让我在1990年代中期第一次关注到远读^[35]，我仍然认为这是一个有先见之明的论点。奥尔森的优点之一是，他对这种错误的对立不予理会，即允许我们的研究由恰当的文学问题来塑造与允许研究被数字工具的能力来引导之间的对立。相反，他同时考虑到这个格局的两个方面并强调了一个交叉区域，在此区域，新的文学问题碰巧与新的技术优势相交叠。这个交叉区域被证明是极具生产力的，而奥尔森的预言几乎也都实现了。计算机对我们理解个别文献和作者的贡献，除了作者身份识别(重要但单一)以外，仍相对较少。但现今计算方法对文学史研究很重要，因为它可运用于大型数字图书馆，在一个理论框架的指引下告诉我们如何提出在社会层面上有意义的问题。奥尔森的文章可能忽略了一些已经朝着他所建议的方向行进的学者^[36]，并且我们今天所使用的架构可能比他预想的要更具社会性，更少符号化。然而作为一种极具先见之明的预言，他1993年的文章还是不错的。他的文章同时解释了《计算机与人文学》中所体现的传统如何最终为文学史研究带来重大影响，以及为什么这种重要意义直到21世纪才最终大部分实现。

此外，对于从事数字人文与远读的跨领域学者来说，奥尔森的评论仍然是一个有用的警告。算法诚然非常重要，它不只具有工具性，但也不足以满足课题所需。迄今为止，计算机只有在与合理的广泛的历史问题结合时，才对文学史研究产生影响。广泛的样本也不一定就是详尽的收集，可能最终就是几十本书而已。但是就这几十本书中提出问题仍需要对既存的研究问题进行全面的反思。因此，我能理解为什么学者往往想要从算法开始了，就是希望这些算法在运用到常见的作者级别问题上时会产生一些有趣的结果。但很不幸，根据我的经验来看，这是一条不通的捷径。奥尔森的警告并没有被科技的进步所取代，计算机至今还不能教会我们许多关于新批评(New Criticism)的东西(可能会有那么一天，但还远不是现在)。在被称作“数字人文”的不断扩大的团体中，坚持这个不采取简单的数字同化的方法可能看起来并不明智。但是，我之所以把远读和数字人文区分开，其目的之一是为了指出一个问题:使用计算和重构文学研究的范围，是两个不同的事物，前者不会给你后者的结果。

五、社会科学的省略

奥尔森在《计算机与人文学》杂志上发表文章时，很自然地倾向于讲述一个以人文学者和计算机为中心的故事，他承认了社会科学的意义，但没有突出其方法。很多当代远读作品方面的研究也是如此。最优秀的采用远读方法的研究者在实践中都把他们的课题作为实验来对待(我们不会想要漫无目的地计量)。但是，当我们撰文发表的时候，研究的实验结果并不总是被凸显出来。一篇以社会科学的样式(方法—结果—结论)组织起来的文章可能不会受到惯于辞藻华丽的文学批评家的欢迎。假定你的文章在最开始的时候是按照写论文的模式撰写的，随意且漫无目的，后来机缘巧合地使用了一些手边现成的情节做了说明，这样可能更有效果。

我和所有人一样，对这种随便的态度感到内疚，可这往往又是不可避免的。我曾建议采用远读方法的研究者应该追求一种适合历史学科的科学的方法，但我们也是文学批评家，批评家有义务做到有趣。这意味着，有时我们不得不把方法放进附录中，或是让分析任务看起来比实际要简单一些^[37]。总的来说，我接受这种修辞上的两难境地，这是我们处于这样一个棘手的学科边界上的结果。但它也存在一个副作用，就是模糊了这个项目所需的原动力。读者明白为何宽泛的历史问题重要，也明白计算机的作用，可是却难以察觉明确的试验方法:采用远读方法的研究者有动机淡化我们这部分的工作。然而，研究问题的实验性架构是这个领域的关键，詹尼斯·莱德威的量化方法依然可以完成重大的工作，而这只需要纸和笔。另一方面，如果不效仿莱德威明确假设、样本和结果，就很难进行大规模的社会研究。

不幸的是，社会科学的方法论不是数字人文课题的核心话题，也不存在于数字人文准则中的远读的形式分类中^[38]。安德鲁·戈德斯通(Andrew Goldstone)说得对，“远读”这个词本身就有助于社会科学层面的淡化^[39]。但是最近将远读作为数字人文的一个次领域的趋势，可能也会起到一些作用。“数字人文”这一术语将学术生活安排为人文学者和机器之间的对话，它没有明确强调实验性的方法，而是凸显了横在人文学和社会科学之间的界限。

Matthew K. Gold and Lauren F. Kleineds eds., *Debates in the Digital Humanities 2016*

这就是我写这篇文章的目的——梳理远读背后被忽略掉的社会科学的系谱。可跟踪的线索还有很多。例如，正如我承认的，机器学习对当今社会正在发挥强有力的影响。我不想贬低任何次领域，但是坚持远读的系谱应该通过理解其核心的知识动向来追溯，而不是仅仅对计算机和文本研究重叠区域的追溯。罗伯特·布萨神父为阿奎那作品所编的索引是一件有价值的事情，但是单一作者的一个索引不足以构成远读的重要起点。如果我们想把这一传统追溯到20世纪中叶，我们可能需要在不同的方向上追寻不同的思路。我们最终可能会问，雷蒙德·威廉斯在1950年代后期对文学做了什么?列维-施特劳斯在同一时期对社会人类学做了什么?弗兰克·罗森布拉特(Frank Rosenblatt)对感知器(译者注:深度学习模型之一，深度感知器MLP)又做了什么?

诚然，在21世纪，这些学科的种种趋向于汇聚和融合，这带来了令人兴奋的挑战，但也给研究生的培养带来了问题。想要采用远读方法进行研究的学者可能需要一些关于编程、社会学理论和统计学的知识，同时还要有相当深厚的文学史研究功底。目前，被称作“数字人文”的灵活的跨学科社区可能是学生整合这一切的最好家园。

但是，如果要让这两个项目在同一屋檐下共存，那就需要对它们之间的差异进行坦诚的讨论。数字人文学者不一定会像采用远读方法的研究者一样钦佩社会科学。相反，他们常常关心捍卫定量的社会科学和人性的反思之间的界限^[40]。如果说数字人文是统一的，那么这种统一是在一种从趣味探索到监督批评的氛围中对数字技术的反思而成立的。另一方面，远读并不从根本上关注技术，它关注的是对以往文学史研究的社会科学的方法。这种矛盾引发了一场可预见的冲突，而这一冲突已经开始显露出来。在数字人文的入门课程或研讨会中，很少教学生他们需要了解的内容是为了实践远读。因此，在课程中采用远读方法的研究者将不得不倡导一套不同的、更加强调定量方法的课程。这种倡导努力已经开始了^[41]，但在一场以“数字”这一形容词构建的对话中，它很容易被曲解为是将数字人文推向一个更技术化的方向的企图。例如，采用远读方法的研究者对宽泛的历史问题的兴趣——至少可以追溯到雷蒙德·威廉斯——正被广泛地与最近的技术流行语“大数据”合并起来。这种合并可能会产生一场无益的争论，争辩双方都不能理解分歧的原因所在，因为他们误解了彼此真正的立场和信仰。

本文旨在阐明在定义远读时要奉行的东西。我无意达成共识:我知道在此引用的许多学者都不赞同我对该领域的定义。特别是，我知道许多学者与数字人文和远读都保持着密切的联系，我希望同时从事这两方面工作的人，会拒绝接受这分属两种不同的知识项目的结论。当然，这些项目目前是以一种对部分研究者特别重要的方式融合在一起的。例如，招聘广告通常只需要“数字人文学者”而几乎从不需要“采用远读方法的研究者”。因此，从实用主义的角度看来，对于年轻学者来说，将这些术语分开是不明智的做法，而对于当代社会情景纯粹的描述性解释，可能会很好地把它们融合在一起。本文将数字工具从实验方法中分离出来，这不纯粹是出于实用性或描述性的理由。而是试图在一个系谱叙述中建立这种分离，但我也承认它具有前瞻性的既定目的。

在过去的15年里，随着采用远读方法的研究者抓住了技术的机遇，研究的目标变得广泛了。通常我们的短期目标是“让我们看看这些工具能做什么”这样的探索。探索是富有成效的，但我认为这个领域已经做好准备，从“探索”向外扩展了。大规模的文学史研究现在可以围绕着明确的研究问题进行自我重组，并积极地推进对过去的认知。但为了做到这一点，我认为需要把对科技的迷恋先放一边，应重新发现实验的指导原则。我通过指出该领域的历史，特别是指出威廉斯、莱德威和莫雷蒂研究中社会科学的重要性来对此观点进行了辩护。但归根结底，这也只是一种观点。本文只勾勒了远读的一个“系谱”，对此还会有其他说法，我很期待读到它们。

—————————————————————————————————————————————————————–

A Genealogy of Distant Reading

Ted Underwood

Abstract: It has recently become common to describe all empirical approaches to literature as subfields of digital humanities. This essay argues that distant reading has a largely distinct genealogy stretching back many decades before the advent of the internet – a genealogy that is not for the most part centrally concerned with computers. It would be better to understand this field as a conversation between literary studies and social science, inititated by scholars like Raymond Williams and Janice Radway, and moving slowly toward an explicitly experimental method. Candor about the social-scientific dimension of distant reading is needed now, in order to refocus a research agenda that can drift into diffuse exploration of digital tools. Clarity on this topic might also reduce miscommunication between distant readers and digital humanists.

Keywords: Distant Reading; Reading Romance; Williams; Social Sciences; Computers and Humanities

—————————————————————————————————————————————————————–

编辑 | 姜文涛

注释：

[1]Kathryn Schultz, “What Is Distant Reading?” The New York Times, June 24, 2011, http://www.nytimes. com/2011/06/26/books/review/the-mechanic-muse-what-is-distant-reading.html.

[2]Amy Earhart, Traces of the Old, Uses of the New: The Emergence of Digital Literary Studies, Ann Arbor: University of Michigan Press, 2015, http://dx.doi.org/10.3998/etlc.13455322.0001.001.

[3]T. C. Mendenhall, “The Characteristic Curves of Composition,” Science, vol. 9, 1887, pp. 237-246; L. A. Sherman, Analytics of Literature: A Manual for the Objective Study of English Prose and Poetry, Boston: Ginn, 1893.

[4]Kaplan, Frédéric, “A Map for Big Data Research in Digital Humanities,” Frontiers in Digital Humanities, vol. 2, 2015, pp. 1-7.

[5]Andrew Goldstone“, Distant Reading: More Work to be Done,” August 8, 2015, https://andrewgoldstone. com/blog/2015/08/08/distant/.

[6]James F. English, “Everywhere and Nowhere: The Sociology of Literature after ‘the Sociology of Literature’,” New Literary History, vol. 41, 2010, pp. v-xxiii.

[7]Franco. Moretti, “Conjectures on World Literature,” New Left Review, no.1, 2000, https://newleftreview.org/II/1/franco-moretti-conjectures-on-world-literature.

[8]Williams, Raymond, The Long Revolution, New York: Penguin, 1985, p. 66.

[9]Robert Darnton“, What is the History of Books?” Daedalus, vol. 111, 1982, pp. 65-83.

[10]Janice Radway, Reading the Romance: Women, Patriarchy, and Popular Literature, Chapel Hill: University of North Carolina Press, 1984, p. 67.

[11]Anne DeWitt, “Advances in the Visualization of Data: The Network of Genre in the Victorian Periodical Press,”Victorian Periodicals Review, vol. 48, no. 2, 2015, pp. 161-182; Algee-Hewitt, Mark and Mark McGurl, “Between Canon and Corpus: Six Perspectives on Twentieth-Century Novels,”2015, http://litlab.stanford.edu/LiteraryLabPamphlet8.

[12]Radway, Janice, Reading the Romance: Women, Patriarchy, and Popular Literature, p. 11, 13.

[13]Radway, Janice, Reading the Romance: Women, Patriarchy, and Popular Literature, pp. 122-132.

[14]Joseph P. Simmons, Leif D. Nelson and Uri Simonsohn, “False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant,” Psychological Science, vol. 22, no. 11, 2011, pp. 1359-1366.

[15]James F. English, “Everywhere and Nowhere: The Sociology of Literature after ‘the Sociology of Literature’,” New Literary History, vol. 41, 2010, pp. v-xxiii.

[16]Franco Moretti“, The Slaughterhouse of Literature,” Modern Language Quarterly, vol. 61, no. 1, 2000.

[17]Jeffrey D. Ullman“, Experiments as Research Validation — Have We Gone Too Far?” July 9, 2013, http://infolab.stanford.edu/~ullman/pub/experiments.pdf.

[18]Carol E. Cleland, “Historical Science, Experimental Science, and the Scientific Method,” Geology, vol. 29, no. 11, 2001, p. 988.

[19]Margaret Cohen, The Sentimental Education of the Novel, Princeton: Princeton University Press, 1999, p. 23.

[20]Katherine Bode, Reading by Numbers: Calibrating the Literary Field, London: Anthem, 2014, pp. 20-21.

[21]Jeremy Rosen“, Combining Close and Distant, or the Utility of Genre Analysis: A Response to Matthew Wilkens’s ‘Contemporary Fiction by the Numbers’,” Post, vol. 45, December 3, 2011, http://post45.research.yale.edu/2011/12/combining-close-and-distant-or-the-utility-of-genre-analysis-a-response-to-matthew-wilkenss-contemporary-fiction-by-the-numbers/.

[22]Katherine Bode, “The Equivalence of ‘Close’ and ‘Distant’ Reading; Or, Towards a New Object for Data-Rich Literary History,” Draft, December 2017, p. 17, https://katherinebode.files.wordpress.com/2014/07/equivalence1.pdf.

[23]Franco Moretti“, The Slaughterhouse of Literature,” Modern Language Quarterly, vol. 61, no. 1, 2000, p. 227.

[24]Jonathan Freedman“, After Close Reading,” The New Rambler, April 13, 2015, http://newramblerreview.com/book-reviews/literary-studies/after-close-reading.

[25]Ryan Heuser and Long Le-Khac, “A Quantitative Literary History of 2,958 Nineteenth-Century British Novels: The Semantic Cohort Method,” Stanford Literary Lab, 2012, http://litlab.stanford.edu/LiteraryLabPamphlet4.

[26]See Wilkens“, The Geographic Imagination of Civil War-Era American Fiction,” American Literary History, vol. 25, no. 4, 2013, pp. 803-840; Lauren Klein“, The Image of Absence: Archival Silence, Data Visualization, and James Hemings,” American Literature, vol. 85, no. 4, 2013, pp. 661-688; Ryan Cordell, “Reprinting, Circulation, and the Network Author in Antebellum Newspapers,” American Literary History, vol. 27, no. 3, 2015, no. 3, pp. 417-445; Matthew Jockers and Gabi Kirilloff, “Gender and Character Agency in the 19th Century Novel,” Cultural Analytics, 2016, http://culturalanalytics.org/2016/12/understanding-gender-and- character-agency-in-the-19th-century-novel/.

[27]Ted Underwood and Jordan Sellers“, The Emergence of Literary Diction,” Journal of Digital Humanities, vol. 1, no. 2, 2012, http://journalofdigitalhumanities.org/1-2/the-emergence-of-literary-diction-by-ted-underwood-and-jordan-sellers/.

[28]David Golumbia, “Death of a Discipline,” differences, vol. 25, no. 1, 2014, pp. 164.

[29]Steven E Jones, The Emergence of the Digital Humanities, New York: Routledge, 2014, pp. 31-32.

[30]Andrew Piper, “There Will Be Numbers,” Cultural Analytics, 2016, http://culturalanalytics.org/2016/05/there-will-be-numbers/.

[31]Hoyt Long and Richard Jean So“, Literary Pattern Recognition,” Critical Inquiry, vol. 42, no. 2, 2016, pp. 235-267.

[32]Stanley Fish, “What Is Stylistics and Why Are They Saying Such Terrible Things About It,” Seymour Chatman ed., What is Aesthetics, New York: Columbia University Press, 1973, pp. 109-152.

[33]Mark Olsen, “Signs, Symbols, and Discourses: A New Direction for Computer-Aided Literary Studies,” Computers and the Humanities, vol. 27, no. 5/6, 1993/1994, pp. 309-314.

[34]Mark Olsen, “Signs, Symbols, and Discourses: A New Direction for Computer-Aided Literary Studies,” Computers and the Humanities, vol. 27, no. 5/6, 1993/1994, pp. 309.

[35]Ted Underwood“, Productivism and the Vogue for ‘Energy’ in Late Eighteenth-Century Britain,” Studies in Romanticism, vol. 34, no. 1, 1995, pp. 103-125.

[36]Janice Radway, Reading the Romance: Women, Patriarchy, and Popular Literature; Brunet, Etienne, “L’exploitation des grands corpus: Le bestiaire de la littérature française,” Literary and Linguistic Computing, vol. 4, no. 2, 1989, pp. 121-134.

[37]即使在这里，我也是为了修辞效果在做简化。事实上许多作者已经发明出非正式的方法来强调他们研究的实验性。在斯坦福大学文学实验室工作过的学者往往特别擅长强调那些他们收集的证据不足以支持他们最初假设的时刻。如果我的观点是正确的，即反对既成的偏见是人文学实验性方法的要点，那么这种记述策略可能与已经在社会科学中发展起来的更为正式的范例(方法—结果—结论)具有同等的影响力。自由共享代码和数据是揭示实验性基础设施的另一种办法，而文学研究的学科往往会倾向于掩盖这种办法。

[38]Tanya Clement, “Where is Methodology in Digital Humanities,” Debates in the Digital Humanities 2016, Matthew K. Gold and Lauren F. Kleineds eds., Minneapolis: University of Minnesota Press, 2016, pp. 153-175.

[39]Andrew Goldstone, “Distant Reading: More Work to be Done,” August 8, 2015, https://andrewgolds-tone.com/blog/2015/08/08/distant/.

[40]See Timothy Burke, “The Humane Digital,” Debates in the Digital Humanities 2016, Matthew K. Gold and Lauren F. Klein eds., Minneapolis: University of Minnesota Press, 2016, pp. 514-518.

[41]See edited by Dennis Tenen, “Blunt Instrumentalism: On Tools and Methods,” Debates in the Digital Humanities 2016, Matthew K. Gold and Lauren F. Klein eds., Minneapolis: University of Minnesota Press, 2016, pp. 83-91; Andrew Goldstone“, Teaching Quantitative Methods: What Makes It Hard,” Forthcoming Debates in the Digital Humanities 2018, Matthew K. Gold and Lauren F. Klein eds., https://andrewgoldstone.com/teaching-litdata.pdf.

原刊《数字人文》2020第2期，转载请联系授权。