计算创造力与计算批评：一种落地的AI批评如何可能 – 中国数字人文 | 数字人文门户网站 | DHCN

作者：赵薇；原载《中国社会科学报》2020年4月3日，有删节

2019年11月24日，“‘虚’与‘实’之间：跨学科与人工智能工作坊”由中国社会科学院文学研究所马克思主义文艺理论研究室举办。这次工作坊为学科融合背景下的跨学科对话提供了难得的机会，体现出一种打通形而上和形而下的层面，让业界、研究者和哲学家能够坐在一张桌子旁的努力。在当下这个“大数据”的时代，“人工智能”作为科技强国最具潜力、最炙手可热的概念，不仅成为国家的战略需要，在传统领域也已领跑量化人文研究。人工智能对于人文学者究竟意味着什么？采用量化方法的人文主义者应怎样处理和数字技术的关系？这次工作坊也激起了人们从数字人文的角度来反思相关问题。

数字人文实践中的“人工智能”

首先，与哲学界更偏重于理论思考和伦理忧思不同，在数字人文实践中，人工智能在很长一段时间内都或多或少地意味着机器学习（machine learning）的实操领域，而特别是其中的无监督学习（unsupervised learning），亦即人工干预近乎为零的数据训练法。在此，人工智能并非科幻小说中神乎其神的“超级智能”，而更是触手可及的统计方法，正越来越普遍地运用在大规模数据建模中，从业者也一直是在摸索中学习，在学习中实验的。例如，自2018年8月起，芝加哥大学文本光学实验室就利用上海图书馆提供的民国时期期刊语料数据，从五个方向上先后实验了用以区分和发现1918-1949三十年间各种潜在的“新文学”文类的办法，这其中至少有三种路径涉及到深度学习，包括神经网络学习的次序模型（sequential modeling）和模式识别（pattern recognition）的技术。将一些业内通行的做法应用于精度要求极高的文学研究，非但不会让人们觉得是多么炫奇的事情，相反，和任何社会科学研究的实施过程相似，从实验设计到程序运行，再到必要的统计检验，倒是毫不意外地充满了各种失败和不理想——为了达到一定的准确率，必须不断地放弃一些看似正确的做法，要不断地去试错和“妥协”——事实上，似乎也很少有人想到这是人工智能，兴许正在活跃起来的数字产业界对这样的标签会更有兴趣罢。

关于人工智能应用，文学艺术界热衷谈论的另一个现象是AI写作。在这方面，清华大学自然语言处理与社会人文计算中心的孙茂松教授团队一直在做严肃探索。像他们实验室的“九歌”作诗机，现在不仅可以作五七言绝句，还可以作律诗，也上过好多次竞赛节目，对于普通人来说，是可以“乱真”了。2019年12月创刊的《数字人文》上，孙茂松教授在一篇题为《诗歌自动写作刍议》的文章中提出“计算创造力”的概念。但是机器一定就能“创造”了么？未必，我们知道，这一切之所以成为可能，靠的无非还是统计学当家。在孙教授看来，再复杂的深度学习，也不过基于一种可能性推断。仅以七律为例，如果粗略假设中国古典诗歌使用的通用汉字在大约1万字左右，那么理论上可产生的诗歌总数（排列组合）将是2的744次方，这是一个天文数字，所以只能靠算法来挖掘出“好诗”。怎么挖掘？就需要建模，就要以超过80万行的古诗语料和已标注的知识库为材料，来训练专门设计的模型。这些模型借助于认知心理学中类似于“工作记忆”的读-存-取的信息循环加工过程，将临近诗行中各种语汇排列的可能性相继产生出来（矣晓沅等，2018）。在这个不断“缓存”的过程中，由关键词所提示的诗歌主题和由相关语料提供的历史文化信息被储存在一个动态化的模型中，而相应算法的设置则极大地保证了诗行内涵的连续性，最后再辅以韵律规则和风格模式的学习。经大量使用者评分实验证明，九歌不仅可以做出合律、连贯、“有意境”的诗歌，还可和人配合起来一起作诗，为做出的诗自主打分了。也就是说，在AI“作诗”时，模型和算法仍然来自于人，来自对大量古诗佳作模板的“习得”，这些模板体现在句法生成的规则层面上。理论上讲，受训之后的模型做出的即是一种“集大成”之作，所以难怪有批评家会说，不妨将AI写的诗当成“行业准入”原则，写得不如他们的，就不配为诗人，这当然是笑谈，但从现阶段大部分机器作诗的机制来讲，却是不无道理的，“站在巨人的肩膀上”当然没有理由比前人写得差。只不过作为文学研究者，我们所关心的却也并不是“九歌”能否做出超越古人经典的佳句，文学研究者更关注的将有可能是由自动作诗引申出的诸如“‘熟读唐诗三百首，不会作诗也会溜’背后的机制是怎样的”（严程语）？格律的本质到底是什么？在今天，如何通过精巧的实验设计，将那种由词组和句法赋形的感觉模式（pattern），一种决定了古体诗“体式”的概率因素，用算法真正表征出来？甚至，所谓外在格律这样一种趋于“自动化”的作诗机制，和新诗所追求的内在音乐性又是什么关系……等等诸如此类的问题——这，就是数字人文的课题了。

算法黑箱与计算批评

换句话说，数字人文是要将计算工具的运用，合理地引入人文研究的举证、推理、分析、阐释、乃至批评环节中，这绝不是一个学科可以单向突破的，而一定是要在跨学科的碰撞中形成有价值的问题，再通过团队协作来解决，最后获得了领域内部或外部的认识更新。数字人文当然可以做得很炫，也可以做得很平实，但总体上讲，真正冲破边界的跨学科合作又是异常困难的，其难度并不亚于研发一个人工智能做诗机。这些难度不仅来自于技术操作方面（单纯的技术难题其实并不成其为一个问题），而更多的源于评价机制，以及一些必须被充分讨论的方法论和概念前提。然而现在的情况有可能是，像类似人工智能所带动的技术热点层出不穷，随潮流而动便引发了是数据驱动，模式驱动还是知识或问题驱动的问题。那么在这个过程中，人文学者的位置到底在哪？或者说，人文学者要怎样才能避免成为技术的附庸？

从这些问题出发，我认为数字人文或者文化分析（Cultural Analytics）学者，是能够通过自己的批评实践来体现人文主义的价值关怀的，这首先体现为要敢于实现一种对技术的“祛魅”，这也恰恰是提高人文学者科技素养的一种努力，或者说是为之提供了一个切口。这不仅是因为“入乎其中”才能更好的“出乎其外”，也是文学研究者力所能及的事情。怎么实现呢？简单的说就是要通过计算批评，在“远读”和人文质询的结合部发力。比如说，在这个阶段，人工智能容易引起人们不满的一点是所谓黑箱。什么意思？我们知道，谈一项数据科学的应用研究不能不谈算法，就如同理解一首诗不能越过它的语言一样。然而很多基于大数据的深度学习，其计算过程的复杂程度却是“超出人类理解的范围”的。例如，如果想研究某一时期小说中叙述网络的演变，可能首先需要把所有文本中人物对话的关系提取出来。那么怎么提才合理？当文本量较小、还局限在单一作家的范围内时，是可以通过成百上千次观察，根据情境特点设计或寻找一系列规则，来判定对话角色，再借助统计工具把文本中的全部可能性关系给“算”出来的。这是一种典型的自上而下的、一目了然的做法。但是，一旦文本量上升，扩展到成千上万部小说的时候，就有必要发明角色的自动识别工具了。此时如果不结合人工标注，单纯的无监督学习是无法胜任的，而即便基于一定的人工标注量和给定规则，也有可能会把所有句法关系一股脑地提取出来，至于计算机到底是根据一种怎样的算法来做到的，却没有人知道。单纯跟随大数据驱动提取出的关系，如果不加甄别地直接用于下一步的文学解释，将是很难形成阐释意义的，而这也是目前大量基于“共现”技术的提取有可能存在的问题。这种自下而上的、主体介入较少的做法很难不引起人们质疑。所以恰如孙茂松教授所说，黑箱对于技术探索来说可能是好事，图灵测试就是黑箱。这是因为技术突破更关心的乃是能否达到目的，成功实现了某种路径，然而在发现与阐释并重的文学研究这里，却可能是nonsense。

如何开展及其意义

那么，在高精确度的知识驱动还未能实现的当下，还要不要继续探索下去？答案是肯定的，只不过此时需考虑的是如何加入“人”的环节。这里所谓计算批评的思路，一言以蔽之，就是用“人读”的结果，来质询“机读”的结果，通过经验性的比较分析，接通更深层次上可能存在的文化因由。在此我愿意一再提及的一个例子，是用模式识别的办法对美国现代主义时期的英语俳句所做的研究。^[1]它的技术路径比较普通，就是让机器学会判定任意一首诗歌文本是“俳句”还是“非俳句”。但对两位文学研究者来说，真正的实验，却开始于如何从被机器“误判”的部分入手，来弄清楚用于识别俳句文本模式的统计学模型，怎样才能与基于文本细读的俳句本体观和历史文化解释相协调，也就是说，一旦机器出现了错误，错误就引发了一个重要的“阐释性问题”：是什么让某些诗，或者说某些特征，那么地“像俳句”？通过细查一首诗的表面，他们发现，原来算法是根据几种特定措辞和音节特征出现的概率来判定的——这在某种程度上便“破解”了算法的黑箱。破解的意义当然不是为了说明机器的局限性，而是说这些由机器创造的“潜在俳句”，恰恰给文学研究创造了一个全新的东西，它的一半是程序脚本，另一半来自既往的文学批评史，它不仅给了算法以一席之地，而且让在个别诗歌的层面看来很可能是偶然的语言特征，在散落于数十家期刊的上百首诗歌的层面上，提示了“一个共享着俳句特定要素的更广泛的文本集合”，这个集合将译作和改编中的特征模式也包容进来，提供了“既与俳句文体相关、同时又属于某些更广泛的事物的东方主义氛围”，这一氛围即是人们所想象的“流传中的文本模式”，经过此种远读式的显影，研究者便可以在更宽泛的诗学话语中考察它的社会历史影响和地位，来追索其背后隐藏的美国现代主义的文化逻辑了。

事实上，这种基于量化的文学批评，或者称计算批评（computational criticism）、算法批评（algorithm criticism）的统计学基础正是一种模型检验的“自反意识”（苏真），此做法的本质是人和算法的互动，一种强调人的意识和机器进行对话、交锋的文化批评。在一个由研究者发动的批评性环节中，一方面主体完成了对算法的质疑和检验，另一方面算法也解放了限制在原先文学史视域中的批评潜能，借助由算法产生的中介性概念，人们可以在远读和细读间回返，不断切近想要研究的问题。

提倡计算批评的出发点也是为了从根源上反对数字人文的工具化。诚如Ted Underwood指出的，我们在网络上每一次使用搜索引擎检索信息，其实都完成了一次与算法的互动。“人文主义者”通常倾向于忽略这个动作所含有的丰富意义，却不知这种轻视正埋下了工具主义的隐患。可以说那种将技术的归技术，理论的归理论，理工的归理工，人文的归人文的分野，还是对当下大行其道的工具理性习焉不察的认同。人文主义的立场无论如何都不应成为人们使用量化手段来通达问题关键的障碍，相反，真正的人文主义者甚至必须恢复“全才”的状态，这才是开展数字人文研究的意义所在。所以，如果我们太过鲜明地将数字技术划为形下之器，而将传统学问尊为形上之道，也许会更加重工具论的成色，这种观点如果不是一种策略性的提法，便有可能还是恪守精英观念的惯习。那么就此推开，在现阶段，一种落地的、真正切中要害的“人工智能批评”，不能也不该绕开算法。（责任编辑：张聪）

注释

[1] 霍伊特·朗、苏真：《文学模式识别：文本细读与机器学习之间的现代主义》，林懿译，《山东社会科学》，2016年第11期。