会议回顾 | 《数字人文》专家面对面第一讲:浅谈人工智能背景下的数字人文

作者:肖爽,转自:公号 DH数字人文

2022年5月20日,由中华书局和清华大学中国古典文献研究中心联合发起的“《数字人文》专家面对面”系列讲座活动,邀请到了《数字人文》三位主编,来自清华大学的孙茂松教授、刘石教授和中华书局编审周绚隆执行董事,共同给大家带来第一讲《浅谈人工智能背景下的数字人文》。此次讲座采取线上腾讯会议与“伯鸿读书会”直播相结合的方式,共有一千两百余名师生和学者观看并参与讨论。

中华书局朱翠萍老师首先介绍了“《数字人文》专家面对面”系列讲座的活动,旨在讨论跨学科研究领域的数字人文问题,将以《数字人文》学刊发表的论文成果为线索,邀请作者亲身解读研究思路和方法,以期更多专业的人文学者关注数字人文研究成果、利用数字人文方法和手段进行学术研究。

讲座主持人、清华大学人文学院刘石教授介绍了中国数字人文的发展情况,以及《数字人文》的创刊和发展历程。他认为,计算机科学、人工智能和大数据技术的发展使得大数据时代不期而至,技术的发展倒逼我们提出更高和更激荡人心的目标。在深度学习技术的快速发展下,数字人文正在利用从数字化向知识化的转变,从简单的搜索转向更为复杂的分析与研究。《数字人文》的口号是“数字使人文更新”,这个“更”字,既是更加,也是更换的意思。数字人文技术不仅为人文研究带来新的研究材料和研究视野,而且能够更新人文研究的范式和路径。在数字时代,对数字人文的重视需要上升到文化发展战略的高度来看待。

主讲人、来自清华大学计算机科学与技术系的孙茂松教授首先简单介绍了知识的生产与传播中的一些辩证关系。他提出,知识主要由形式和内容组成,形式包括载体形式和内容形式,而知识的内容主要指知识的思想内涵。从本质上讲,内容决定了知识的深刻度和影响力,形式则对知识的传播度有巨大作用。也就是说,尽管深刻性十分重要,但它不是唯一的标准,知识传播也很有价值。

就具体的数字人文项目来说,关于项目内容的设计,个人知识和思想的深刻性起核心作用,人文主义的方法和价值观是灵魂。但相应地,项目形式的设计是一种团队合作,需要跨学科、跨领域的高水平团队密切合作。例如维基百科的词条编辑,就是一种去中心化的生产性数字人文。

追求相关知识的完备性是数字人文的必要特征之一,因为数字人文所要解决的问题是帮助人类进行人所不擅长的海量数据的处理,在人文学者常见的微观视角上增加一个宏观视角,使研究和思考更加全面。不过人文研究通常是定性分析,需要进行语义处理和理解,这种研究对象天然地不适合使用计算机去分析。与此形成鲜明对照的是计算社会科学,其研究对象通常伴有大量的结构化数据,包括统计学、数据挖掘在内的分析手段比较成熟,所以它的发展就相对顺畅。怎样把人文原始材料提炼转化为适合计算机分析的对象,以及怎样利用计算机的分析结果来辅助解决人文问题,是数字人文所面临的挑战。

数字人文所使用的计算机技术涉及的面很广,但可归纳为若干类。从历时角度讲,早期的工作是针对文本,后来逐步扩大到图像、视频、语音、3D等。最早的数字人文工作非常基本、简单,主要是将人文材料数字化,构建数字人文研究的资源基础(这催生了后来的OCR技术),以及利用计算机对已数字化了的文献著作自动建立索引。紧接着是词搜索、排序、词频统计等技术,后来随着计算机相关学科分支的发展,又生发出聚类分析、主题分析、标签标注、自然语言文本分析等与内容有关的分析方法以及可视化设计等数据呈现方法。近些年来,图像、视频、语音以及多模态联合分析方法也取得了长足进步。但总的来说,上述技术手段对内容语义的理解能力存在天然不足,完全解决语义问题目前看是不可能的。现有数字人文项目的经验告诉我们,人工对数据的加工越多,数字人文研究的效果就越好。不过通常数字人文技术主要用于帮助人类专家从难以驾驭的超大规模数字化人文材料中分析宏观趋势,因此语义分析的准确率即使只有七八成,也是很有参考价值的。

接着孙茂松教授介绍了体现目前世界人工智能最新前沿技术发展的、同时对数字人文发展应该会起到促进作用的两种大规模语言模型,其特点都是只要给计算机输入足够量的文本,计算机便能在无需任何人工标注的条件下进行无监督自动学习,记忆并归纳学习所有文献内容:一种是以GPT-3为代表的生成模型,在训练时根据已知句子上文自动补充下文。另一种是以BERT为代表的理解模型,在训练时根据已知句子的上下文,对其中任意掩蔽的部分内容进行完型填充预测。这两个模型都能自动习得每个词的词向量,借助于词向量之间的远近程度可发现任意两个词之间的隐含关系,例如两个词向量比较接近,通常视为同义词或近义词。在词向量分析的基础上,可以进一步得到句向量,从而计算出任意两个句子之间的相似度,实现以简驭繁、全息互联。词向量和句向量的计算可自然推广到跨跨语言环境中,从而打通多语言空间。

图1:词向量可揭示词之间的隐含关系
(引自http://jalammar.github.io/illustrated-word2vec/)

深度学习算法主要有两大类:一类是卷积神经网络(CNN),主要用于图像理解;另一类是循环神经网络(RNN)主要用于语言理解。深度学习算法所采用的深层神经网络,结构简洁,规模复杂。神经元节点之间连接的权重最开始都是随机生成的,随后根据训练数据的误差进行梯度反向传播,重新调整权重来降低误差,循环往复,直到训练结果趋于稳定。数学上已经证明,只要神经网络模型规模足够大,就能够逼近求解任何分类问题。同时还有一条基本法则:要训练出规模足够大的好模型,一定要有足够大的训练数据量,两者互为依存、互为条件。深度学习算法和大数据在这个意义上实现了高度的对立统一。

图2:结构简洁、规模复杂的深层神经网络
(引自https://www.v7labs.com/blog/convolutional-neural-networks-guide)

深度学习的技术发展目前相当成熟,已经工具化了,能够方便地供研究者使用。人文学者只需要了解简单的工作原理,学会基本的训练操作过程和一些参数调整技巧,搜集、整理出所需数据,就可以使用模型来分析,辅助自己的研究。

深度学习技术在数字人文领域内可以有很多应用。最早进入公众视野的是人工智能写诗,其基本过程是循环神经网络对大量已有诗歌数据进行自动分析,通过其内置的注意力机制算出已生成上文中每个字的重要性,对产生下一个字的概率进行预测。依此逐字向前推进,写出诗歌。所生成诗句的通顺性乃至所生成整首诗的整体一致性是上述机制重点考量的因素。就现有结果而言,计算机在生成短文本方面的性能可圈可点,例如“九歌”对对子,或者是生成集句诗,即从历史文本中寻找已有语义类似的句子来匹配组合,都有不错的表现。但对于生成长文本,如短篇小说、散文等,能力还很差。最近有西方学者对计算机写诗质量进行严肃认真的评价,实验设置为:人从计算机自动生成的诗中挑选若干首,再同人写的若干首诗混起来,让其他被试去甄别哪些诗是计算机写的,哪些诗是人写的。结论是被试难以区分,这表明计算机生成的诗已经差不多可以以假乱真。但该实验观察也表明,被试对计算机所写诗的喜爱度明显低于人写的诗。这里面还涉及一个十分复杂、深刻的问题,即计算机写诗能否具有文学所追求的创新性?从深度学习的机制来看,应该说是有可能的,其原理是基于古代诗歌之大数据,可望让计算机习得古人诗歌各种规律所决定的可能生成空间。这个空间是十分巨大的,古人已经写出来的诗歌,或许只是这个可能空间中的很小一部分,剩余部分应该会有一定机会展现出文学新意。当然,这也取决于智能算法是否足够高明,否则很容易落入已有诗歌的模仿和拼凑的“信息茧房”中。如果采用“机生成+人修改”模式,创新效果更便于发挥出来。深度学习在数字人文的其他应用还有很多,例如生成绘画作品、根据句子生成图像、机器人绘画、AI作曲等等。

图3:一个基于改进注意力机制的计算机诗歌生成基本模型
(引自清华大学矣晓沅的博士学位论文)

不过数字人文更重要的是解决学术研究的痛点问题,这方面还需要大力开拓,成功的案例尚不太多。最近国外有一个典型工作,通过深度学习技术对古代碑刻内容进行识别和分析,要点是对残缺部分进行合理补充(类似BERT的机制),同时通过文献推断石碑的时代和地点等,其效果显著好于人类专家,如果人机结合,效果更好。这个工作对我们开展数字人文研究有启发性。

当然关于数字人文还有很多其他问题,例如数字人文中的伦理道德问题:计算机产生的“虚情假意”的艺术能被人类接受吗?或者人类对数字艺术的宽容度问题:人类能够接受受机器启发或者人机共同产生的艺术吗?这些问题有待更多学者探讨。

最后,孙茂松教授总结道,深度学习本质上并没有理解语义,深度学习机制,看穿了就是神经元节点和连接神经元节点之间的权重,其行为呈现出某种智能,但内在机理上却完全没有智能。只有密切结合数字人文的具体问题,妥善使用它,才能够解决一些问题。归根结底,数字人文的核心还是具有深刻性的人文研究,受囿于人工智能技术的局限性,要达到这个目标,依然任重道远。不过,数字人文与人工智能技术的结合在促进文化思想传播方面的巨大作用,倒是顺水推舟的。

讲座结束后,中华书局执行董事周绚隆进行了简短的评议。他十分肯定孙茂松教授的观点,认为文献研究已经自觉或不自觉地借用了一些数字人文的技术和成果,例如爱如生、超星、四库全书等数据库。当然他也认同,数字技术是基于历史数据的,不能完全解决语义问题,也不能从根本上实现巨大的突破和创新。但人文创作却需要背叛历史,不断寻求创新。在这方面,人文学术有着数字技术所不能达到的深度和高度。

关于数字人文对学术的影响,他提出,从出版的角度看,近些年来,无论是论文还是书稿,篇幅都比以前要长很多,一个主要原因是目前的可用资料更多了,研究的内容自然也多了。但如果仅仅把数据库和分析工具的结果不假思索地拿来应用到研究成果上,是十分不可取的。基于数据库的分析结果一定要经过人的干预,剔除无用和垃圾信息,基于人的研究和需求,寻求和使用有针对性的数据和材料。

他强调,对完全不了解计算机技术的人文学者来说,孙茂松教授介绍的方法和案例深入浅出,启发性很大。数字人文不是一种学科,而是一种方法,一种意识,有了人文阅读和学习,再通过工具来拓展视野,确实能够提出一些需求,改变一些认识,也能够为人文研究提供新的研究方法和角度。

在提问环节,听众提出了不少有针对性的问题,孙茂松教授也一一做了精彩的解答。

最后,刘石教授总结道,数字人文是工程性项目,需要合作,需要大量的人力与财力的投入,期待通过此次讲座,能有更多人关注数字人文,关注《数字人文》杂志、网站(www.dhlib.cn)以及公众号(DH数字人文),还有即将上线的璇琮数字人文智慧平台,以及古联公司推出的OCR识别系统(ocr.ancientbooks.cn)。当然,更重要是的是期待能够有更多的人投入到数字人文相关研究中,共同为中国的数字人文发展作出贡献。

回放平台:“伯鸿读书会”微信小程序

转载请联系公众号DH数字人文授权。