走进数字人文——爱尔兰科克大学“数字人文导论”课程纪要

作者:肖爽;转自:公众号 DH数字人文

DH资讯

肖爽 / 爱尔兰科克大学数字艺术与人文系

————————————

2020年7月,受上海大学国际化小学期邀请,爱尔兰科克大学数字艺术与人文系负责人Orla Murphy和James O’Sullivan联袂在zoom课堂为本科生上了一门名为“数字人文导论”的课程。为期两周的课程不仅介绍了数字人文的发展现状、研究成果,还带领学生实际参与数字人文研究,使用计算机工具进行简单的文本分析和HTML网页的编写。此外,该课程由BiliBili账号“上大文艺学”全程视频直播,让更多人可以加入课程学习中,最高同时观众量达三千多人。该课程的成功举办,不仅反映了国内现阶段关注数字人文的学生和学者越来越多,同时也反映出国内目前数字人文导论性课程的缺口亟待弥补。

一、数字人文的历史发展与研究现状

该课程主要分为两个部分,一是数字人文的历史发展与研究现状,二是数字人文的实践技术。数字人文的发展史绕不开文字文本的发展,从石刻文本、丝绸文本到纸质文本,信息的存储与传播是逐步发展的。尤其是到了信息时代,知识可以从网络自由地分享和获取,带来获取知识的公平性的同时,也为数字人文的发展提供了有利的资源和技术保障。不过更复杂的问题也随之而来。首先,知识的共享降低了对版权的重视,学术研究者得不到应有的回报。其次,大量的知识广泛传播,不免良莠不齐,知识的权威性得不到保证。除此之外,知识的获取与分享虽披着公平的外衣,但背后也有一套权力话语的运作。

数字人文研究需要数据的“开放获取”,因此就需要有公平(FAIR)原则。它是“可被发现的”(F),即每一个(元)数据都需要被分配一个唯一且永久的标识符,方便数据在资源库中被搜索到。它是“可访问的”(A),即(元)数据要使用一种正式的、可访问的、共享的和广泛适用的语言来表示知识。它是“可互相操作的”(I),即(元)数据可以公告使用标准化通信协议的标志符检索,该协议是开放的、免费的和普遍实现的,且允许在必要时进行身份验证和授权。即使数据不可再用,也可以访问元数据。它是“可重用的”(R),即(元)数据可以通过一个清晰和可访问的数据使用许可证来进行发布。例如“都柏林核心”(Dublin Core)就是一种元数据标准,而数据库“Omeka”使用的就是都柏林核心的标准。

除历史、哲学、文学、艺术史和语言等人文学科之外,数字人文几乎在目前其他各个人文和社会科学领域内都有发展。数字人文研究,总的来说就是提出数字人文的问题——在数字世界里人文是什么——并抵制“技术既定事实”。而在所面对的具体的不同学科领域中,则是在出现新问题时提出新问题,回答一些(以前)无法回答的问题。例如爱尔兰本地的例子“Skellig Michael”,还有爱尔兰发现计划—欧盟3D图标计划[1]。还有重建考古学,将断裂的部分重新组装起来,例如雅典娜研究中心[2]。数字人文也为艺术带来了更多创意,例如电子文学组织中的艺术展览[3]。此外,科克大学数字艺术与人文系也有自己的学术交流座谈会,本系老师、校内外合作团队以及在读的博士研究生们,会轮流主讲自己的研究课题,内容涉及多个学科[4]

二、两种简单的数字人文技术

(一)HTML创建除对数字人文有一个概念性的了解,本课程还简单介绍了数字人文的两种技术——HTML创建和文本分析。HTML是数字人文研究成果的一种重要的呈现形式,也是依托互联网技术发展而来的。网络之所以存在,是因为网络上的计算机之间有程序进行通信。而创建机器可读性的文本,即HTML(超文本标记语言),并使其在计算机间能够有序传播交流,是数字人文的一项重要工作。

HTML的编写非常简单,只需要一个基本的编辑器,Windows系统上的“记事本”和MacOS系统上的“文本编辑”都可以。代码指令是左对齐纵向排列,在尖括号(〈〉)内写上指令的类型,结束时指令需加上“/”。代码写完之后,只需将文件类型保存为HTML即可。在课程中,Orla Murphy引导学生先分享并分析自己喜欢的网页,学习其网页设计的风格,如位置安排、色彩搭配、整体结构与布局等,然后根据自己的兴趣设计自己的网页。网页中包含插入文字、图片、音频、视频、链接等多种元素,并可以在“codepen”上检查自己的代码是否有误。

(二)文本分析

除了HTML的编写,文本分析也是数字人文研究的重要领域之一。任何使用文字交流的内容,如小说、信件、网页、电影、推特、T恤标语、浴室涂鸦等等,都是文本。文本分析就是对文本的分析和解释,进而通过文本来理解文化。传统来说,对文本的分析并不依赖计算机。但随着信息技术的发展,利用计算机进行文本分析,可以为我们提供更多便利,如对单一文本的视觉化呈现,选择特征来表示文本,识别文本中独特的语汇,发现或整合作品,为文学形式或类型建模,为社会边界(social boundaries)建模,进行无监督建模等。掌握文本分析,能够帮助我们更快更容易地研究问题,也能够提出更多新的、不同的问题,这也意味着带来了更大的任务量。

关于文本分析,有一个不得不提到的关键术语——“远读”(Distant Reading)。顾名思义,与对个别文本细致分析的“细读”相对应,“远读”是通过对大量文本的分析,对作品表现手法、主题、价值倾向、类型和体系等整体性问题进行分析研究。其特点显而易见:它能通过定量证据来支持定性的结论;以超越人工的阅读量进行“大”数据分析;识别不可预见的趋势;用数字方法对研究结果进行解释和呈现。同时它也有一些不可避免的缺陷:计算机只能进行文本解析,并不能“读懂”文本;研究方法与语境脱离;文本并不总是遵循一套严格的规则,而计算机分析是使用规则分析;远读得到的结论,其权威性并不能得到完全认可;远读是由工具驱动的研究,并不是从问题出发;远读需要掌握较为专业的计算机技术,并不是所有文学研究者都具备;远读实际上是将人文学科科学化,但毕竟文学不是数据。

进行文本分析还需要注意一些重要的“黄金法则”。首先,对文本问题的分析应由问题出发,在解决问题的过程中寻找合适的工具和技术,而不是技术决定问题。在使用计算机分析文本的过程中,如果得到一些意想不到的结论,有可能是发现了新的问题,也有很大可能是分析出错了,因为文本分析的数据质量和分析过程的精准度极大地影响了结论。同样,在选取研究工具时,要选取有较强且活跃的团队支持的工具,并且在可预见范围内能够持续运作。该课程提到了两种文本分析的具体研究方法,第一种是计算机文体学分析。

计算机分析文体学的目的是寻找与写作和阅读过程相关联的语言模式,从而在更广泛的意义上找到与“风格”相关联的模式。根据观察,作者倾向于以相对一致、可识别和独特的方式写作。有些人写短句,而另一些人更喜欢由许多从句组成的长段文字。没有两个人会以完全相同的方式使用分号、破折号和其他标点符号。Zipf定律告诉我们,在大量的单词样本中,任何一个单词的频率都与它在频率表中的排名成反比,所以词数n的频率与1/n成正比。虚词只在句子中起到一些语法作用,而不产生任何语汇意义,因此它们的出现频率能够抵抗作者有意的操纵,也就能显示出作者在各种文本中保持的相对恒定的习惯。因此,虚词成为我们分析文体风格的有效切入点。

Burrows将delta定义为“距离测量”,而距离函数确定了集合中一对元素之间的距离(欧几里得距离:用于计算通过空间的最短可能路径)。具体来说,文档表示的起点是文本的“单词包”模型。也就是说,我们计算每个单词形式在每个文档中出现的频率。然后,单词计数被转换为相对频率,以补偿不同的文本长度。为了进一步处理,选择整个语料库中出现频率最高的n个不同单词。然后对单词频率进行“标准化”,例如对频率进行标准化,使得在整个语料库中,每个单词的均值为0,标准差为1(结果也称为“z-score”)。标准偏差表示一组数据如何从平均值展开,标准偏差低意味着大多数数字接近平均值,而标准偏差高则意味着数字分散。对词频进行标准化,降低了得分最高的单词的影响:由于单词频率遵循Zipf定律所描述的分布,除了几个得分最高的单词之外,距离几乎不会受到任何因素的影响。接着,创建一个包含所有这些标准化分数的文档向量,并使用这些分数计算距离,确定距离最近、最具有代表性的语汇。因为虚词能够显示作者稳定的写作习惯,只要我们计算出文本中虚词的平均值,那么通过比较虚词的平均值就可以衡量文本之间的相似性,确定其作者风格。

第二种研究方法是主题建模。主题建模提供了一套算法来发现大量文本中隐藏的主题结构,但我们不需要提前确定主题,也不需要费力地根据它们来编码每一个文档。主题建模算法的结果可以用于对一个语料库进行总结、可视化探索和理论化。具体来说,首先是计算出一些经常出现的术语的频率,包括其术语频率(文档中一个单词出现的频率)和文档频率(一个单词在一组文档中的频率)。权重是基于单词出现的次数,出现10次的单词比出现一次的单词重x10倍。如果一个单词有很高的术语频率,但是文档频率很低,就证明该单词可能与该文档的内容有很大关系,因为它在一个文档中多次出现,而不是在所有文档中都高频出现。我们知道,在计算机历史词条中排名最靠前的单词应该是“the”“and”等虚词,而不是“turing”“computer”等实词。因此我们需要根据单词在较大语料库中对特定文档的特殊程度对单词进行评分,并进行数据清理,而术语频率与文档频率的对比(term frequency–inverse document frequency,简称tf-idf)对此很有帮助。

主题建模可以帮助进行文本分析和写作指导。假设你想写一篇关于数字人文的新文章。首先,需要弄清楚文章将包含哪些主题,它可能大量借鉴了历史、数字化、文本分析等内容主题,也可能从其他大量的主题中汲取所需,比如跨学科性学术等。然后给这些主题分配权重,例如22%是关于数字化的,19%是关于历史的,等等。接着,将每个主题内高频且有意义的语汇统计出来,就建立起了关于数字人文的主题模型,这就是目前数字人文正在关注的热点问题,同时给写作提示了一定的方向和范围。因此,主题建模是先将文档分解成主题,再将主题分解成组成主题的单词,而不是选择组成文档主题的单词。当然,主题模型可以通过“训练”变得更好,文档越多,主题模型就越稳定,得到的主题就更加一致。

数字人文目前正在国内外蓬勃发展,因此其涉及的研究领域、技术方法也层出不穷。对于数字人文导论性课程教学来说,一方面要介绍其发展历史与研究现状,使初学者对这个新的领域有一个总体的了解;另一方面,应选取一些简单易懂的、相对好上手的数字人文研究方法与技术,使初学者能够更快地参与到其中,并感受到数字技术在人文研究中的魅力,吸引更多的学生和研究者。借此也呼吁更多的高校开展类似的数字人文导论性课程,为中国数字人文的发展注入更多新鲜的血液。

编 辑  | 桑海

注释:

[1]3D ICONS program EU, https://sketchfab.com/3d-models/skellig-michael-monastery-pointcloud-low- res-6e3a267a035740039289c601ce7c729b 和https://skfb.ly/BZnU.

[2]Athena Research Centre, Xanthi, COSCHbook.wordpress.com.

[3]ELO, Electronic Literature Organization, https://projects.cah.ucf.edu/mediaartsexhibits/uncontinuity/.

[4]UCCDH Colloquium, https://uccdh.com/uccdh-research-colloquium-19-20/.

原刊《数字人文》2020年第3期,转载请联系授权。