数字韩国学研究:新进展与新前沿

作者:车柱沆;转自:公众号 DH数字人文

概念与实践

车柱沆 / 韩国首尔大学自由专攻学部

刘菲英(译) / 英国伦敦大学亚非学院

任致均(校) / 美国威斯康星大学麦迪逊校区历史系

————————————

摘要:反思数字韩国学研究的过去并展望其发展前景,讨论韩国人文学科在较早采用计算机技术上的前瞻性,韩国文化遗产资料数字化的惊人速度,以及数字研究在平衡传统匠人式研究方法与现代实验研究方法上所面临的诸多挑战,重新思考数字人文中盛行的重视频率论分析和宏观角度的倾向。作者反思当前数字人文的研究倾向,并将数字韩国学研究的未来寄希望于语义网络、图数据库及人类学探求上。

关键词:数字韩国学研究 数字人文 数字档案

————————————

引言

一个世纪以前,法国历史学家马克·布洛赫(Marc Bloch)与中世纪史学家亨利·皮雷纳(Henri Pirenne)在斯德哥尔摩举行的一次会议上有过一段广为人知的对话。当布洛赫正准备去参观历史古迹和博物馆时,皮雷纳却徜徉在瑞典首都的现代化中。“如果我是一个文物收藏家,眼睛就会光盯住那些古老的东西”布洛赫记得皮雷纳这样说道,“可我是个历史学家,因此我热爱生活”。[1]在皮雷纳看来,过去并不是一个逝去时代的化石,而是与现在有着共生关系。也就是说,过去在很大程度上丰富了我们对现在的理解,也正因此我们应该从不断变化的现在出发去理解过去。在我2010年前后参加的一次讲座上,卡洛·金兹伯格(Carlo Ginzburg)曾戏谑地说道:“时代错误是历史学家最有力的工具。”

本论文探讨过去与现在之间这种时代错误式的相互作用将如何在本人的主要研究领域内创造出一种新的研究趋势:使用现代数字档案和计算机技术来进行前现代韩国学研究。至2018年,韩国已经使用前沿的数据库技术搜集、存档和整理了大量的文化遗产资料。这些数据库在政府的开放许可政策下已可公开下载。据我所知,这种非同寻常的情况,在其他任何区域研究领域都尚未发生,而这种情况也要求韩国专家学者们创造性地、反思性地考虑拥有如此大量的高质量人文数据意味着什么。这些库存要怎么整理、管理和保存?我们对韩国历史文化的现有阐释和理解将如何随着数字化和数字方法而改变?数字韩国学研究能让我们了解到由数据驱动的人文研究的哪些优势和局限?有哪些有效的方式可以将图像、录音、航拍和实物的3D扫描融入到韩国人文研究中?

第一部分

韩国学研究这个领域对数字方法给予的关注少之又少,尤其是在韩国之外的韩国学研究界。这种研究兴趣的缺乏与韩国政府在建立档案数据库上的巨额投资以及随之而来韩国学研究学者对数字化资源的依赖形成鲜明对比。最近一次亚洲研究协会(Association for Asian Studies)年会上举行了数字人文工作小组会议成立大会,我是现场60位左右与会者中唯一一位韩国学研究学者。2018年在墨西哥城举办的数字人文会议中,我也是唯一涉及韩国学研究的发言人。[2]

当然,也出现了一些鼓舞人心的好迹象。韩国学研究的图书馆学家们一直在密切关注韩国的数字化努力和数字人文。[3]在韩国学术界,韩国数字人文协会(한국 디지털 인문학 협의회)于2015年成立。个别机构中,比如韩国学中央研究院(Academy of Korean Studies),韩国外国语大学(Hankuk University of Foreign Studies)和韩国亚洲大学(Ajou University),数字人文研究的影响力也在慢慢扩大。[4]2016年,一本比较全面的入门教材出版,书中详细介绍了这一学科领域的远景、技术挑战、全球比较、教学法,同时也反思了一些失败的尝试。[5]然而,想要理解“数字人文”在韩国语境中的具体含义,不能不提到韩国国内“文化内容研究”(문화콘텐츠학)的持久影响。韩国很大一部分数字档案受到资助主要是为了增进传媒业发展,比如韩国流行音乐、电视剧、电影和电子游戏,而非为了推动人文学科的新型研究。

韩国的这一情况显示出拥有数字化资源,无论规模多大,质量多高,都不会自动通往由数字化和数字科技促成的新模式探索。数字项目不是单纯向电脑里输入文化大数据,然后等待突破性结果。很多甚至是大部分项目最终以实验失败告终,将研究人员引向未意料到也不可预料的道路上去。想要得出有意义的成果和成熟的研究离不开长年累月的训练和枯燥乏味的工作,同时也需要与信息学、计算机科学、统计学等其他相关学科开展跨学科合作。另外,数字人文学者也要学习和接受数字媒体的审美和叙事特征,比如摄影、录像、平面设计、3D模型、动画和游戏引擎等。

一旦意识到对韩国过去的研究其实在很多层面上受到现代数字技术的影响,数字韩国学研究这片尚未开垦的领域就不会那么让人望而生畏。由于数字化,我们的期待已经改变了,并且仍在持续改变中。一个很好的例子是2006年《韩国文集丛刊》(한국문집총간)线上数据库的开放,对很多韩国历史学家而言,这是一个开创性的时刻。虽然该数据库收集的1,259部韩国前现代作品中当时只有一部分可以使用,而且当时的用户界面按今天的标准来看也比较基本,[6]但我依然觉得这些资料有相当高的价值。我由此获得了价值极高的一级文献,而这些资料鉴于预算和空间限制,是当时我所在的不列颠哥伦比亚大学(University of British Columbia)所不能在图书馆书架上提供的。同样的研究,以前需要从温哥华开车三小时到位于西雅图的华盛顿大学,或者通过馆际互借的方式,等三个星期才能拿到所需要的数百份资料中的一份,现在却在任何地方都可以完成,只要我手头上有一台联网的电脑。相应地,我不再满足于一次只阅读文集中的一,而是比以前阅读得更加广泛全面。在习惯了这种在线数据库的多种关键词搜索功能以后,我开始尝试一种新方法:对二十多位学者的学术著作中与某一相对模糊晦涩的概念有关的段落做宽泛的比较分析,显而易见这种分析在没有数字化支持的前提下是很难进行的。

时间快进到2018,如今整个丛刊数据库在我笔记本电脑的固态硬盘上是一个500MB大小的Unicode文本文件。根据韩国信息化振兴院开放数据门户网站(National Information Society Agency’s Open Data Portal)上的韩国公共数据开放许可(South Korea’s Open License for Public Data)条例,这个由18,398个原始XML文件组成的数据库可以合法并免费下载。能够使用整个数据库以后,我的期待又一次开始变化。看着2017版丛刊数据库里由1.54亿字组成的557,126段文字,我开始琢磨新的研究可能性。我开始尝试运行主题模型,找出语义模式,用算法将作者和作品按照用词、风格和修辞分类。

第二部分

为了理清数字韩国学研究的源头、现在和未来,我们应该首先认识到那些走在时代之前的前人的预见性。在宋俊浩(Song June-ho, 1922-2003)[7]和爱德华·瓦格纳(Edward Wagner, 1924-2001)两位学者的开创性努力下,计算机技术在韩国学研究中的最初应用开始得很早。1959年,瓦格纳先生被聘为哈佛大学的韩国历史助理教授,那时他刚完成自己关于15至16世纪韩国政治史的博士论文。在美国任职的最初几年,瓦格纳先生在为学术研究打基础的同时也教授相关韩国学研究课程,并在1963年出版了一部用韩语写成的教材,而随后这部教材也逐渐演变成了一个三卷本的项目[8]。瓦格纳先生的下一个项目是一部收集多位在北美和欧洲的相关专家研究成果的多卷本、介绍性的韩国史,但该项目最终未成形,他随后也转向了其他研究。1964年,来自全北国立大学(Chonbuk National University)的韩国史学家宋俊浩来到哈佛燕京学社作访问学者。在为期一年的访问期间,宋俊浩说服瓦格纳用文科科举考试(munkwa)名册分析朝鲜王朝(Chosŏn, 1392-1910)的社会精英(士人)结构。那时二人均未料到这个想法会发展成为后来为人所知的应用到计算机技术的“文科项目”(Munkwa Project),也未料到他们的合作会持续将近40年之久。1966年,宋俊浩在日本开始收集考试名册[9],并在一年后成功申请到了福特基金会(Ford Foundation)的研究津贴,旨在建成数据库的文科项目由此正式开启。此次韩国学研究的新动向发生在法国历史学家伊曼诺尔·勒·罗伊(Emmanuel Le Roy)所谓的“美国挑战”(American challenge)时期,在这一时期,美国开始在大学校园里大规模普及计算机设备。[10]

图1 1970年爱德华·瓦格纳和宋俊浩及家人在韩国全州附近的一座佛寺前(照片来自Edward Wagner在哈佛大学档案里的个人档案)

文科项目启发了其他数据库档案的建立,但建成此类项目所需要的资源却是在韩国政府将数字化作为应对1997年亚洲金融危机的措施之一后才变得丰富起来。1998年,一项名为“信息化劳动项目”(정보화근로사업)的经济刺激方案在两年间支出大约2亿美元来创造48,000个白领工作岗位对文化遗产进行数字化[11]。如今,这个项目的衍生物“国家超大数据库集合”(National DB Super-collection)在“历史”(yŏksa 역사)这一门类下有31个数据库,“文化”(munhwa 문화)门类下31个数据库,“教育”(kyoyuk haksul 교육학술)门类下16个数据库。[12]除了以上78个数据库,在“科技” (kwahak kisul 과학기술)和“行业与经济”(sanŏp kyŏngje 산업경제)门类下的其他几个数据库,例如气候、公共健康、科技杂志、卫星图像、韩语与其他世界主要语言词袋模型等应该也会对人文社科研究者大有用处。从二十年前其前身“信息化劳动项目”算起,国家超大数据库集合至今已经投入了将近十亿美元。大量的公共基金仍在用于创建大型数据库上。2017年,韩国国立国语院(National Institute of Korean Language)获批1.75千万美元项目基金在五年内创建1.55千万个现代韩语词袋用于人工智能驱动的语言学分析。[13]韩国古典翻译院(Institute for the Translation of Korean Classics)每年投入2千万美元培训一个深度学习模型用来翻译《承政院日记》(The Diary of the Royal Secretariat, Sŭngjŏngwŏn ilgi)。在此之前,于2001年开始进行的对近代早期史官宫廷记录的数字化项目持续了15年,于2015年完成。这些史官记录用多达2.42亿汉文写成,覆盖1623年到1910年间的朝鲜王廷的日常事务。[14]这项庞大而艰巨的任务还包括对那些用草书和速记方式写成的资料进行识读。下一阶段的任务是将这些用朝鲜汉字写成的内容翻译成现代韩语,预计需要至少45年时间完成,鉴于项目的庞大规模,相关专家学者每翻译一页只能拿到15美元的报酬。而用深度学习的方法,翻译完成的时间被减少到了18年,一位记者还曾开玩笑地说道,如此一来这个项目每年的花费“和在首尔江南区一套一居室公寓的要价”差不多。[15]

除了得益于开端较早和拥有大量资金支持,韩国的机读档案质量也相当高。这点要归功于此领域的开拓者之一,现任韩国学中央研究院人文信息学系主任金炫(Kim Hyeon)。[16]金炫最初从事韩国的性理学研究(Neo-Confucian philosophy),1985年任职韩国科学技术研究院(Korea Institute of Science and Technology)后转入数字人文。他对信息学的最初研究兴趣包括对谚文(han’gul 한글,现代韩国表音文字)和汉字(hancha汉字,韩国书写系统中使用的汉字)进行编码。在其数字人文研究生涯中,他自始至终对科技抱着既执着而又不拘泥于教条的态度。1990年代初,新出现的只读光盘CD-ROM成为当时的大容量存储器,金炫协助建立了一个初创公司对《朝鲜王朝实录》(Annals of the Chosŏn Dynasty, Chosŏn wangjo sillok)进行史上第一次数字化处理,使得对该五千万字史料进行全文搜索成为可能。随着韩国数字设施建设进程的加快,公司随后将数据库所有权转让给了韩国国史编纂委员会(National Institute of Korean History)。在整个过程中,金炫对档案数据本体模型的重构发挥了至关重要的作用。目前《朝鲜王朝实录》的在线版本包含674个XML文档,并且每个全文条目下都附有详细的注释(见图2)。这种创新设计可以让研究者查询到朝廷记载中提到的336,267条官职记录信息,同时能够为每个条目提供引文(见图3和图4)。该XML模式的一个简化版已经被移植到前文提到的《韩国文集丛刊》数据库中,用来整理1,259位作者的作品(见图5)。

图2 带有大量XML标签的实录条目
图片
图3 徐居正(1420—1488)的官职生涯记录(由《朝鲜王朝实录》的XML文件实时查询生成)
图4 1473年正月初三徐居正任司宪府大司宪

.

图5 许筠(Hŏ Kyun, 1569-1618)诗文集《惺所覆瓿稿》数字版本的一部分

另外,韩国学研究数据库档案在数据和内容管理技术上也非常先进。除了XML以外,金炫还采用、推广和试验了维基平台、语义网、Neo4j图数据库等技术。韩国学中央研究院近期的很多韩国学研究和数字人文方面的学术项目都是以协同参与性质的维基内容形式发表,比如一年一次的中国文学资料阅读和翻译培训工作坊,以及最近的一次数字叙事会议。[17]

这些内容和各种词典、词汇索引以及其他参考资料被转换成数字形式后,会对语义属性和关系特征进行标记。这些维基发表内容嵌入了网络可视化技术,方便了相关内容的查询和导航。至于图数据库,金炫和他的学生以及他在人文信息学领域的合作者们已经展示了将如此直观、强大和灵活的数据库技术用于人文数据的数字化上的众多益处。举一个最近的成功案列,韩国学中央研究院已经将朝鲜王朝王室成员及其亲属的谱系(Sŏnwŏllok 璿源谱牒)转换成了图数据库。这个数据集包含大约596,000个节点和767,000条边,以供研究者使用(见图6)。

图6 图数据库中朝鲜王朝王室成员谱系表

第三部分

数字韩国学研究正在走向大数据时代。为了处理规模日益扩大日益复杂化的数字档案,韩国学研究需要考虑从传统匠人式研究方式到现代实验室方式的思维转变。[18]然而,绝大多数韩国学研究学者却仍然偏爱传统的研究方式:发掘前人没有使用或者很少使用的资料来对个人、地方社区和机构进行具体的、细节性的案例研究。他们认为以这种方式完成的研究成果日积月累最终会促成对韩国过去的一种新理解,这种新理解比以前的阐释更加客观,也更加忠实于一级文献所呈现的内容。总体来讲,传统匠人式的韩国学研究是建立在这样一个假设上的:案例研究遵循个体、课题和地方社区的正态分布图,无论是在朝鲜半岛还是在海外韩侨中。一些影响力较大的个体、著名的社区和重要的课题可能会受到更多的关注,但总体来说这种不均衡的情况能够得以纠正。

在今天的文化大数据时代背景下,这种假设已经被推翻。实际情况要比我们想象的更加偏离事实。伴随着一级文献的数字化,可使用的数字形式的二级文献在三大主要服务提供商的促进下也越来越多。这三大主要服务提供商分别是:KISS,DBpia和RISS。KISS自1996年以来,建成了一个收录1,387,413篇文章的期刊全文数据库。[19]DBpia自2000年以来,共收集了2,221,278篇文章、19,630本电子书和31,916部参考资料;[20]RISS自1996年以来,共收录了4,807,098篇文章和1,382,304篇学位论文。[21]调查案例研究的分布在类似宏软件的辅助下变得可能(见图7)。例如,前文提到的《韩国文集丛刊》收录了1,259位前现代韩国作者的作品,这其中有多少作者被研究过呢?通过对1450年到1750年这三百年间出生的530多位作者的一项调查,我试图大致算出可以在KISS上查找到的对每位作者的案例研究数量。查询到的结果大约有2,476条,微小误差可忽略不计。查询数据可视化后得出的结果是一张极端不平衡的、显示幂律分布的排列图(图8)。排名第一的是对韩国名声最大的儒家学者李滉(1501—1570)的案例研究,一共有578份,约占研究总数的23%。紧随其后排名第二的是在南方的曹植(1501—1572),一共有116份,约占总数的4.7%(表1)。总体来说,KISS所收录的一半相关案例研究集中在16位作者上,而80%的研究是关于531位作者中的77位(14.5%)。最让人担忧的发现是一大长串的0——根据KISS的数据,有248位作者至今没有被研究过,占总数的46.7%。再从另外一个角度计算,对其中405位作者(76.3%)的研究数量在三篇以下。当然数字不能说明一切,但这些数字确实很让人吃惊。

表1 KISS显示的对每位作者的案例研究数量及占比

图7 使用Macro Express Pro在KISS上通过批量执行高级搜索抓取文献计量数据

这种情况需要一定程度的干预。很显然,传统的人文研究方法导致了对韩国过去研究的极端分布不均。应该怎么做,做什么?我的第一反应是应该进行宏观层面上的文本分析。我跟一位从事定量研究的社会学家合作,尝试在数据中运行主题模型来发现潜在模式。结果却比预料的问题更严重。马修·约克斯(Matthew Jockers, 2013)之所以能对英国文学、爱尔兰文学和爱尔兰裔美国文学进行有效的“宏观分析”要归功于其所使用的语料库的相对一致性,而韩国文集作品却是各种散文形式与诗文形式的混合,由于汉字书写系统的超时间性,这些不同的语言形式被错误地看作具有一致性。[22]另外,在数据分割上我们也遇到了困难:中文和韩文诗歌不能被分割成单独有意义的语言单位,中国的文言文也没有现成的语法分析器。我们尝试的大部分主题模型的检索返回的都是无意义信息。用二元模型、三元模型和四元模型分割效果会好一些,但依然不能解决由于我们的数据集合的特殊属性所带来的根本性问题(图9)。

图8 KISS数据库中对1450—1750年间出生的文人案例研究排列图
图9 对数据库中1.5亿汉字运行主题模型的一次失败尝试

我尝试的另外一个策略是采用Jockers对英语语言语料库中功能词的分析方法来分析一个较小的文言文散文语料库子集[23],这些散文是以东亚文学中被称作唐宋“古文”形式写成。在一位韩国文学研究学者的帮助下,我在语料库中导入了四位17世纪初期文学家的散文作品,他们分别是:李廷龟(1564—1635),申钦(1566—1628),张维(1588—1638)和李植(1584—1647)。各取其名号的第一个字,这四位文学家[24]被合称为“月象溪泽”,以写唐宋式的风雅古文而闻名。然而李廷龟和李植的写作风格很可能受到当时在北京盛行的复古派(pokko)或者古文辞(komunsa)的影响。[25]简单而言,复古派追求将散文写得更像真正的古文,为了达到这个目的,一个方法是尽量减少使用功能词和语法助词从而让句子更加“抒情”。因此,一些常用功能词和助词在文言文散文中的缺失可以被看作是作者可能受到16世纪复古主义影响的标志。虽然此研究方法仍有待改进,但用标记工具MARKUS对“月象溪泽”四大家散文的初步分析显示出李廷龟和李植确实有减少使用功能词和语法助词的倾向,两类词在二人的散文总字数中分别占9.9%和9.7%,而在没有明显受到复古主义影响的其他作家作品中则占12%到17.7%(表2)。另外,我也在Voyant上尝试了同样的做法,但发现将文本分割成字和词的算法用的可能是现代汉语语法分析器。分析结果有很多错误,也无法关掉自动解析。

表2 李廷龟、李植等作家散文用词特征分析

图10 《韩国文集丛刊》数据库中文本的极端分布不均

对人文数据的频率分析有一定效果,但也应看到其局限性。或许通过写作习惯和影响来识别作者的策略可以通过使用现有软件工具以及创建能自动分析与比较的算法得以提升。但问题在于数据库本身呈偏态分布。在1,259位作者中,那些案例研究最多的作者其作品被保存下来的也最多。从时间轴上看,这些研究主要集中在17到18世纪。《韩国文集丛刊》1375年以前(大致对应从高丽王朝(918—1392)到朝鲜王朝的更迭时期)的文本总字数是758,687,只占数据库1.5亿总字数的5%(见图10)。使用诸如主成分分析(principal component analysis)和主题模型等方法的前提是语料库足够大,显然此类方法对朝鲜王朝时代数据的研究行之有效,但却不能用来研究高丽王朝。我个人的专业研究领域是高丽王朝,但目前我的数字项目和实验却几乎无一例外都涉及到朝鲜王朝时期的数据。

频率分析法成败掺半,这让我开始从连接的角度来思考数字方法。绕了一大圈后我又重新回到了宋俊浩和爱德华·瓦格纳在其文科项目里所要实现的目标。我也开始真正领会到金炫为什么更青睐用维基和语义网的方式来推进数字韩国学研究,以及这样做的价值。唾手可得的大量数字基础设施使得数字韩国学研究学者更倾向于进行自上而下、全知视角的观察,瓦格纳只用了两到三年的时间就完成了对14,600条考生记录的计算机化处理,并且按照住址、本贯(choronym)、数据、科考榜目等类别汇总。文科项目之所以40年仍然没有完成,是因为看见“一切”不是其目标。宋俊浩和瓦格纳想要达成的是通过将科举考生名册与大量家族谱系信息连接的方式来审视前现代韩国士人精英阶层的结构轮廓。同样,金炫的目标也是将现有韩国学研究知识库进行网络化连接从而创建出一个意在鼓励学术合作的数字化研究环境。已经参与过众多数字化项目的金炫本可以有很多追求全知的契机,但他对这方面的尝试却没有多大兴趣,为什么?

数字研究项目会激发研究者尝试一些看似奇怪的事情。2011年,金炫拿到了飞行执照。[26]是什么激励他这么做?用他自己的话说:“为了创作出能生动地捕捉韩国地方文化的超媒体内容,我才决定拿起操纵杆学习如何驾驶轻型飞机。就跟当初我成为编程师后决定拿起照相机学习拍照一样。刚开始我觉得可笑,自己都觉得有些夸张……但是,深思熟虑了三四个月后,学习驾驶飞机的理由变得更清晰了。”[27]

以前需要有飞机驾驶执照和一架飞机才能完成的任务,今天我用一架不到1000美元的无人机就能够完成。我操纵无人机和当初金炫驾驶飞机的目的都是一样的:为了探索和发现。韩国学研究所拥有的大量数字基础设施让我能够在不需要离开书桌的情况下完成一整篇学术论文。然而我却发现自己比以前任何时候都更加积极地投入到田野调查中去,虽然对于我这个研究中世纪和前现代时期的学者来说,这听上去似乎有些不合常理。我去考察安东(Andong),晋州(Chin- ju)和潭阳(Tamyang)的时候,才意识到我对自己研究对象所生活的环境了解得多么有限。我想去当地诗社文人们曾经聚集的地方亲眼看看,我想知道将在此定居的人们联系起来的共同轨迹有哪些,我想感受在这个地方不同季节的生活。最主要的是,我想要从尽可能多的不同角度去认识他们的世界,虽然我们之间有时代之隔。正是这样的欲望促使我对摄影和录像产生了浓厚的兴趣,并且想要从多个视角、用不同像幅、不同光圈的相机镜头来构建和捕捉身边的田野现场。同时,我学习操纵无人机也是为了得到一个宏观层面的视角,这种视角跟我在文本语料库中运行主题模型而得来的视角有本质的不同。我的每次新尝试都给我带来了新视野。

幸运的是,数字韩国学研究领域似乎正在向这个方向发展。也就是说,数字韩国学研究在数字档案、相机、感测器和计算机等技术的辅助下,优先弥合横亘在历史研究对象和当今研究者之间的那条生活与时代鸿沟。在这一异军突起的范例下,我们的共同追求不再是全知,而是浸入和连接。最近我受邀加入一个由学者、研究生和数据库专家组成的科研组,该科研组的目标是创建一个针对高丽王朝作家文集的引证、用典以及其他多种形式的文本重用(text-reuse)的数据库。我对此项目的第一反应是怀疑:为什么不使用文本重用算法来检测这些文本重用模式呢?但后来我逐渐被这个项目的亮点所征服。最终,此项目由拥有不同专业知识及研究兴趣的专家学者组成,而这些专家学者都有一个共同的目标:探索发现现存不多的高丽王朝时代作品(如前所述,仅占《韩国文集丛刊》数据库的5%)的新意义和关联性。能够辨别出某一典故的使用是直接引用还是间接通过其他参考资料或者影响力较大的中国作家作品而来,这样的一群专家学者是任何文本重用算法都不能替代的。自亚洲金融危机时开始的“信息化劳动项目”以来,韩国在文化遗产数字化的全面努力已有20年之久,有人担心高丽王朝时代的资料已经被数字化“穷尽”。创建文本重用数据库的想法则指出了另外一条道路,这条新的道路可以为世界其他地方及研究其他时期的数字人文学者提供另一种范例。下一代数字韩国学研究数据库将会展现一种新型的一致性,通过这种一致性我们能够追溯在时间长河中文化转变的关联性和流动性。为了达到这个目标,数字韩国学研究需要的不是从传统匠人式研究到现代实验室研究的简单转变,而是需要由这些传统研究“匠人”组成的众多实验室。从这点看,这个领域尤其需要会开着飞机出现在田野调查现场的“古怪”匠人们。

—————————————————————————————————————————————————————————————

Digital Korean Studies: Recent Advances and New Frontiers

Javier Cha

Abstract: This study aims to reflect on the past and prospects of digital Korean studies. Discussion includes the remarkably early adoption of computing in the Korean humanities, the astounding pace in which Korean heritage materials have been digitized, and the challenges of balancing artisanal and laboratory approaches to digital research. The main takeaway is to reconsider the widespread tendency in the digital humanities to privilege frequentist analysis and macro-level perspectives. It hopes to discover the future of digital Korean studies in semantic networks, graph databases and anthropological inquiries. It reconsiders the existing tendencies in the digital humanities and looks to the future of digital Korean studies.

Keywords: Digital Korean Studies; Digital Humanities; South Korea; Digital Archives

—————————————————————————————————————————————————————————————

编 辑  | 姜文涛

原文信息如下:

Javier Cha“, Digital Korean Studies: Recent Advances and New Frontiers,”Digital Library Perspectives, vol. 34, no. 3, 2018, pp.227-244. This article is published under the Creative Commons Attribution (CC BY 4.0) licence. Anyone may reproduce, distribute, translate and create derivative works of this article (for both commercial and non-commercial purposes), subject to full attribution to the original publication and authors. The full terms of this licence may be seen at http://creativecommons.org/ licences/by/4.0/legalcode. The open-access license fee has been paid for by a grant from the Office of Research Affairs at Seoul National University.

注释:

[1]Marc Bloch, The Historian’s Craft, New York: Knopf, pp.43-47. 对 Peter Putnam的原文翻译稍有改动。

[2]2018年数字人文会议日程请见:https://dh2018.adho.org/en/talleres/。

[3]2017年11月,密歇根大学举办了2017年韩国数据服务工作坊。小组讨论会的议题包括数字人文、文本挖掘、GIS和宏编程。2018年4月,哈佛燕京图书馆韩国馆藏的负责人Mikyung Kang和密歇根大学韩国学研究图书馆学家Yunah Sung参加了在斯坦福大学举行的亚洲数字人文峰会(DHAsia Summit)。莱顿大学图书馆韩国资料方面负责人Nadia Kreeft 也参与到莱顿大学的数字人文项目中。

[4]H. Kim,“Han’guk tijit’ŏl inmunhak kyoyuk ŭi hyŏnhwang kwa kwaje (The Current state of Digital Humanities Education in Korea),”Tijit’ŏl Inmunhak Immun, eds. H. Kim et al., Seoul: Hankuk University of Foreign Studies Press, 2016, pp. 385-388.

[5]H. Kim et al., Tijit’ŏl Inmunhak Immun (Digital Humanities: A Primer), Seoul: Hankuk University of Foreign Studies Press, 2016.

[6]至2005年底大约有550部文集被数字化处理,见H. Kim, Inmun Chŏngbohak ŭi Mosaek (In Search of Humanities Informatics), Sŏngnam: Puk K’oria, 2012, p. 517。

[7]MR: Song Chunho. 本文涉及到的韩国姓名使用的是其最常见的音译形式,标准的马科恩—赖肖尔罗马转写系统(McCune-Reischauer romanization)会标记“MR”。

[8]Edward Wagner, Elementary Written Korean, Cambridge: Harvard-Yenching Institute, 1963/1971, MA.

[9]请见:http://nrs.harvard.edu/urn-3:HUL.ARCH:32836464?n=2

[10]E. Ladurie,“The Historian and the Computer,”The Territory of the Historian, Chicago: University of Chicago Press, IL, 1979/1968, pp. 3-6.

[11]Kim, Inmun Chŏngbohak ŭi Mosaek, 2012, p.601; Cha“, Digital/Humanities: New Media and Old Ways in South Korea,”Asiascape: Digital Asia, 2015, vol. 2, nos. 1/2, p.139.

[12]请见:http://koreadb.data.go.kr/frt/ctl/sphereDB/selectSphereList.do?fieldCode=0

[13]请见:www.yonhapnews.co.kr/bulletin/2017/10/08/0200000000AKR20171008048600005.HTML

[14]请见:http://m.news.naver.com/read.nhn?mode=LSD&sid1=001&oid=001&aid=0007980956

[15]请见:www.seoul.co.kr/news/newsView.php?id=20160628030004

[16]MR: Kim Hyŏn.

[17]请见:http://dh.aks.ac.kr/jsg/index.php/(2016SHWJA)_%EC%97%AC%EB%A6%84_%ED%95%9C%EB%AC% B8_%EC%9B%8C%ED%81%AC%EC%83%B5_Summer_Hanmun_Workshop;http://dh.aks.ac.kr/Encyves/ wiki/index.php/Presentation

[18]数字人文需要合作,这种观念已是老生常谈。实验室的理想在《数字人文宣言2.0》(“Digital Humanities Manifesto 2.0”)中被奉为圭臬,请见:

http://humanitiesblast.com/manifesto/Manifesto_V2.pdf

[19]请见:kiss.kstudy.com/dataReport/data1.asp

[20]请见:www.dbpia.co.kr/

[21]请见:www.riss.kr/analytics/currentState.do

[22]在这个问题上,Hung曾做过详细论述,请见:F. Hung“, Orientalist Knowledge and Social Theories: China and European Conceptions of East-West Differences from 1600 to 1900,”Sociological Theory, vol. 21, no. 3, 2003, pp. 254-280。

[23]M. L. Jockers, Macroanalysis: Digital Methods and Literary History, Urbana: University of IL Press, 2013, p. 65.

[24]朝鲜文学史称为“汉文四大家”。——校对者注

[25]D. Bryant, The Great Recreation: Ho Ching-Ming (1483-1521and His World, Leiden: Brill, 2008; K. S. Chang, “Literature of the Early Ming to Mid-Ming,”Cambridge History of Chinese Literature: From 1375, eds. K. S. Chang and S. Owen, Cambridge: Cambridge University Press, 2010, pp. 28-36; K. H. Rho, 17-segi Chŏnban’gi Han Chung Munhwa Kyoryu (Korean-Chinese Cultural Interactions in the Early Seventeenth Century), P’aju: T’aehaksa, 2015; C. W. Ong, Li Mengyang, North-South Divide and Literati Learning in Ming China, Cambridge: Harvard University Asia Center, 2016, MA.

[26]H. Kim, Inmun Chŏngbohak ŭi Mosaek (In Search of Humanities Informatics), Sŏngnam: Puk K’oria, 2012.

[27]Kim, Inmun Chŏngbohak ŭi Mosaek, 2012, p. 828.

原刊《数字人文》2021年第1期,转载请联系授权。