“大数据技术与古典文学文本研究”学术研讨会在清华大学举行

2018年12月22日下午,“大数据技术与古典文学文本研究”学术研讨会在清华大学人文学院新斋353会议室召开,来自国内十多所高校与研究机构的专家学者出席了会议。

清华大学人文学院副院长刘石教授致欢迎辞,并介绍了召开此次会议的缘由。大数据及其相应技术是现代科技发展的重大标志,利用这一技术对古代文学经典文本进行高效和深度分析,可将文学研究纳入到一个更宏观的视野,提高研究结论的精准性、稳定性及可验证性,促生新的研究理念、方法与范式。为更好地探讨大数据技术对古典文学文本研究的作用与影响,清华大学中文系特在国家社科基金重大招标项目“基于大数据技术的古代文学经典文本分析与研究”开题之际,举办此次学术研讨会。刘石教授认为,古典文学研究的发展前景与现代科学技术密切相关,当前古典文学研究界出现的一些基于大数据技术的研究成果,已引起了学者们的普遍关注。但总体来讲,学术界的普遍关注度和学者们从事这项工作的实践还不太相应,大数据对于古典文学研究的重要性尚有进一步加强重视的必要。

刘石教授

会议分为前后两场。第一场由与会专家结合各自研究领域,就“大数据技术与古典文学文本研究”问题发表看法,由清华大学马银琴教授担任主持。

中南民族大学王兆鹏教授认为应用数字技术研究文本有两个维度,一是文本挖掘,一是现场还原。文本挖掘主要是做语义检索,把文本变成一种活态的结构化数据。原来的资源库是客观的、一元的、显在的,语词都是浮在表面的,学者要做的文本挖掘是主观加客观,要标引文本的隐含意义。挖掘文本的目的,首先是要挖掘文本的人文信息,为文学研究提供大数据新史料和新视角,为文化建设提供文献支撑。文本挖掘的理论是分类建模,不同文类挖掘的内容和方向也不一样,标引重点也不同。例如,抒情性文本侧重于情感和物象类,而叙事性文本侧重于史实事件。王教授认为要通过“人工标引—机器学习—机器标引—人工校正”的模式,反复进行人工与机器的互动,最后能够完成一个比较成熟的标引系统,形成结构化的数据,从而给文学研究和历史研究提供数据的分析与可视化呈现。关于现场再现,王教授从方法论角度提出要“回归现场”,即将文献考订与现场勘察、心理分析和文本细读结合起来。当前可以用数字技术再现作品中的现场,包括创作现场与表现现场。而且这里可以借鉴刑侦学的现场仿真技术来再现当时环境。刑侦学中的仿真技术可以利用犯罪现场的几幅照片在实验室建立立体的现场环境,使得刑侦专家可以不到现场亦可对其进行远程分析。文学作品也可利用这类思路和技术,再现文学作品中的现场,这将对我们阅读古典诗词提供很大助益。

王兆鹏教授

中国社会科学院郑永晓研究员报告的题目是“当代学术研究发展的趋势与大数据技术的深度契合”。郑先生认为现在利用计算机技术来处理古文献,把大数据技术嫁接到古典文学研究中,就是陈寅恪所说的学术预流的表现。当代学术发展的趋势、学科发展的特点、学术方法创新的内在需求,与大数据技术存在内在的深度契合。首先,当代学术包括古典文学研究需要广博的学术视野,学术视野的开阔就需要利用过去很少利用或者很难利用的文献。学者在研究宏观问题的时候,通过大数据技术,可以把宏观研究建立在十分精确的微观基础之上。其次,当代学术发展的趋势是日益精细化、专门化,学者对历史细节、作家日常生活等愈加重视。沿着重视微观、重视细节的方向利用大数据,能以小见大、见微知著。第三,是不同学科的打通。打通不同学科的研究特别需要数据技术的支持,需要不同学科的文献和相关研究成果的支持。第四,比较的方法和眼光。比较法是学术研究中一个基本方法,数据技术可以方便地进行一对一或者一对多的比对,尤其是进行大范围、大规模的比较。因此,数据技术在未来学术研究中可以扮演重要角色,甚至成为传统学术发展过程中的重要组成部分。

郑永晓研究员

北京大学中文系杜晓勤教授较早就开始了中国古典诗歌声律系统的研发,他认为利用全面数据的统计,形成对诗歌某一格式、某一谱式分布情况或某一作家、某一诗体特征的整体把握,然后结合代表性作家和标志性篇章的声律具体分析,点面结合,能够使文学研究尤其诗歌体格声律研究产生质的飞跃。“中国古典诗歌声律系统”里的文本资料库基本囊括了宋前所有诗歌文献。系统分析的规则主要采用的是沈约的“八病说”以及永明体的诗律体系和近体诗的诗律体系。此系统一直在不断改进,从最初的八病标注,到近体诗律的标注,再到声律分析的准确性日益提高。影响准确性的因素主要是两个,一是文本的准确性,二是多音字的判别。该系统将要纳入更新的近体诗,乃至建立词体的韵律分析系统,并使分析结果更加准确。

杜晓勤教授

浙江大学徐永明教授报告的主题是“学术地图发布平台与关联型数据库集群”。学术地图发布平台由浙大与哈佛共建,2018年3月19号上线,到目前为止已建成300多个地图,600多个图层,40多万条数据,包括群体人物的分布、个体作家行迹、书目的定位等。这个平台不仅是数据的汇集中心,还是数据的枢纽,它可以链接到各种平台,比如出版社、虚拟博物馆等。此外,地图成果完成后,可以马上分享到各种媒体,能够及时产生影响、迅速传播。徐教授还分享了建设中国古籍的关联型数据库集群的想法。他认为后台数据必须有很多数据库集群的支撑。如《中国基本古籍库》目前可以做关键词搜索,但它并不是一个智慧型数据库。如何把一个电子文本数据库变成一个智慧型数据库,这需要我们建设大量的数据库集群,如字词数据库、直观数据库等。如果后台有这些支撑,这就变成了一个真正的智慧型古籍数据库,以后人们阅读古籍的难度会降低很多,学者们也能避免在人工查询收集文献的过程中花费大量的时间精力。

徐永明教授

首都师范大学周文业教授介绍了有关小说版本数字化的相关情况。周教授首先对小说数字化的流程进行详细展开,即先将小说不同版本的文本内容扫描成图片,随后再将它录成电子文本,构成图文对照的形式。小说的不同版本存在繁本与简本的差异,数字化的关键作用之一即在于实现不同版本内容的详细比对。而周教授展示的小说版本数字化系统目前可以提供两种比对方式,一种是分栏进行繁、简本之间的比对,另一种是逐行进行繁、简本之间的比对。周先生以《三国演义》《水浒传》《西游记》《金瓶梅》《红楼梦》等为例,直观表现出文本版本之间的异同,这不仅减省了繁琐的人力工作,而且能够收集更充分更有力的数据支撑。

周文业教授

首都师范大学尹小林教授认为大数据技术的基本在于“大数据”——数据是目前真正不可替代的要素,只有数据丰富到一定程度才能达成目标。他提到,在建设数据库的过程中可能会遇到三类问题。其一是处理文献有类有序的问题,分类代表人们的知识体系、知识构架,大数据必须涉及这个问题。其二是要处理文字有正有变的问题,古代文本有很多同音字、异体字、避讳字,没有现在所谓的规范字。此外,还有涉及到文字量的问题也必须要进行一定的处理。当计算机技术介入文本处理时,自动标点、自动排版、自动匹配等功能都可以实现,但不要追求一个百分之百正确的结论,而是要追求一个概率。大数据技术中的数据是关键,只有数据纯洁了,后面的结论才能准确。这就像化验一样的,血液被污染了,结论也就不会准确。因此,尹教授强调在使用大数据技术研究的过程中需特别注意两点,一是文本要准确,二是必须严格符合学术规范。如果在此过程中能制定出一些数据标准,将会更大地推动这一学科的发展。

尹小林教授

中文在线CBDB项目负责人朱厚权先生介绍了中文在线在数据研究开发方面的工作。首先是在线文本识别方面,目前团队已开发出一套基于繁体字的在线识别系统,测试准确率可达到94%—95%。同时该系统还增加了深度学习的技术支持,使得识别效率能够持续提高。第二是文本比对方面,比对标识功能能够为后期文本校勘工作带来一定的辅助性帮助。第三是对文学性作品中包括的人物、地点等名词标注的准确率的提升,如此能够使学者更方便地收集和分类数据。第四是目前开发的工具同时能够输出一部分可视化的成果。这样的数据开发的应用是基于群体考虑的。在这样的系统及工具的辅助下,学者可以将基础性的数据工作交给科技开发人员来做,自己则能够专注于更细微精深的研究。

第二场研讨会主要围绕国家社科基金重大招标项目“基于大数据技术的古代文学经典文本分析与研究”所涵涉的六个子课题进行,由中国社会科学院刘京臣副研究员担任主持。

清华大学刘颖教授承担的子课题是“基于计算风格学的明清小说研究”。刘教授认为计量风格学是一种宏观与微观、数据与感悟的结合。计量风格学的基础需要用复杂的检索模型,挖掘出语料库中反映的更深层的规律,但数据计量风格分析不单要做统计和检索,还要做深层的定性分析,这个定性分析需要人来感悟。统计与检索是从宏观的角度对语料库进行加工,但实际做定性分析的时候就进入了微观层面,这才更有助于把人的的感悟和大数据结合起来。计量风格学研究实际是语言学、数学和计算机科学这三个学科的紧密结合。首先,从语言学层面将文本拆分成字音、字符、词汇、句子、段落、语法、短语以及语义等层面。研究的思路是将经典文献打碎,从段落拆解为句子,从句子拆分为短语,最后划分为词。这样打碎之后,再来统计异同,可能会发现深层次的问题。其次,数学领域与数据也是紧密结合的。频率和频率分布是最简单的统计应用,但是因为不同文本规模不一样,从频率上比对是不科学的。所以需要采用假设检验和非假设检验这两种方法来判断某个字、某个词、某个短语、某个句子等在不同文本中是否有显著的差异。最后,是计算机科学与大数据的结合,即把统计的方法用在文本分类、深度学习、情感分析等算法中,再把这些算法用在风格分析中。现在计量风格分析涉及到作者归属识别、文本比对、文本自动分类等应用,过程非常广泛。

刘颖教授

中国社会科学院刘京臣老师承担的子课题是“基于复杂网络的文本与人物研究”。首先,刘老师认为学界一直在强调中国学术、中国话语和中国声音,所以做出有自己特色的数据库、数据化成果是非常迫切、非常有意义且有需求的。其次,这样一个数字化项目和工程的开展需要一个很好的团队,要有非常好的技术支撑。这个项目既有传统人文学科学者的参与和加持,同时也有语言学、统计学、计算机科学的学者参与,能够让传统学者与其他领域的专家进行面对面的无障碍交流。再次,验证旧说的意义远不如补充短板的意义更大。通过数据技术的介入得出一些翻旧书的人所不能知道的结论,得出一些学者所料想不到的东西,这一点是题中应有之意。

刘京臣老师

澳门理工大学桑海老师认为利用大数据技术,要考虑一些之前可以借鉴的思路和案例。在正式启动之前,对现有的关于数字人文和数据处理技术的相关研究进行整理和综述,以便形成共同的视野,少走一些弯路。在理念方面,需要一个更具体的定位,重点不是把这个东西做得很全面,而是要有一种进行加工和分析的能力。从学科本身的发展角度提出一些问题,围绕这些问题再建立和整理数据库,对数据进行分析和加工,这样就有可能通过阐释来解决一些问题。虽然课题本身看上去更关乎于技术层面的讨论,但根本上还是要有古典文学学科的问题意识。要用理论驱动,而不是用数据或者技术来驱动,因为技术和数据是为理论与学科发展创新做基础性和服务性的工作。因此,在工作方式上不再是一种个人性质的古典模式和传统模式,而是一种跨学科的团队合作的模式。

桑海老师

中南民族大学邵大为老师报告的题目是“数字人文浪潮下文学研究的思考——以唐宋文学编年地图为例”。邵老师认为文学研究存在两大问题:一是成果分散,一是时空分离。而地理信息系统可以解决这两个问题。一方面通过数据库可以把数据集成起来,解决了成果分散问题;另一方面通过可视化形式,把时空结合在一起,形成新的研究起点。王兆鹏先生主持的唐宋文学编年系地平台建设的中的唐宋文学编年地图有四大功能:一是可以看这个作家的一生行迹,二是看他的活动详情,三是可以浏览某一个时间在场作家,四是浏览某地在场的作家及其活动。以文学为本位,借助数字技术,不仅解决了文学研究领域中存在已久的两大问题,同时为文学研究提出了新的概念和范式。诸如系地、时空一体、全景、文学史观等概念,而且通过数据建模和信息技术,可以探索出一套撰写年谱的范式。通过可视化操作,创造性地把学术研究成果做了转化。

邵大为老师

浙江大学姜文涛老师认为在利用大数据进行研究的同时,古典文献学方面的基础非常重要,学者如果具有文献基础知识就可以知道选择数据库的局限性。数据库不能解决一切,但通过它发现新问题才是意义所在。要做好对以往技术的综述与借鉴,在项目开展的过程中也会产生出新的工具。要专注于学科领域中存在的研究问题,比如现在大家最感兴趣的问题是什么,这些问题是怎么发现的,与文本之间的关系又怎么样。从这个角度出发,不能完全抛弃旧有的方法和问题,同时运用现有技术条件和统计学方面的模型工具,才有可能提出一些传统研究方法未能提出来的问题,进而推动文学研究的新发展。

姜文涛老师

首都师范大学赵薇老师主要介绍了叙事性文本中的情节网络与人物功能的数据化。赵老师认为如何从人物关系、社会网络等文学社会学的量化特征入手,去探求中国特别是明清以来的长篇章回体小说的体式,这是问题所在。基于对话关系的社会网络分析的理论出发点是将情节设为一个系统,而人物则构成这个网络系统中的一个个节点。这种理论实际上是从结构主义角度重新定义了情节,反过来也从网络关系的角度重新定义了人物及其他可能承担的叙事功能。中国古典长篇小说常常是体量庞大、情节冗长、叙事无始无终、人物数量众多、对话连篇累牍。据此可在长篇作品的海量人物对话中,挖掘出其中最纷繁复杂的社会关系数据,从而建立关系型数据库。大规模叙事性文本中形成的人物关系网在关键节点和群体层面可能具有总体性和结构性特征。借助相应的统计手段,可考察这些特征是否随着时代、文体、地域的变化而演变,是否具有一定旨归,进而追问近代西方文化背景下的叙事或文体观,尤其是虚构作品中的人物观和角色功能都发生了哪些具体变化。等将来条件成熟,在数据库和语料库资源丰富的情况下,或许还可以发展为跨越国别文化和语际间的比较研究。这种在对话关系的基础上,根据全部情节中任意两个角色对话的情景、对话总量以及见面次数,来为二者间的网络关系加权的算法,比之前多用的简单算法更为合理。在技术方面,需要做的是将人物关系提取和计算出来,在语料库的基础上制作标注平台。如果可能的话,还可研发一种用于自动分辨和抓取小说中的说话者和主次要听话者的工具,但关键点在于如何训练机器来抓取和分辨主次要听众。

赵薇老师

安徽大学唐宸老师介绍了现地研究的方法。现地研究就是回到作品产生的现地,以科学的方法验证相关的古代文献,提供贴近诗人作品及其生活的新资讯的方法。现地研究法主要有以下几个步骤。先是要读出作品产生的原本地点,然后再是广泛收集跟它有关的文献;再是在地图上进行操作,相关地图包括谷歌地图这样的现代卫星地图,也涉及民国甚至清末的地图;继而再到现场去考察,进行地点的现场比对;最后是公开可验证的GPS数据,能够重复验证才有效。通过这些现场考察,我们可以得到大量以往人们在书斋里研究诗歌未能获得的具体知识。

唐宸老师

首都师范大学姚苏杰老师是子课题“基于文本深度挖掘的文体文类研究”的课题组成员。姚老师认为这个子课题相对是比较传统的,旨在将大数据的方法引入到传统研究中。但是,如何进行具体操作目前尚不明确,毕竟传统研究涉及到很深入的个人化的东西,因此需要借鉴其他组的研究方法或已有的研究来明确路径。

姚苏杰老师

中共中央党校孙羽津老师认为,大数据技术应该成为沟通语言学与文学研究的重要桥梁。比如,唐代古文往往以“三代两汉之书”为典范,那么,古文运动的先驱者和领导者在其创作实践中,究竟多大程度上继承了先秦两汉的文学成就?在古文家眼中,前代经典文本在思想价值层面上固然存在着“醇乎醇”“大醇小疵”“见者小”“夷狄之法”的等差,那么古文家在文学创作中是否也有相应的取舍呢?这些问题,历代学者基于文本细读作出了不同程度的回应,但时至今日,尚缺乏系统全面的量化研究。对此,我们不妨在修辞学基础上,借助大数据技术呈现《孟子》《荀子》以及二氏之书的经典表达式,探究唐代古文对前代经典文本的接受程度。对于存世作品较多的古文家,比如韩愈、柳宗元等,还可以测量个人作品与前代文本的相关度,进而在不同作家之间、某一作家与唐代古文整体风貌之间建立可视化关联,以期推进唐代古文运动及其经典文本的研究。

孙羽津老师

清华大学统计中心徐嘉泽老师介绍了新的中文分词方法。现在的古文分析缺少相应数据,而新词发现和中文分词却需要一些数据。邓柯老师研发的新的切词方法,其特点是不需要样本,是一个非监督式的学习方法。我们不需要提供一些已经分好的文章,它就可以进行分词,而且它能识别一些低频词语和短语,可以进行新词发现。这个算法它能识别出来的一些词,比如人名、官职、地质、年号,都是自动提取出来的一些词汇。

徐嘉泽老师

清华大学计算机系陈慧敏老师介绍了基于大数据的古典诗歌人工智能系统,其构建主要包括三个模块。首先是大规模古典诗歌数据库的构建。这个模块主要是想构建两个数据库,一是基于诗歌本身基础信息数据的构建,一是涉及到诗歌的评分评语以及相关知识链接的数据构建。在数据库已经构建完成的基础上,主要构建两个系统,一个是人工智能诗词创作系统,另一个是人工智能诗歌辅助系统。关于人工智能诗歌创作系统,实验室已有一些初步成果,主要是基于用户关键词的诗歌创作和基于场景模拟的诗歌创作这两部分,目前成果主要包括了绝句(藏头绝句、风格绝句)、集句诗、词的生成。现在诗歌创作系统,虽然已有一些初步成果,但和真正诗人相比,还是有一定差距。所以,这个创作系统更多是起到辅助作用。人工智能诗歌辅助系统主要分为四个方面,即基于人机交互的诗歌创作、对于诗歌创作的技术判定、内容判定以及相关的知识链接的推荐。通过几个板块的设定,以达到辅助人来作诗的目的。

陈慧敏老师


最后,郑永晓研究员和王兆鹏教授分别进行了会议总结。

郑永晓研究员提出,利用计算机技术研究古代文献,并非前无古人。无论是国外还是国内古代文学界的学者,都历经了数十年的探索过程。以前由于技术所限,数字人文研究的开展是十分艰苦的,但现在的环境不同了,技术条件有了极大的改善,同时清华大学刘石教授等专家学者组成的研究团队实力也很强大。他期望未来能看到计算机技术、数据技术与文学碰撞出更大的火花,从而推动古代文学的新学科分支取得更大成就。

王兆鹏教授在概括总结与会学者发言的基础上,提出了感想与展望。王教授认为此次会议带来了视野的冲击、方法的冲击、思想的冲击,是一个高效率、高水平、高层次的学术会议。无论是从方法思路,还是研究成果来看,这次会议都是具有前沿性和创新性的。传统的文学研究、语言学研究可以跟技术深度结合,这是前人所无法想象的。而今天,学者们不仅做到了这点,同时还产出了丰硕的成果。古典文学文本研究同大数据的结合,不仅符合当今及未来发展的趋势,同时也是古代文学研究的必然需求。大数据技术不仅能改变古代文学研究的方法,更能改变研究的理念和范式,为古代文学研究的创新提供实实在在的支撑。可以说大数据研究在古代文学研究领域的应用前景非常广阔,未来利用数据进行的古代文学研究很可能会成为一种常态。 

此外,清华大学计算机系教授、人工智能研究院常务副院长孙茂松教授,新闻出版署中华字库工程总体组副组长张力伟研究员,清华大学统计学研究中心副主任邓柯副教授,清华大学中文系李飞跃副教授,清华大学写作中心严程老师,中华字库工程项目组贺莉丽老师、严可老师,国家图书馆肖慧琛老师,以及数十位来自京内外高校的研究生也参加了本次会议。(文/清华中文系2018级博士生高明祥)