第一届中大史学与数字人文工作坊纪要

(中大历史学系公众号消息)2021年6月19日,中山大学历史学系、中山大学广州口岸史研究基地在广州校区南校园模范村521栋二楼讲学厅举办了“数字技术与商业档案——第一届中大史学与数字人文工作坊”,邀请多位包括中山大学历史学系、博雅学院、信息管理学院、社会学与人类学学院以及图书馆等校内多机构的老师与学生,以及英国牛津大学的在读博士生,共同讨论数字人文的应用与实践问题。由于疫情的原因,此次工作坊采取线上线下相结合的方式举行。

工作坊由中山大学历史学系副主任江滢河教授主持,历史学系系主任谢湜教授在开幕式上致辞,指出中山大学历史学系具有数字人文的传统,二十年前历史学系就率先利用BBS空间在不同校区架构起沟通的桥梁和学术研讨的平台,近几年中大图书馆也在积极推进数字人文的建设。谢主任重点阐述了数字人文的三个方面,一是数字人文已经是全球学术界的大趋势;二是数字人文虽然能够运用计算机技术代替以往繁琐的体力劳动,但并不能够代替学者的创造性思想活动;三是相关史学数据仍亟待发掘,数字人文仍有很大的探索空间。

此次工作坊主要邀请了包括博士研究生、硕士研究生和本科生在内的,来自不同学院的同学,分两组分别介绍了数字技术以及尝试利用数字技术处理商业档案和史学文献的初步尝试的心得体会。

中山大学退休教授范岱克教授身在澳门,无法亲临现场,他在线进行了题为“搜集何种数据”的主题发言。首先,他围绕科技的发展回顾了自上世纪八十年代以来数据处理方式的变化,认为虽然处理数据的载体发生了变化,但搜集和管理数据的形式并未发生改变。随后,范老师以自己的著作《广州贸易》(The Canton Trade)的材料搜集为例,介绍了他在思路上的转变过程。他认为搜集和研读材料的过程不能是“要求材料提供我想要的信息”,而是“让材料自己说话”。他指出,倘若研究者能在研究的过程中扩大自身的关注点和框架,而不是拘泥于预先规定好的主题,其研究便能具有更多的可能性。最后,范岱克教授以其亲身经验为例,介绍了他的文献管理和分类方法,认为材料搜集和整理越有条理性和系统性,便越能找到有学术意义和价值的研究主题。

工作坊第一组由赵芙蝶和粟静进行报告。这两位同学由于不在广州南校园,均在线参加此次工作坊。

赵芙蝶(牛津大学历史学系博士研究生)从数字人文与维基数据的关系出发,介绍了维基数据的形成过程及其在历史研究中的价值。首先,她在介绍维基数据各板块和条目的内容的基础上,指出维基数据是一个免费的世界性、多语种辅助数据库,用于收集结构化的数据。其次,她以维基数据与历史中国领域的互动为例,介绍了数字人文与维基数据二者的连结项目,指出维基百科的目的是通过关联开放数据(linked open data),将相关条目的所有数据均纳入进系统之中,便于搜索。因此她重点强调了维基数据所具有的巨大探索性搜索的价值。最后,在维基数据的信息可靠性问题上,她在评价标准、数据类型、数据所有者及用途等方面作了区分。

粟静(中山大学信息管理学院本科生)以Neo4j图数据库为对象,介绍了neo4j图数据库的使用与实际应用。首先,她介绍了该数据库的主要构建模块、安装与配置流程、启动与切换方法、数据浏览器界面及其查询语言“Cypher”。接着,她简单介绍了CQL命令的语法与功能。同时,她列举了CQL函数里常用的几种函数:字符串函数、聚合函数与关系函数。最后,她指出neo4j图数据库的应用前景,论述了批量数据导入neo4图数据库的五种方式,并比较了它们的优缺点。

第二组则由张琦、孙睿、黄夏东和郑昭宇等四位现场进行报告。

张琦(中山大学社会与人类学学院博士研究生)围绕“社会科学中的文本量化分析技术”,介绍了几种文本划分类型、文本性质、获取途径和相应的分析技术。她认为文本可以按数据结构与文本长度进行划分。接着,她讲述了文本分析模型的一般流程和文本分析方法。她将建立模型的流程分为四步,分别是获取文本、分词、将词数量化,最后通过诸如情感分析等方法建立相应的模型。

孙睿(中山大学博雅学院本科生)以历史研究为中心,介绍了python的数据处理与可视化。他分别就古汉语自然语言处理、空间信息可视化,以及python的学习用途等方面作了讨论。他首先从自然语言处理(NLP)这一概念引入,结合具体的案例介绍了自然语言处理的常见功能及应用。接着,他论述了历史学与自然语言处理的关系以及古汉语自然语言处理所面临的困难,同时指出了Python对于人文研究的意义和作用。在空间信息可视化方面,孙睿列举了诸如中国历史地理信息系统等将历史地图与历史资料进行整合的相关资料库。对此,他指出这些地图或资料库实现了历史信息的可视化,但其整合程度和实现的方法还有很大的可探索空间。Python因其具有丰富的支持空间信息可视化的库,是实现空间信息可视化的有力工具,在历史研究方面有较大的探索空间。最后,孙睿以清代考据派的脉络图为例,展示了Python在整合人物信息和关系方面所能发挥的巨大效用。

黄夏东(中山大学历史学系硕士研究生)向大家介绍了文献管理软件Zotero的应用。他首先从自己搜集和阅读文献的心得切入,认为在当下信息过载的时代,人文学科的学生需要一种更系统的文献管理方法,而Zotero软件是一个不错的选择。他结合具体案例展示了Zotero软件的相关功能,如一键导入文献信息、多级分类、云分享、笔记功能等。

郑昭宇(中山大学历史学系博士研究生)的报告,从其对美国散商文件的阅读情况以及对已有数据库相关史料的二次整理研究成果出发,介绍了19世纪美国商业档案的整理构想,由此介绍了自己使用Access软件整理材料的心得。首先,他指出诸如AMD全文数据库虽然提供了翔实资料,却并不能直观地显示所收录档案中相关人物及其关系、地理活动范围等详细信息,需要使用者自己进行细化整理。他以丝绸信息的整理为例,说明了使用Access整理材料的便利,而阐述了他受中国历代人物传记数据库(CBDB)的启发所引起的对建立商业档案与散商关系网络的思考。他的数据整理实践就是通过将商业文献的相关信息录入Access,由此建立数据之间的联系,进而以人物为中心,通过人物的身份信息和活动类型对所收集的文献进行处理,这样既减少了重复的录入工作,又能快速地发现各种信息之间的联系。

各位同学报告之后,在座的各位老师和学者均表达了自己看法。中山大学图书馆王蕾副馆长首先肯定了这次活动对于促进中大数字人文的意义。她指出,目前数字人文还处在探索阶段,但数据的关联性分析、数据的可视化等方面无疑是明确的发展方向。费晟老师指出这次活动讨论的内容更多的是如何走进数字人文。他认为走进数字人文的渠道也许越来越多元,但同时也需要继续思考数字人文中史学家的位置,尤其是在用工具整理史料的过程中,数字人文要如何给出一个具体的方案,这些都是需要探讨的问题。程方老师授认为此次讨论的内容多围绕在怎样接近数字人文的问题上。他指出,当前许多数字人文项目仍处在积累和建设阶段,数字人文的落脚点最终还是要落在“人文”上,然而目前“数字”占了更大的比重。郭丽娜老师认为数字人文应落在“人文”上,其意义在于帮助研究者减少繁琐的重复工作,提高搜集、整理史料的效率。周湘老师肯定了此次工作坊的意义,鼓励同学们继续举办类似的活动,以此拓宽视野、建立学术交流。她还介绍了此次工作坊是在以往手稿阅读工作坊的基础上举行的,需要藉助数字人文的辅助性工具,推进手稿阅读的发展。周湘老师希望更多年轻的同学来参与这样的活动。范岱克教授在线发言,表示数字人文作为一项技术,为研究者处理文献提供了更多元的解决方法,确实能对研究起到一定的促进作用。不过,有些技术对于人文学科的学者来说,可能过于复杂,需要花费大量时间进行学习和掌握。江滢河老师指出中山大学的图书馆资源为数字人文与历史学研究提供的有利条件,肯定此次报告的同学利用中大所有的资源所作出的示范。谢湜老师对工作坊所有报告的内容表示肯定,认为同学们介绍了很多重要的基础性技术,如计算机的图像识别技术,其图像识别的功能为研究者处理非文字材料提供了更多的渠道和可能性。最后,在场的老师与同学对继续举办第二届数字人文工作坊的纷纷表示了热切的期待。(撰稿 / 陈映滨)