[清华]“古代文史的结构化数据及智慧化数据建设”讲座

(新斋日新 消息)2021年4月9日下午,“傅璇琮学术讲座”第二十讲在清华大学蒙民伟人文楼124室举行。应清华大学中文系邀请,浙江大学人文学院教授徐永明老师作了题为“古代文史的结构化数据及智慧化数据建设”的主题讲座。此次讲座由清华大学中文系刘石教授主持,中文在线朱厚权老师、清华大学图书馆任平老师、中文系李飞跃老师、“水木学者”博士后张思静老师及数十名校内外师生出席。

刘石老师首先对徐永明老师的到来表示欢迎,并简要介绍了徐老师在古籍结构化与数字化整理、智慧化数据平台建设等领域做出的成就。徐老师指出,21世纪是数字化走向数据库化进而走向智能化的时代。目前世界各国都在加紧本国文献数字化,并在此基础上进行数据挖掘,建立各种类型的新一代数据库。

徐永明老师首先简要介绍了传统纸质文献的分类。传统纸质文献分为原生态古籍、影印古籍、整理古籍三类。《中国古籍总目》记录在册的有177107种,包括经部15144种、史部66502种、子部38298种、集部54889种、丛部2274种。此外,中国古籍普查项目仍在进行,现存古籍总量实际远超《总目》记载数量。

徐老师详细介绍了数字化古籍,包括可以全文检索的数码格式与图片扫描格式。目前已经完成扫描古籍大约8-10万种,其中从图片转化为可检索文本的约有4-5万种,占全部古籍的很少部分,古籍扫描与文本化工作还任重道远。不过,逐渐成熟的OCR技术将大大加快这一进程。包括“书同文”云端识别平台、 阿里达摩院“读光”汉典重光古籍数字化平台、汉王、腾讯、龙泉寺、百度,以及浙大计算机团队等都在推进。机器自动识别技术使文本转化可与扫描同步进行,识别准确率可达92%,将大幅提高古籍数字化程度。目前可全文检索的数据库包括四库全书、四部丛刊、中国基本古籍库(收录古籍一万多种)、鼎秀(收录古籍两万多种)等。但这些数据库后台缺少完整的知识体系支撑,还不属于智能化或智慧化数据。其与纸质文献的区别主要在于可进行全文检索与定位查询。如果使用Emeditor、Ftplist、everything-1.2.0.323b、Listary等全文搜索软件对电脑文件进行关键词检索或正则表达式查询,就可以将自己的电脑也变成一个数据库,极大提高资料检索搜集的效率。

徐老师介绍和展示了结构化数据。结构化数据以Excel、access等文件形式为载体,具有数字化古籍所不具备的计量统计、定位查询、社会网络分析、可视化等功能。徐老师以结构化数据的重要代表——哈佛大学中国历代人物传记资料库(CBDB)为例,对其网页版、单机版分别作了展示。CBDB是基于实体模型建立起的相互关联的数据库,目前收录信息417382人。其基本数据可用于群体统计分析,如展示古代人物卒年分布等;存为Gephi、Pajek格式可以将社会网络关系可视化呈现,直观反映人物交游范围、关系亲疏、影响力大小等;存为GIS可以在地图上进行可视化呈现,以及地理空间分析,如唐代精英与北宋进士籍贯对比可以呈现精英分布格局的变迁,宋代进士籍贯与人口分布对比可以呈现不同地区精英率的差异等。其他结构化数据案例还包括哈佛大学中国历史地理信息系统(CHGIS)——它能够提供历朝历代地名变迁与其对应行政区划、地点经纬度与点图、行政区域多边形矢量图,是一个全面的基础性查询下载平台;以及哈佛大学世界学术地图发布平台(Worldmap)——此平台搜集并发布世界各国包括历史、人文、社会、军事等领域的数据,诸如古代进士地理分布图、元代蝗灾图、明代卫所分布图、明代驿站路线图、清代寺庙分布图等。国内结构化数据案例包括唐宋文学编年地图、浙江大学学术地图发布平台(AMAP)等。AMAP目前囊括了1200多张地图与400多万条数据,涉及到以人文为主的诸多领域,内容包括作者、行迹、书目(含提要)、篇名、职官、人口等。

徐老师对地图系统作了演示,地图上每一个点位都有信息承载,如书目版本、总目提要、人物小传、文献原文、具体活动等;也可以进行查询定位,链接到相应出版社、虚拟博物馆平台、古籍数字化产品等。同时,地图具有分享功能,便于使用者将做好的地图直接分享到社交平台以扩大影响。徐老师还介绍了浙江大学人文学院地理信息数据建设的构想,如让地图系统能够完成对《全唐诗》《全宋诗》《全宋文》《全宋诗》《全元诗》、明清诗文等诗文作品的定位,以对旅游文化与诗词研究做出贡献;建设诗词作家的行迹、日记数据库;建设诗词作家文化遗存(包括故居、石刻、墓地、名胜题咏等)数据库;搜集古今地方志、家谱以及其他古今书目中的地理信息。徐老师建议,同学们在自己的学习与研究中也可以养成建设结构化数据的习惯,这对批量查询与计量统计都有重要意义。利用phython等编程语言,高效开展索引、新旧字形的处理、传统纪年与公元年的批量处理等工作。

徐老师还介绍了智慧化数据,并对其发展前景作了展望。智慧化数据利用知识图谱理念结合大数据技术进行建设,它克服了结构化数据碎片化的缺点,具备大数据分析、智慧搜索、智能推荐、人机交互、决策支持等功能。接下来,徐老师介绍了知识图谱产生与发展的历史,包括1945-1985的“知识数据化”与1986至今的“数据知识化”两个阶段。荷兰莱顿大学古籍半自动标记平台(Markus)将机器标引与人工编辑相结合、文本与后台数据建立关系,为阅读提供知识体系支撑,可导出标引数据进行计量统计。此外,台湾大学DokuSky数位人文研究学术平台能够提供一些数据标引工具;搜韵诗词平台将诗歌名词解释关联到后台辞典,为文学爱好者的阅读带来便利;北大宋元学案对专书做了标引,并以此为基础展开统计分析;浙大计算机系“宋词缱绻 何处画人间”平台对宋词展开了数据挖掘与可视化呈现;中国古籍基础数据分析平台从语言学角度对古籍进行挖掘、标引与分析,都是智慧化数据建设的宝贵实践。

徐老师主持的国家社科基金重大项目“明代文学智慧大数据平台建设”,与图数据公司展开合作,将多模态数据整理入库,强调数据内容的标准化、规范化、内外数据深度关联、智慧导览、可视分析,可为读者提供文本以外的知识。其数据包括供读者阅读的文本数据与后台数据两类,数据处理需经过“文献-OCR识别-机器标点-人工校对-机器标引-人工标引-前台阅读文本”的流程,涉及到文本切割、自动标点、分词等自然语言处理技术,是以知识图谱为核心的智慧文学素材库建设。徐老师还介绍了平台的逻辑结构、处理流程、素材分类、模块切分、平台接口等,强调建设过程应由机器完成85%的工作,人工完成最后15%,以加快古籍数据整理进度。徐老师指出,现代人文学者在姚鼐提出义理、考据、辞章三方面素养之外还应该具有算法能力,运用计算机技术解决学术问题,提高研究效率。

在交流环节中,朱厚权老师就OCR与自动标点的技术成本、硬件设备、使用限制等问题谈了自己的看法,对交叉学科与知识图谱的市场空间与发展前景做了展望。任平老师就方志、家谱等数据的来源与规模问题,程宁、张思静等就数据处理过程中遇到的问题与感受,与徐老师作了交流。最后,刘石老师对讲座做了总结,感谢徐老师的精彩讲座,并就古籍数据化的前景作了展望,鼓励更多同学积极预流,投入数字人文研究。整场讲座在热烈的掌声中落下帷幕。

文/清华大学中文系2017级本科生 韩娅非

转载自:清华大学中文系 新斋日新 公众号