敦煌遗书数字化演进史

作者:韩春平;转自:中国社会科学网-中国社会科学报

敦煌遗书又称敦煌文献、敦煌文书等,是异常珍贵的历史文化遗产。1900年发现于甘肃敦煌,随后流散于海内外多处地方。在很长一段时间里,学界研究遗书主要依赖经过整理刊布的再生遗书资料,但这些资料与遗书原件一样内容庞杂,卷帙浩繁,查阅不易,因此资料需求一直得不到有效满足。20世纪80年代初,法国学者开始试探利用计算机处理遗书信息,遗书整理研究工作开启了新的模式,进入了高效的数字化时代。自那时起,遗书数字化已走过了30余年历程,其间涌现出许多数据库产品和理论成果。各数据库按其数据类型及操作功能,可笼统分为单一型、复合型和智能型三种。尽管三种数据库中各单项成果的出现并非严格遵循时间次序,但每种类型的形成都与遗书数字化的演进步伐相对应,前后连缀可以从一个侧面呈现遗书数字化的演进历史。

单一型数据库

单一型数据库属于探索性成果,出现早,历时长。基本特点是数据库数量较多,但各库通常只有一种数据类型,或为目录库,或为影像库,或为录文库,或为其他小主题资料库。各数据库规模较小,结构简单,功能较弱。在服务方面,多为仅供私人或机构内部使用的单机版,较少提供共享。

1988年,台湾地区相关研究机构开始对所藏遗书进行数字化处理,并将数据存入CD库。这大概是敦煌遗书最早的数字影像。不过由于该研究院藏品数量非常有限,相关成果又未向外公布,其作用微乎其微。

敦煌研究院于1995—1999年实施的院级课题“敦煌遗书数据库”,是单一型数据库中的翘楚。该库实为《敦煌遗书总目索引新编》一书的电子版。初期仅著录原北京图书馆及英、法两国所藏约2万号遗书的目录,后期又补录了俄、日两国所藏及海内外散藏遗书的目录。相关字段包括藏地、编号(卷号)、题名、分类、题记等多项。程序中起初预设了影像选项,后来并未真正实现。

在众多单一型数据库中,存在一些基于少数遗书的成果,如国家图书馆创建的“中国国内散藏敦煌文献联合目录数据库”,台湾成功大学基于《王梵志诗》《老子化胡经》等个别遗书全文录文创建的数据库等。此外还有一些基于小主题的成果,如上海师范大学方广锠教授个人创建的“诸经起讫”、“英国敦煌遗书人名索引”,以及兰州大学笹川良一青年教师基金项目“敦煌文献中的佛教人物数据库系统”等。在以上这类数据库中,不乏有Excel表格形式。

复合型数据库

复合型数据库早在20世纪90年代即已出现。其基本特点是数据库数量相对较少,但各库数据类型则呈现多样化,规模普遍较大,结构均较复杂,功能大幅提升。在服务方面,单机版已基本过时,各数据库建设者至少在理念上都主张通过网络渠道对外共享。不过实际情况并不乐观,商业成果固然只提供有偿服务,但许多公益成果要么只有死链,要么多有限制,真正供免费共享者寥寥无几。

最早的复合型数据库,要数总部设在英国,由中、英、法、俄、日等多国合作共建的“国际敦煌项目”(IDP)专属数据库。该库早在1994年即开始筹建,后于1998年在互联网免费发布,内容包括多国藏品的彩色图版影像和目录信息,目前数据仍在持续上传。不过IDP数据库并非敦煌遗书专题库,库中还充斥着中亚地区多种古代历史遗存的数字资源。受冗余数据干扰,敦煌遗书相关资料反而难于查找。除图版质量普遍较高外,该数据库迄未提供详细目录,现有目录过于简略,且不支持汉文检索,极大降低了利用效率。

兰州大学曾于1998年承担过CALIS项目“敦煌学数据库”,后于2001年又通过科技部项目对其进行升级,推出综合型敦煌学资料数据库“敦煌学数字图书馆”,其中遗书子库内容最为丰富,包括遗书的目录和影像两部分,已入库数据涉及原北京图书馆、英国、法国及甘肃藏品,数据量数以万计,在当时堪称大库。但其缺陷是遗书数量仍较有限,影像均为黑白图版,且通常因故无法打开。

2016年8月,由陕西师范大学创建、作为“汉籍数字图书馆”2.0版专库之一的“敦煌文献库”(又称“敦煌文献数字图书馆”)正式上线,内含目录库和图版库两个子库,已入库遗书7万余号,图版51万多个。库中图版均有小图、中图和高清图三种,可供用户按需选用。该库的优点是内容非常丰富,部分彩色图版的录入可充分展现遗书原貌,为学者提供详尽的文献信息;缺点是目录信息过于简略,且作为当前的新建数据库,因缺乏录文而无法进行全文检索。

智能型数据库

智能型数据库其实也属于复合型范畴,只是它并非普通的复合型数据库,而是升级版,或者也不妨称之为复合型2.0版。基本特点是成果数量进一步减少,但各类型数据则趋于齐全,规模更加庞大,结构更为复杂,功能整体增强,且注重智能技术的采用。智能型数据库通常又称为知识库,它是人工智能和数据库相结合的产物。目前还没有成型的遗书知识库,不过一些在建数据库项目正朝着智能库方向进行摸索,其服务模式也在探求之中。

2003年,在日本京都举行的敦煌学国际联络委员会成立会上,与会代表就曾动议创建“敦煌学知识库”。2005年,在中国上海召开的敦煌学知识库国际学术研讨会上,内含遗书资源的“敦煌学知识库”受到热议,不过其热度后来趋于消歇。虽然日本学者高田时雄的个人网站一直有个“敦煌学知识库”,但除一些敦煌学零碎知识及学术资讯外,没有任何符合“知识库”意涵的成果。

可喜的是,相关文献数字化工作近年在国内得到了相应开拓,并已取得初步成效,已经推出的代表性成果主要是爱如生的“敦煌文献库”。该库是具备初步智能操作功能的全文检索版大型数据库,共分5集,初集已于2012年出版,二集预定2017年出版。初集库不仅输入了大量遗书影像,而且对遗书文字内容进行了全文迻录——这也是爱如生对遗书数字化工作的最大贡献。除包括全文检索在内的强大检索功能外,该库还开发了标注、书签等9项研读功能,并配套了多种其他平台功能。其缺陷是现有影像均为黑白图版,且部分图版模糊不清。

2012年,“敦煌遗书数据库建设”首次被列入国家社科基金重大招标项目选题,敦煌研究院和上海师范大学一同中标。敦煌研究院一方项目组联合浙江大学和兰州大学,形成了强有力的团队。所建新数据库的主要亮点,是对相关各类型数据进行集成和优化,成果完成后,将不仅提供高质量的遗书全文录文,实现录文与高清图版的对照阅读,而且提供迄今最为详备的目录数据,并配套大量遗书研究文献数据,同时新增藏文遗书的影像和录文。上海师范大学一方项目的数据库已完成第一期工程,并设想通过进一步完善,从文物、文献、文字三个层面采集所有遗书的各种知识点,通过不同角度加以展示,同时显示其内在网状结构,由此打造高端学术平台。

敦煌遗书数字化是一个不断演进的过程,通过海内外各界的努力,大量遗书已经被数字化,历来各数据库总数远不止以上所列。既有成果为学界整理和研究遗书提供了方便,也为寻常百姓了解和欣赏遗书提供了便利。同时数字化有利于更好地解决遗书的保护与利用矛盾,既使遗书信息通过数字资源得到充分利用,又使遗书原件免遭过度接触,从而得到更好的保护。此外,长期的数字化实践也为后续工作留下了不少有益启示,诸如资源建设者日趋专业化,数据库内容和功能日趋集成化,资源利用日趋共享化,等等。不过,敦煌遗书数字化工作仍然在路上,现有成果并非尽善尽美,知识库目标依旧道阻且长,公益资源与商业资源的博弈将在所难免,各种新旧问题都亟待解决。

  (作者系国家社科基金重大项目“敦煌遗书数据库建设”子课题负责人、兰州大学图书馆研究馆员)

zh_CNChinese