基于关联数据和IIIF的数字文献资源再组织研究——以上海图书馆历史人文大数据平台近代报纸资源为例

作者:姚啸华 徐孝娟; 转自:公众号 DH数字人文

基础设施

姚啸华 / 上海图书馆(上海科学技术情报研究所)

徐孝娟 / 安徽大学管理学院

———————————–

摘要:随着数字化技术的成熟,文献资源的数字化越来越普遍。受限于原来纸质文献的组织方式,目前的数字文献资源依然无法实现灵活高效的共享和利用,特别是数字化图像尚未得到足够重视,还处于封闭状态,服务形态也较为单一。本文在分析比较现有文献资源组织方式的基础上,提出基于关联数据和国际图像互操作框架(IIIF)的数字文献资源再组织模式和平台架构,以上海图书馆历史人文大数据平台的近代报纸资源为例加以论证,以期为数字文献资源的组织和服务优化提供有益启示和借鉴。

关键词:关联数据 国际图像互操作框架(IIIF) 数字人文 文献组织

———————————–

引 言

随着信息技术和数字化技术的发展,传统文献从纸质快速走向数字化,传统文献成为结构化的数字资源,数据库为研究者提供了在线的数字文献检索和浏览等基本服务功能。但在数字人文兴起的当下,人文研究者对数字文献服务提出更高的要求,暴露出简单的数字化文献组织方式的诸多短板:在还原文献原貌时,被传统文献的组织方式束缚,特别是报刊这样的连续出版物,主要还是按年卷期或版次等顺序组织,文献依然处于孤岛状态,缺乏互操作;此外,也没有深入文献内容进行语义层面的揭示。为了实现对数字文献资源的深度揭示、互操作和语义关联,打破传统文献的束缚,对数字文献资源进行再组织就成为关键。本文就上述问题,通过目前文献组织方式的比较分析,结合数字文献资源的类型特征,提出基于关联数据和IIIF融合的数字文献资源再组织模式和平台架构,并以上海图书历史人文大数据平台的近代报纸资源的再组织为例,进行实证检验,以期为数字文献资源的组织和服务优化提供有益启示和借鉴。

一、数字文献资源组织方式比较

本文选取目前被广泛采用的数字文献资源组织方式,包括元数据、知识本体、关联数据和国际图像互操作框架(IIIF)等进行梳理比较。

(一)元数据方式

元数据可以对特定资源进行描述,从而对该资源进行有效地组织,以使其结构化,便于定位、发现和管理。目前使用较普遍的元数据标准包括机读目录(MARC)、都柏林核心集(DC)元数据和自建元数据规范等。MARC主要侧重于描述,本身较繁琐[1]。DC元数据的特点是相对简单、可重复、可扩展、可修饰等,适用性很强,但对著录对象的描述深度不够,专指度较高的检索很难进行。[2]自建元数据规范则主要是将成熟的元数据标准与描述对象的特点有机结合,从而提高描述的专指度,提高资源的发现和检索质量。随着数字化时代资源类型不断丰富,异构平台和不同标准的元数据之间的互操作问题成为难题,体现了元数据方式在可扩展性和开放性上的局限。

(二)知识本体

知识本体(Ontology)被认为是对共享概念模型的明确的、形式化的、可共享的规范说明,[3]1990年代被引入更多领域,其中就包括图书情报领域,用于文献资源的组织。知识本体与元数据方式在资源组织上的不同,主要体现在它更深入到文献资源的内容属性和知识概念层面,可以将这些深层次的内容及它们之前各种复杂的关系抽象揭示出来,这很好地解决了语义异构问题。但知识本体从实际应用来看还主要侧重于某个领域,相对封闭,同时需要领域专家的协助,知识本体的高质量构建以及向更一般的知识领域推进都存在一定门槛和难度。

(三)关联数据

关联数据是在万维网上发布任何资源的一种方式,这里的资源包括信息资源和非信息资源。[4]关联数据所遵循的四个原则,[5]很好地体现了作为一种基于网络的数据组织的技术框架所具有的融合性,它可以将元数据和知识本体方式很好地融入其框架内,并通过RDF(资源描述框架)等技术更好地描述知识本体,特别是实体的关系,也使数据更好地被机器处理,对异构数据互操作的实现更开放、更灵活。

上述这些组织方式主要针对将纸质文献的外部特征、文本内容及语义知识等规范化、结构化描述后形成的数据型资源,可以有效实现文献资源的发现、聚类、关联等功能。但随着数字人文时代越来越多数字化文献资源以图像的形式出现并提供服务,这类图像型资源无法像数据型资源那样简单通过数据库来存储,同时由于高清图像的分辨率较高、尺幅巨大,为高效的组织和服务提出了难题。简单采用侧重数据型资源的组织方式,显然不能很好地适应图像型资源的展示、服务和互操作的需求。

(四)国际图像互操作框架

目前面向图像型资源的组织方式和标准较少,较为成熟的是IIIF。它于2011年提出,2015年,包括欧美多个图书馆在内的29个非营利图像资源存储机构共同成立相应的组织,旨在对以图像为载体的书籍、地图、卷轴、手稿等在线资源进行统一的展示和使用。[6]IIIF提供了一组应用程序编程接口(API)和规范,通过互联网使不同终端的用户更高效地对图像资源进行互操作,而不需要将图像下载到本地进行操作,为以图像为重要载体的数字文献资源再组织提供了便利。

表1 实际应用中数字文献资源主要组织方式的异同

综上,可以发现数字文献资源主要的组织方式在实际应用和发展中呈现出它们的异同(如表1所示)。同时还可以发现目前单一的组织方式尚无法很好地覆盖各种数字文献类型,满足数字人文时代对数字资源组织和服务的新需求,未来还有待多种组织方式的有机融合。

二、基于关联数据和IIIF的数字文献资源再组织模式

通过上述对数字文献资源组织方式的梳理与比较可以见出,要真正突破传统文献形态本身对资源组织和利用的束缚,兼顾不同类型的数字文献资源,组织模式的融合是必要的。本文综合不同资源组织模式的特点,选取关联数据和IIIF构建融合的数字文献资源再组织模式。

(一)融合的再组织模式路径

该融合的再组织模式可以从数据型资源和图像型资源两条路径展开。首先,在原始数字文献资源的基础上,将原有组织形态“打散”,数据型资源通过RDF技术对原有数据加工,使数据转换为三元组的结构,完成关联数据的组织方式;图像型资源利用IIIF的技术和标准重新组织,建立相应的Manifest清单;第二,通过两条路径分别处理后的两种类型数据,为了提供完整的数据查询和图像服务,需要重新将各类资源关联起来。最后,将重新组织后的资源导入平台实现服务的升级。

(二)融合的再组织模式下平台架构设计

基于上述融合关联数据和IIIF的资源再组织构想,需要与之相适应的平台架构设计。因此,本文将整个平台架构分为底层平台、中台和服务前台三部分(如图1)。

图1 基于关联数据和IIIF融合的数字文献资源再组织模式和平台架构

在该平台架构设计中,“中台”尤为关键,所谓中台就是通过对业务、数据和技术的抽象,对服务能力进行复用,构建企业级的服务能力,消除企业内部各业务部门、各分子公司之间的壁垒。该思想最早由芬兰的游戏公司SuperCell公司提出,近年来国内互联网公司也纷纷开始各自的中台战略,接连开启以中台为核心的组织变革。如阿里巴巴、滴滴先后宣布中台战略,美团成立技术及数据中台部门,字节跳动组建无线研发中台,腾讯打造技术中台,京东开始采用中台构建组织架构,百度拆分出知识中台和AI中台。对于数字文献组织系统和平台架构也可以借鉴企业的中台思想,它作为一个中间组织连接底层平台和服务前台,它的存在有利于不同类型资源的融合和灵活组织,也有利于资源扩展和平台开发。

该平台架构对资源再组织和服务的作用主要体现在:

1.图像型资源高效管理

图像型资源主要以数字化后的文献原始图像形式存储在本地,这些原始图像特别是高清图像不易调取,通过IIIF标准和技术接入中台后可以对这些资源进行高效管理。特别是其中的图像中台,利用IIIF标准和技术框架所提供的在线图像互操作性和可获取性,并使用JSONLD格式进行资源组织,实现图像层面的关联数据化。图像中台由IIIF框架构成(如图1所示),IIIF框架主要包括Image API(图像API)、Presentation API(呈现API)、Search API(检索API)和Authentication API(认证API)四类接口标准。其中,图像API描述了一组如何将图像资源进行在线交互的标准接口;呈现API提供了如何在这些图像之间进行组织和呈现的接口规范;检索API制定了如何进行图像内容标注和检索的标准;认证API详述了图像资源访问时所需要的多种认证方式。[7]图像API和认证API可以独立于图像中台存在,图像API可以借助独立的图像服务器来完成,认证API则需要在图像API生成中加入认证服务。而呈现API和检索API则需要在图像中台中进行实现,通过呈现API在中台中动态的进行图像的组织,生成和维护Manifest清单文件;检索API自身并不提供图像的标注模型,需要结合开放注释数据模型(Open Annotation Data Model)共同完成,[8]通过对图像内容标注,实现资源的检索。在图像标注时,采用三层标注模型,由表及内依次为图像层面的元数据注入(图像级)、对象层面的内容抄入(对象级)和语义层面的图谱引入(语义级)。[9]

2.数据标准化管理

不同的底层数字文献资源原本采用的元数据标准和组织结构具有差异,经过RDF技术转换为以三元组表示的关联数据,并导入中台。在中台,经过处理的资源数据,可以实现数据格式语法的统一、本体对齐、语义关联、数据存储全局唯一,为灵活组织多源异构数据提供了标准化数据基础。

3.去中心化前台交互

利用中台可以实现与前台的去中心化交互。在中台中各类资源数据实现了关联数据化,并以图谱的方式存在,图谱方式本身就是一个去中心化的结构,图谱中每个节点都可能成为数据中心,这使中台的资源数据可以使用统一的标准API接口与前台进行交互,无需过多关注资源数据的原始来源,为前台服务中灵活地调用资源数据提供了支撑。

4.内外部资源循环组织

随着前台服务的展开,一些新生的资源会不断产生,如用户标注的数据或对图像的切割等,对于这些新生的数据,可以通过IIIF的API接口完成,新生的坐标数据、标注数据将回到中台,并按照关联数据要求进行本体对齐和标准统一,这样实现这些新生数据的重用和共享。同样地,在对数字文献资源再组织后,本地平台的数据具有更强的开放性,可以与外部进行共享,同时外部的资源也可以导入中台,通过IIIF技术,供本地用户高效重用。通过数字文献再组织模式和相应平台的构建可以使内、外部资源的循环组织更加顺畅,方便用户高效利用内外部资源。

三、上海图书馆历史人文大数据平台近代报纸资源再组织实践

上海图书馆的历史人文大数据平台[10]是上海图书馆最新构建的面向数字人文的基础设施,也是对馆藏资源再组织做的一次探索,采用了关联数据和IIIF融合的再组织模式。本文选取其中的近代报纸资源再组织实践作为案例进行分析。

(一)近代报纸资源组织方式的困境

上海图书馆近500种近代报纸文献已经进行了数字化。从数字化后的报纸资源服务和组织方式来看,主要以自建的元数据方式进行组织。自建元数据具有较强的针对性,但由于不同类型资源的元数据结构和组织方式的不同,为不同类型资源的互操作制造了障碍,同时在不断的数字化过程中越来越多的特例为自建元数据规则的修订制造了困难。此外为了忠实还原原始文献的脉络,报纸文献以日期、卷期、版次的顺序排列,数据之间处于孤岛状态,对于数字化后大量的高清图像型资源也没有很好地组织利用,整体上近代报纸数字文献资源的服务已无法满足数字人文时代的用户需求。

(二)近代报纸资源再组织过程

为了解决上述困境和问题,将近代报纸资源重新组织是必要的,根据关联数据和IIIF融合的再组织模式和平台整体架构,选取少量近代报纸资源,分别针对数据型和图像型数据进行全面的再组织探索。

首先,在数据型资源方面,重要工作是将原始的元数据通过RDF标准进行本体化并转化为关联数据。具体的步骤是:

(1)数据剖析。从需求和近代报纸本身出发,对照已有的结构化元数据,将近代报纸所涉及的文献、人物、机构等实体类型和实体关系进行梳理分析,为本体设计提供基础。

(2)本体设计。在数据剖析的基础上,充分参考上海图书馆已有的本体模型和术语词表,如人名、地名、机构等,在本体设计中进行复用,构建近代报纸的术语词表和关系模型。

(3)映射设计。根据近代报纸本体关系模型和术语词表,设计完成对原有元数据字段的映射表,规范类映射及URI生成规范和空节点的使用,明确属性映射及其取值范围。

(4)清洗加工转换。在完成上述设计工作后对原始元数据进行实际的转换,需经过实体提取、实体对齐、数据丰富、关联构建、格式转换等工序。为了保证数据映射转换的质量,在转换过程中还需要对数据进行清洗。以近代报纸中人名数据的清洗为例,在原始的责任者字段中提取人名实例,进行人物资料的收集丰富,并与上海图书馆积累的人名规范档数据对齐关联。

(5)数据校验。最后完成转换的RDF数据还要进行数据的语义验证和句法验证,经过验证符合关联数据标准的数据才能发布,并为平台所用。

第二,在图像型资源方面,使用近代报纸中的原始高清图像,通过IIIF-IIP Server 转化后导入图像数据中台,并与数据中台关联,可以调用转化后的关联数据。以近代报纸《新闻报》图像为测试样例,经过数字化的每一版面具有一个高清图像(共263版),依据IIIF框架的要求,将会产生263个Manifest清单,每个Manifest清单包含一期多个版面的报纸图像。通过IIIF-IIP图像中台,可以将这些外部Manifest清单资源以寄生方式导入中台,即通过中台将不同来源的图像资源实时汇聚,同时可依据研究的需要从这些资源中选择需要的版面重组成新的专题库(生成新的Manifest清单),重组的资源可在中台中进行内容注释和实体语义标注。

(三)近代报纸资源再组织的成效

通过上述近代报纸资源的再组织,最终取得的成效从平台前台的一些特色功能中可以看出。

1.统一的知识发现

图2 历史人文大数据平台统—知识检索结果示例

各类异构数字文献资源在一个平台统一检索发现是困难的。采用关联数据组织方式,可以将各类异构数字文献资源(包括近代报纸资源)转换为RDF数据,在平台中实现了统一的知识检索,同时使数字文献资源内部的知识如人物、事件等也关联起来,大大提升了平台的知识发现效果(如图2)。

2.知识关联

经过多年积累,上海图书馆构建了多个知识本体词表,特别是上海图书馆的人名规范档,已收录近代人物5万余条。在近代报纸资源的再组织中,对原始元数据进行了本体化转化,转化为关联数据,特别是其中的责任者字段经过映射清洗加工,建立了同人名规范档的有效关联,使近代报纸资源不再是信息孤岛,资源内部的知识得到扩展。3.图像资源灵活组织

图3 《新闻报》IIIF图像服务示例

利用再组织后的近代报纸资源,用户可以根据自身需要打破原始报纸脉络。以在《新闻报》上连载的小说《啼笑因缘》为例,用户可以将小说的连载内容和其他用户对该作品的评论集成起来,作为自己的资源进行浏览、标注研究。具体做法是利用IIIF技术将《新闻报》中涉及《啼笑因缘》的版面做了抽取,并对抽取的报纸版面上的内容做题名标注。图3中显示了对组织后的263页报纸版面进行检索的案例,并对检索后的内容进行区域定位和高亮,可对该图像进行语义标注。语义标注内容又作为新型数据资源,可以被检索发现,方便用户进行研究。

4.外部资源共享重用

利用图像中台提供的图像重组、注释、检索功能和提供的便捷接口,不同的前台应用系统可以根据各自的业务需求在图像中台中引入和重组图像资源,而不需要关心图像具体存于何处。也就是说只要外部资源采用了IIIF标准,就可以导入平台,与本地资源组织在一起。同样地,本地资源采用IIIF的标准也可以被外部机构IIIF接口调取,实现平台开放性,使资源得到更广泛的利用,实现本地平台与外部平台的交互,为用户提供一站式的服务。
结 论

上海图书馆近代报纸资源的再组织实践,已基本检验了本文提出的基于关联数据和IIIF融合的数字文献资源再组织模式和平台架构的可行性和成效,可以有效满足用户对资源灵活操作的需求。但本文也看到,目前RDF转换、数据清洗和规范等加工工作需要投入大量人工,加工质量和效率还有待提高。此外,目前平台还没有将上海图书馆海量资源完全纳入,再组织模式和平台架构还需要更大规模的资源数据的检验。未来也有待研究者继续研究和探索,不断完善现有的数字文献组织模式。

——————————————————————————————————————————————————————————————————

Reorganization of Digital Literature Resources Based on Linked Data and IIIF: A Case Study on Resource of Newspaper in Modern China of Digital Humanities Platform of Shanghai Library

Yao Xiaohua, Xu Xiaojuan

Abstract: With the maturity of digital technology, more and more literature resources have been digitalized, at the same time, digital literature resources are still limited by their original organization, which means that they can’t be shared and utilized flexibly and efficiently, especially for digital images which are not taken into account and service form is simple. Based on the analysis and comparison of the mainstream literature resource organization, this paper puts forward the digital literature resource reorganization mode and platform structure combined with Linked Data and International Image Interoperability Framework (IIIF). It implements empirical analysis of resource of newspaper in modern china of digital humanities platform of shanghai library, in order to provide useful enlightenment and reference for the optimization of organization and service of digital literature resources.

Keywords: 

Linked Data; International Image Interoperability Framework(IIIF); Digital Humanities; Literature Organization

——————————————————————————————————————————————————————————————————

编 辑  |  赵薇

本文系国家社会科学青年项目:数字人文视角下特藏资源建设的众包模式驱动因素与激励设计研究(项目编号:17CTQ001)的研究成果之一。

注释:

[1]曾蕾、张甲、张晓林:《元数据标准的演变》,《中国图书馆学报》2003年第4期。

[2]冯项云等:《国外常用元数据标准比较研究》,《大学图书馆学报》2001年第4期。

[3]R.Studer,V.R.Benjamins,D.Fensel“, KnowledgeEngineering:PrinciplesandMethods,”DataandKnowledge Engineering, vol. 25, no.2, 1998, pp. 161-197.

[4]刘炜:《关联数据:概念、技术及应用展望》,《大学图书馆学报》2011年第2期。

[5]T.Berners-Lee“, Linkeddata,”http://www.w3.org/DesignIssues/LinkedData.html,accessedJanuary4,2020.

[6]《国际图像互操作组织成立》,《国家图书馆学刊》2015年第4期。

[7]“For Implementers–International Image Interoperability Framework,”https://iiif.io/technical- details/#stable-specifications, accessed January 4, 2020.

[8]“Web Annotation Data Model,”https://www.w3.org/TR/annotation-model, accessed January 4, 2020;

陈涛等:《数字人文图像资源语义化建设框架研究》,《数字人文》2020年第2期。

[9]陈涛、单蓉蓉、李惠:《数字人文图像资源语义化标注研究》,《农业图书情报学报》2020年第9期。

[10]“上海图书馆历史人文大数据平台”,

https://dhc.library.sh.cn,2021年1月24日。

原刊《数字人文》2021年第2期,转载请联系授权。