含珠与萤光:古代书信网络的衍化研究

作者;李惠 侯君明 陈涛 朱庆华 刘炜;转自:公众号 DH数字人文

社会网络

李 惠 / 上海图书馆(上海科学技术情报研究所,南京大学信息管理学院)

侯 君 明 / 中华书局古联数字传媒科技有限公司

陈 涛 / 上海图书馆(上海科学技术情报研究所)

朱 庆 华 / 南京大学信息管理学院

刘 炜 / 上海图书馆(上海科学技术情报研究所)

——————————————————–

摘   要:数字化的古代名人书信,作为历史人物档案资料的一部分,内容广泛,涉及名人一生修身、交友、治学、施政等诸多方面,蕴含着真知灼见,是名人生平的生动反映和再现。研究名人书信,可以帮助后人更加了解名人的成长过程,帮助学者更加清晰地剖析特定历史时期的重大事件。从时间的维度,延展已提出的古代书信网络模型,并基于此,设计相关网络度量方法,运用于名人书信集,并加以史料佐证。旨在透视书信网络的动态结构,剖析网络中蕴含的个体信联行为,为古文文本挖掘提供新的思路和方法。

关键词:名人书信 书信网络 信联活跃度 节点刷新率

———————————————————–

引  言

社会网络(Social Networks),从数学的角度,可以定义为以一组实体为节点,实体间的关系为边相连构成的图。网络中的节点指代社会实体,既可以是个体,也可以是个体集合,如人物、团体、组织机构、甚至国家等,而网络中的边代表了节点之间存在的关系,如朋友关系、合作关系、通信关系等。换言之,即用图的结构刻画社会关系。[1]广义上的社会网络既包括常见的社交网络如朋友亲属网络,也包括信息网络、拓扑网络、文本网络等。[2]

随着古籍数字化工程的普及,海量的古文资源已数字化成古籍文献书目数据库和古籍全文数据库,为相关学术研究提供了数据基础。于是来自不同领域的学者关注于挖掘古文中蕴含的知识,例如书信体文献中潜在的社会网络和人物关系。书信体作为中国古代人际交流的重要文体之一,既包括君臣、同僚往来的公文书信,也涵盖亲朋好友的私人书信。[3]中国古代书信的内容涉及古代社会的方方面面,记录和描述了通信者的社会往来和关联事件等信息,为后人了解历史人物的生平轨迹和思想动向,提供了重要的知识和线索。

数字化的古代书信,多来自历史名人的档案资料,主要由元数据和书信正文两部分组成。书信的元数据一般包括收信人和寄信人姓名、写信日期、写信地址以及寄信地址五个元素。因而每封书信都具有时效性,如果脱离写信时间的限定,去挖掘书信中的隐含关系,人物关系、人物思想、消息传递等动态属性则会丢失。

国外的数字人文机构已经采用网络可视化的分析工具(如Gephi[4]、Cytoscape [5]等)来呈现古代书信中的人物关系,但并没有网络建模的理论基础, 也没有针对书信的时效性来计算分析网络中的动态结构。国内采用信息化技术, 从时间的维度上分析古代书信网络的研究,则相对还不够丰富。本文旨在抛砖引玉,基于我们提出的古代书信体文献的网络模型,从不同的时间颗粒度来观察书信网络,动态地度量历史人物一生的人际交往关系,希望能够为数字化古籍的知识发现提供新的研究视角。

二、相关研究

时间网络,又被称为时变网络(Time-Varying Networks)或动态网络(Dynamic Networks),主要关注网络中的节点和边在特定时间或者主题下的波动性,比如疾病网络中病毒传播的关键点、社会网络中的个人影响力等。[6]

时间网络中的基本研究元通常包括节点之间的互动(Interactions)、互动发生的时间点以及互动持续的时间。如果互动持续的时间足够短,可以近似为即时互动,如电邮、微信等,则网络可以表示成一组联系(Contacts);而每一个联系,可以看作是由参与互动的节点和互动发生的时间点组成的集合。如果互动的持续时间相对较长,如通话等,网络则可以表示成一序列快照(Snapshots),每一张快照都是特定时间窗(Time Window)内的网络区间图。

国内越来越多的数字人文学者采用社会网络分析的方法挖掘数字化的古代文本,他们的研究都具有良好的参考和借鉴意义,但针对书信的网络研究还是寥寥无几。严承希等[7]基于符号分析法,建立宋代的政治网络,阐述了宋代政治网络的关系演化模式,但由于数据限制,时间维度是以单一的年份值来定义特定年代的历史人物。另有学者,如张旋等[8]以章回小说内容递进的层级,为隐含的时间次序,建立社会网络,分析主角人物之间的亲密关系,但旨在复杂爱情模式的预测,并不着重分析网络的动态性。

国外为数不少的数字人文机构已经开展了书信网络的时空信息可视化项目, 我们整理了主要的研究机构及较知名的名人书信项目,如荷兰多所大学和研究机构参与的Circulation of Knowledge and Learned Practices in the 17th Century Dutch Republic(CKCC)[9]和英国剑桥大学的Darwin Correspondence Project[10]利用互动式的时间线历时地探索名人书信;美国斯坦福大学的Mapping the Republic of Letterse[11]将寄信人—收信人网络嵌入历史地理地图并结合了时间线的堆叠图。但是他们都没有将时空网络和人物网络整合建模,也没有提出针对书信网络的特定的时空度量方法。

数字化的古代书信,多来自历史名人的档案资料。由于年代、环境等因素,档案收集的名人书信多为特定人物个体所写所寄的存稿,而未收录他人所写的书信。于是国内外的书信网络研究多限制于单向的名人—通信人关系,形成的多为自我中心(Ego-Centric)网络,对通信人之间的关系,即他人(Alter)之间的关系却较少剖析。数字化的古代书信,虽然附有写信的时间信息,但并没有寄达的时间信息,因而无法计算信件的持续时间,单纯地用时间点或者时间窗的一种方式来描述网络并不合适。考虑到古代书信的规模限制,本文更多地侧重于从时间网络的角度,结合两种表达方式,同时从时间点和时间窗的角度来研究书信网络中的动态性。

三、书信网络的动态模型

一封书信可以表示为一个六元组集合l=(S,R,t,ls,lr,c)。S 表示寄信人集合。R表示收件人集合。tT指代写信日期。lsLlrL分别指代寄信和收信地点。cC指代对应信件内容。我们将书信网络模型,定义为重边的超图H=(V,E),[12]节点集合V代表收发信人,边集合E代表人物间的通信往来。每条边e=<HeTei> 包含一组节点。i指代每封信的索引,He ⊆ V指代有向边的边头,即每封信的收信人,Te ⊆ V指代边尾,即寄信人,且HeTe=φ

为了更加精确地分析书信网络中节点个体的通信行为,我们用两种表示方式,即信联(Contacts)和时间子图(Graphlets),从时间的维度来描述网络。

信联。给定书信网络H,从节点发送到节点的一个信联ct,定义为一个四元组集合ct={(i,j,t,d)|t∈T, d∈N}。t指代写信日期,而d是每个信联的id,用来区分相同通信人之间,可能存在的多封书信往来。我们预设书信网络H 的时间跨度是有限的,开始时间为tsT,结束时间为teT。这样H可以表示成一组发生在时间区间[Ts,Te] 的信联集合。

时间子图。我们定义了两个函数fe(e,t)fv(v,t)来描述特定时间出现的特定节点或边。如果时间t出现边efe(e,t)=1, 反之为0。同样的,如果时间t出现节点v,fv(v,t)=1, 反之为0。边e出现的所有时间点的集合则表示为D(e)={t∈T| fe (e,t)=1}, 而节点v出现的所有时间点的集合则表示为D(v)={tTfv (e,t)=1}。

给定书信网络H,一个时间子图g定义为一组在时间区间[Ts,Te] 出现的所有边和节点的集合:g=(V[ti,tj ] ,E[ti,tj ] ) .其中ti,tjT,V[ti,t] ={v∈V| fv (v,t)=1,t≤ t ≤ tj}且E[ti,tj ] ={e∈E| fe (e,t)=1,ti ≤ t ≤ tj}。为了将时间子图中相同节点间的多条边,压缩成一条单独的边,我们将给定边e的权重wg(e) 定义为该边在时间子图里的出现次数:wg(e)=|{e∈E| fe (e,t)=1,ti ≤ t ≤ tj}|。时间子图的时间颗粒度可以根据数据的实际情况而定,比如年、月、日等。

大部分古代书信语料库只包含写信的时间点,而不是从写到寄再到收的时间区间,因而常用的动态网络度量方法,如时间路径或者时间中心度等,并不适用于特定的书信网络。考虑到古代书信体文献的这种特殊性,我们一方面设计了信联活跃度,检测网络中个人通信行为的规律性;另一方面定义了节点的刷新率, 用来度量不同子图区间节点活动的差异性。我们预设在挖掘大规模书信数据集时,即便书信文本知识不能在短期内习得,这两种方法仅利用元数据,可以较为准确快捷地挖掘书信网络中蕴含的动态模式。

信联区间和信联活跃度。给定书信网络中连续的两个信联 (i,j,tm,dm) 和 (i,j,tn,dn),它们之间的信联区间可以定义为 [tm,tn], tm ≤ tn,dm ≤ dn,且|tn– tm | ≤ φ。任意两节点ij之间的信联集合可以表示成σ(i,j):={[t1,t2 ],[t2,t3],…,[t(k-1)       ,tk ]}。我们使用Tukey[13]的四分位方法,计算阈值,帮助我们过滤时间跨度过长的信联区间。在此基础上,给定任意节点i和j之间的k个信联区间,信联活跃度计算如下:

信联活跃度越小,两个节点的互动越频繁;反之,越稀少。

节点的刷新率。给定书信网络中任意两张区间子图gi 和gj,节点的刷新率可以定义为子图gi 的节点未出现在子图gj的比率。│vgi│指代子图gi里的节点数,│vgi│指代子图gi里的节点数。│vgi ∩ vgj│指代了两张子图里重复的节点数。

Rvgi的值在0和1之间。如果Rvgi=0,区间子图gi里的节点在子图gj里保持不变;如果Uvgi =1,gi里的节点均未在gj里出现。

四、书信网络的动态分析

由于数据获得渠道的限制,本文所开展的实验是在个人书信集的基础上实施的。我们选取的《曾国藩全集》[14]中曾国藩的个人书信集(家书除外)(1841— 1872年)。《曾国藩全集》共31 册,其中书信就有12 册,可见书信在曾氏传世文字中的分量。[15]曾国藩的书信内容丰富,既有治军为政之道,又有人生处世之理,是研究其人及清末历史的重要资料。[16]

在语料预处理的过程中,我们发现元数据中的日期信息,多为年号加月加日的组合形式,如“道光三十年正月二十八日”,非现今通用格式。我们于是采用台湾“中央研究院”数位文化中心提供的日期转换工具,将所有元数据中的写信时间转换成现今标准格式(年月日)。转换后写信时间可以精确到年的,共8,347 封书信,本文便将本次实验的时间颗粒度,设定为年。

信联活跃度。考虑到数据集里的信皆为曾国藩一生所发,并没有别人所写所寄予他的书信,于是我们将本次试验中曾国藩与其余通信人之间的信联活跃度, 作为这些通信人在本数据集的信联活跃度。我们也适当过滤了语料中书信总数和通信年份过少的通信人,防止对结果的准确性产生干扰。我们同时计算了信联活跃度和中心度,精选了得分排名前10 的通信人(见表1)。曾国藩的通信人范围极广,既包含朋友、同事、属下、心腹,也包含无交往的仰慕者和投奔者。信联活跃度排名靠前的大部分都是湘军将领中的核心人物,出于政治军事人脉的需要,曾国藩长期与他们保持着频繁的消息往来,是合乎史实的。中心度可以帮助我们找到静态网络中最重要的节点,[17]而时间网络中的信联活跃度与中心度的排名基本吻合,证明了该方法的有效性。

表1  计量结果排名前 10 的通信人

高峰和低谷。从图1的前两幅子图可以看出,曾国藩的通信并不是随着年岁的增长和仕途的顺畅,“十年七迁,遍兼五部”,[18]呈现一路上升的趋势。其实他的一生用书信来刻画也是起起伏伏、动荡不定的。如1853年左右,当时曾国藩正在为出征太平天国做准备工作,如湘军组建、广东买炮、水师筹建等, [19]需要诸如师门、兄长、好友等诸多人脉。网罗各方人才,是当务之急,因此曾国藩的通信人数和通信量的突然暴涨,是合理的。但1855年到1857年间,战事刚起,曾国藩座船被俘,文卷册牍俱失,[20]父亲又去世,国事家事的打击下,我们推测曾国藩的通信人数和通信量由此大幅度减少,如图中所示,出现低谷拐点。到了1864到1866年间,湘军攻陷南京,太平天国宣告失败,曾国藩受到朝廷嘉奖,主修江南贡院,建江南制造总局,裁撤湘军,任两江总督。[21]战事刚平,万业皆待复兴,事务繁多,通信人数和通信量达到最高峰,也是和史实相互印证的。

图1  曾国藩每年通信人数量、信件数量以及书信网络中的节点刷新率变化(比较明显的通信高峰和低谷均用红色表示)

节点刷新率。我们将图1 最后一幅子图(节点刷新率)和前两幅子图相比较,可以发现既有相似,如1854年左右刷新率的高峰,在前两幅子图中也有展现,这和当时的出征太平天国的事件相互印证,曾国藩调度作战,信息互通必不可少;但也有差异,1852年和1857左右刷新率均出现明显低谷,在前两幅子图中却并不明显。1852年曾国藩的母亲去世,1857年曾国藩父亲去世。曾国藩曾两次上疏,请求在家守丧。[22]推测也正因为此,他只处理要务以及和熟人必要的通信,无心扩大交际圈,导致刷新率的两次下跌。

书信中的静与动。考虑到古代汉语并没有统一的分词规范和工具,且现代汉语的分词工具并不能直接运用于古代汉语,本文基于N元文法,从书信正文里提取了一元和二元字序列,并统计出现频率,将高频的字序列可视化,如图2所示。本文选取了五个有代表性的时间子图,从时间轴的角度,一览曾国藩近一生的通信行为模式。我们观察到,1864年太平天国覆灭之前,曾国藩的书信主要围绕镇压太平天国这一主题,频频出现如“贼”“水师”“兵勇”等的字词;而1864年之后, 随着战事结束,曾国藩先后任两江总督和直隶总督,[23]关注点也从战争转到了民生大计。诸事从杂,日理万机,高频字“贼”不再是出现频率最高的, 取而代之的则是如“抗旱”“秋收”“民困”等关乎社稷的字词。

图2  曾国藩的书信网络的时间子图以及对应的关键词序列展示

纵观曾国藩一生的书信网络,可以称得上是“动中有静”。每一次通信量和刷新率的变化,都与他所涉及的历史事件有着千丝万缕的联系和巧合,因此这两种方法的有效性得到了证明:即基于书信元数据和书信网络,在没有书信文本的支持下,可以较为准确地分析大规模书信中的通信人互动模式,挖掘书信网络中个人通信行为的持续性和稳定性。

结  论

中国古代名人书信资料,详实地记载和反映了历史人物在不同人生阶段的思想言行、人脉关系、政治作为、家学修养等,蕴含了他们对身处时代的观察体验、治学之道、工作心得以及内心世界的具体阐述。这些书信是非常珍贵的史料,值得现今学者去细细挖掘品味。本文延展了已提出的书信网络模型,采用信联和时间子图两种表达方式,从时间的维度设计相应的网络度量方法,观察书信网络中个人通信行为的持续性和波动性,并在小规模数据集上开展试验,取得较为有效准确的结果。本文的主要贡献列举如下:

1.本文延展了我们已提出的书信网络模型,采用信联和时间子图两种表达方式,从动态网络的角度观察人物关系的持续性和节点个体的互动模式,并用史料加以佐证,证明模型和方法的有效性和可运用性。

2.相比于数字人文中常用的静态度量方法,本文针对特定的书信网络,从时间的角度,设计对应的网络度量方法,即信联活跃度和节点刷新率。该方法不局限于语言,不需要文本的先验知识,可帮助学者从历时的角度便捷地挖掘大规模书信文献中的隐含关系和互动模式。

在下一步的工作中,我们将从书信中识别提取更多的人物,继续探索书信网络中人物和文本主题的关系,分析历史人物兴趣所向以及他们之间的志趣异同。同时,本文的研究作为更大范围研究的一个预设,我们将整合更多资源,如著作关系(批校题跋)、缙绅录、宗族谱系等,突破书信数据源的规模限制,尝试从名人的个人书信网络中挖掘名人群体的人脉网络,开展晚清知识分子社会关系的综合探索,为数字人文提供新的思路。

—————————————————————————————————————————————————————————————

Changing yet Stable: An Experimental Study of Temporal Patterns in Ego-centric Correspondence Network

Li Hui, Hou Junming, Chen Tao, Zhu Qinghua, Liu Wei

Abstract:

Digitized Historic Correspondences, in the form of letters, contain extensive information of historic figures such as their self-cultivations, friendships, academic research and political views. These letters contribute to the reconstruction of relationships and exchanges of information in the historic times. By studying historic correspondences, they can analyze the recorded historic events more precisely and understand more about the life of historic figures. Motivated by the valuable insights into history, in this paper, they extend the historic correspondence network model with temporal dimension. Furthermore, they introduce dynamic measurements to explore the individual contact pattern embedded in the network. They use a letter collection to conduct experiments and correlate the results with historic events. The experimental results illustrate the effectiveness and applicability of our model in the area of knowledge discovery in historic texts.

Keywords:

Historic Correspondence; Correspondence Network; Inter-contact Interaction Rate; Node Refreshing Rate

—————————————————————————————————————————————————————————————

注释:

本文为上海市超级博士后激励计划“数字人文中名人档案知识网络的深度建模和多维分析”和国家社会科学基金项目“数字人文中图像文本资源的语义化建设与开放图谱构建研究”(19BTQ024)阶段性成果。

[1]参见张引:《社会网络分析中的数据挖掘综述》,https://wenku.baidu.com/view/9df8f1f5bd64783e08122b32.html,2019 年9 月1 日。

[2]赵京胜、张丽、朱巧明、周国栋:《中文文学作品中的社会网络抽取与分析》,《中文信息学报》2017 年第2 期。

[3]李惠、侯君明:《古代书信体文献的社交网络模型》,《南京师范大学文学院学报》2018 年第3 期。

[4]Gephi. https://gephi.org/, 2019 年9 月1 日。

[5]Cytoscape. https://cytoscape.org/, 2019 年9 月1 日。

[6]Hui Li, Social Network Extraction and Exploration of Historic Correspondences, PhD Dissertation, Heidelberg University, 2018, p.28.

[7]严承希、王军:《数字人文视角:基于符号分析法的宋代政治网络可视化研究》,《中国图书馆学报》2018 年第5 期。

[8]张旋、梁循、李志宇、张树森、赵晓磊:《金庸小说中主角复杂爱情模式的识别与分析》,《中文信息学报》2019 年第4 期。

[9]Descartes Centre for the History and Philosophy of the Sciences and the Humanities at the University of Utrecht and the Huygens ING: Circulation of Knowledge and Learned Practices in the 17th-century Dutch Republic. http:// ckcc.huygens.knaw.nl/, 2019 年9 月1 日。

[10]University of Cambridge: Darwin Correspondence Project. http://www.darwinproject.ac.uk/, 2019 年9 月1 日。

[11]Stanford University: Mapping the Republic of Letters. http://republicofletters.stanford.edu/, 2019 年9 月1 日。

[12] 参见李惠、侯君明:《古代书信体文献的社交网络模型》,《南京师范大学文学院学报》2018 年第3 期。

[13]J. W. Tukey, Exploratory Data Analysis, Boston: Addison-Wesley, 1977, pp. 1-8.

[14]《曾国藩全集》,长沙:岳麓书社,2011 年。

[15]《唐浩明评点曾国藩书信》,长沙:岳麓书社,2011 年,第1 页。

[16]陈书凯编:《曾国藩家书》,北京:蓝天出版社,2006 年,第1—10 页。

[17]M. E. Newman, “Scientific Collaboration Networks. II. Shortest Paths, Weighted Networks, and Centrality,” Physical review E, vol. 64, 2001.

[18]参见《唐浩明评点曾国藩书信》,第22 页。

[19]黄顺力:《试论曾国藩的建军思想》,《厦门大学学报(哲学社会科学版)》1989 年第4 期。

[20]梁绍辉:《曾国藩评传》,南京:南京大学出版社,2006 年。

[21]董蔡时:《论曾国藩与晚清政柄、兵柄的下移》,《苏州大学学报(哲学社会科学版)》1992 年第1 期。

[22]张晨怡:《晚清湖湘理学群体与湘军网络的形成及维系》,《江苏社会科学》2017 年第2 期。

[23] 成晓军:《新版〈曾国藩全集 · 奏稿〉的整理经过及其史料价值》,《近代史研究》1997 年第6 期。

编 辑  |  严程  陈新欢

原刊《数字人文》2020第一期, 转载请联系授权。