[北大]“人文研究中的数字方法”——跨学科读书会

[北京大学数字人文研究中心网站消息]2021年7月5日上午,在北京大学历史地理研究所王长松老师和数字人文研究中心王军老师共同主持的 “数字人文跨学科读书会” 上,来自信息管理系的梁兴堃老师、夏汇川老师,伊利诺伊大学香槟分校数字人文研究方向的尚闻一博士生,北京大学历史学系陈钰琪博士生,以及信息管理系、历史学学系、中文系和城市与环境学院约20余位同学,围绕两篇由尚闻一同学推荐的近年的研究论文进行了导读与讨论。
本次读书会包括两个环节。首先在王长松老师的主持下,历史学系博士研究生陈钰琪和信息管理系博士研究生唐雪梅先后各自导读了一篇论文,分别是侧重史学分析的论文(The Evolution of the Tang Political Elite and its Marriage Network. Journal of Chinese History)和侧重方法的论文(Machine Learning and Human Perspective),随后论文的推荐者尚闻一博士生对论文内容与要点进行了补充,在此基础上老师和同学们对论文研究问题、使用数据、使用方法和结果等进行了思辨与交流。随后,大家基于讨论的文章和自己的研究、学习、教学经验,对数字时代青年学者面对的机遇与挑战进行了交流。
1. 阅读
Paper.1 唐代政治精英的发展与婚姻网络

Tackett, N. (2020). The Evolution of the Tang Political Elite and its Marriage Network. Journal of Chinese History, 4(2), 277-304.

导读
(历史学系博士研究生 陈钰琪)
这篇文章使用了来自传CBDB(August 2017 release)和TBDB(version 1)的唐代墓志铭的数据,相较于传统的正史传记材料和个案研究,使用这些结构化的新出土的墓志铭材料提供了更丰富的历史细节,并为系统性的整体研究提供了可能性。作者认为传统学者的研究中往往带有主观预设,例如根据家族背景和郡望等信息划分出不同的政治集团时,会预先设想其为紧密的政治体;而在这篇文章中,作为实证主义的社会网络分析可以使用亲属关系和婚姻关系等数据,更客观地建构出人物网络与政治集团。由此,作者从世族婚姻网络、宰相出身背景、都城精英构成、地方精英与皇权四个部分来分析整个唐代官僚集团,或者说政治经济精英的发展演变和婚姻网络。
最终,作者得出的结论有:①唐代政治精英在历史发展中始终具有连续性。祖先多曾任官于前朝政权,后代居住于都城地区,家族隶属于以皇室为中心或以禁婚家为核心的两种婚姻集团。②隋代和初唐的统治者为削弱地方世族而进行的制度改革,并没有真正导致旧世族的衰落,其后代在迁至都城地区以后,适应了新的环境,反而加强了家族的势力,直至唐代末年才真正衰落。③唐朝建立以后,地方精英的政治参与度大幅下降,直到安史之乱后,地方精英才得到更多任职的机会,并且得以在本地而非异地任职。④武则天执政时期,洛阳地区的旧世族尤其是禁婚家的势力显著上升。⑤在唐代后期,禁婚家内部更频繁地联姻以巩固声望,世族后代通过墓志铭追溯祖先功绩、强调郡望等手段维护政治地位。
交流
陈钰琪同学从 “作者如何利用数字方法得到的结论与史学家利用传统方法开展对话?作者是否试图验证/推翻某种结论?使用数字方法在其中的意义何在?” 对本文进行总结,并引发了老师与同学们的精彩讨论。
夏汇川老师首先对本文提出了面向唐代墓志铭分析的方法论的普适性提出了疑问。梁兴堃老师基于方法论视角从静态与动态社会网络、适用于更多细节的回归分析等未来研究的细节上进行了回应,并表明 “从量化的角度来看呢,只有频率和频数来说明这些问题是远远不够的”。尚闻一博士生也进行了补充,他认为 “数字人文方法,特别是对于中古史研究,并不是像科学式研究一样提出假设、验证假设的过程,它更多是对研究结论进行一种重述……数字方法并没有提供新的材料,也就几乎不可能提供新的结论,但提供了一种新的视角,得以将材料综合起来,得出系统性、综合性的论断”
王长松老师回到材料,与同学们探讨了墓志铭材料的数据化与分析角度,在此基础上抛出了 “数字方法在此类研究中的意义何在” 的问题。信息管理系和城市与环境学院的同学依据自己的专业背景也对数字人文研究的方法论予以讨论。王长松老师也分享了他的研究团队在处理古代材料时的经验,他解释道 “通过这篇文章和其他的研究,可以看出,我们不要迷信数字方法能够把所有东西都解决,传统的方法有传统的优势,并且是非常必要的……人文的方法不是验证假设,但数字人文的方法下同样的数据使用同样的方法应该可以得到相同或相似的结论,这也是一种验证”
Paper.2 机器学习与主观视角

Underwood, T. (2020). Machine Learning and Human Perspective. PMLA/Publications of the Modern Language Association of America, 135(1), 92-109.

导读
(信息管理系博士研究生 唐雪梅)
本文的核心观点是Numbers are useful for measuring objective facts but not for interpreting perspectival differences(即数字对于衡量客观事实是有用的,但对于解释视角的差异是无效的)。文章主要给出了三个例子。首先,通过将人名聚类,然后识别和人有语法关联的单词,比较两个世纪以来不同性别的作者在进行人物塑造时使用的语言,分析了在人物塑造中使用的性别标志如何随作者的身份而变化,以进一步探讨性别的转变。其次,通过图书馆员的分类标签来看“科幻小说”和“奇幻小说”两种体裁的小说在1870到2010年之间的差异,可以发现随着时间的回退,两种类型之间的差距会越来越大,这一不断扩大的差距表明,科幻小说的界限比奇幻的类型的界限更早固化。最后,两组不同的模型通过不同的训练语料得到(1910-1919年,1940-1969年),预测1940到1969年科幻小说的概率,从战前的视角看战后的哪些作品最难被判定为科幻小说,以了解战前和战后科幻小说的区别。
作者通过举例和论述,表明了定量方法和解释方法之间的界限始终是可以渗透的。由于学习算法依赖于实例而不是固定的定义,因此它们可以用来建模特定的生产或接收社区共享默认的假设。这种方法给定量研究提供了一种新视角,即允许学者从过去特定的有利位置来考察文化,甚至可以测量有利位置之间的视差。
交流
本文作者的学生尚闻一博士生对这篇文章的主旨内容进行了补充,“这篇文章的几个实验是服务于作者所提出的观点,作者并没有验证某一个问题,而是用这些例子去传达一个观点——机器学习并不是用来衡量客观,它恰恰是用来衡量主观”。尚同学还提出,“作者在本文试图反驳20世纪一个‘安全的共识’,numbers are useful for measuring objective facts but not for interpreting perspectival differences;作者是如何论证数字方法天然适合阐释‘perspectival differences’的?对于这种阐释,其相比于传统方法的优势何在?”。作者在文中提到,“机器学习的方法依赖例子,而不是确定的定义,因此可以使用机器学习的方法对隐含的假设来进行建模,这个隐含假设是被特定的社群或者观念所共享的,在这样的情况下,机器学习的方法就给了量化方法更多的自由性,它能够允许学者们去研究文化、衡量不同视角下的差异”。
梁兴堃老师结合自己管理学背景和图书馆学的工作经验,就衡量主观这一观点进行进一步的探讨, “我其实很认同这一点,举个例子,比如长松老师刚才在关于长安氏族的居住空间课题中提到的这些氏族的房子究竟是买的还是继承来的问题。也许现在现实数据里根本就没有这个记载,但我们可以假定在唐朝整个时期,这些人继承住房的概率和他的购买住房的概率,这些概率也会受到一些因素的影响,那么我们可以建模把这些概率计算出来,然后再来判断他的住房的来源途径。也就是说,机器学习提供的是一种建模的方法,并不是要验证一个确定的结论,最后验证的结果是一定的前提假设下,这种结果成立还是不成立……也就是说,这种验证取决于先决条件,即提前的预设” 。梁老师也强调了主观预设的合理性的重要性。随后,夏汇川老师同线上的同学们一起探讨了本文的研究细节与对作者对实验结果的诠释。
2. 对话
王军老师在今天讨论的基础提出 “在人工智能的环境下,机器可以对文本进行更深层次的处理,这样的智能信息环境对人文学科提出哪些挑战?对于我们的研究生同学来讲,在传统的学术训练基础上要做哪些方面的拓展?”
尚闻一同学首先做出了回应,“我个人对数字人文首先是服务于人文的,并且它最终的目的是要取信于人文学者。在此基础上需要进一步去考虑的问题有‘使用这个方法究竟给这个学科、给这个问题的解答带来了什么’,‘这种方法是否规避了文化的问题、是否带来了新的问题’,‘无论是新的建树还是新的观点、新的视角还是新的方法,它是否具有一定的意义’。当这些问题都满足的时候,它就是一个合格的数字人文研究”。王军老师进行了补充,“能问出什么样的问题来,是否实际上取决于我们有什么样的工具。新的方法、新的工具、新的材料,能赋予我们问出新问题的能力”。总的来说,一方面数字方法要取信于人文学者,另外一方面人文学者也需要接受并应对新的环境。城市与环境学院历史地理专业的硕士研究生张帅也发表了自己的看法,“数字人文是一种使人文学科看起来更加科学化的一种尝试,就像今天讨论的过程中我们在想如何复现作者的结果,这其实就是科学的思维”
王长松老师补充道 “我们不要把数字人文看作是万能钥匙,它不是什么都能解决。比如说我们可以进行整体化的、系统化的、长时段的研究,但同时我们也会丢失掉很多,当然在在整体化的框架下,我们可以发现了问题并细化,这个过程也需要数字方法” 。王长松老师随后对同学们的发言进行了总结,在数字人文范式下,目前,研究者的时间和精力发生了转移,建设数据库需要大量的时间和人力;而在数据的基础上,分析结果往往很短时间就可以得到。
3. 结语
本次 “数字人文跨学科读书会” 是数字人文中心第一次组织跨学科的读书会。通过线上和线下共同交流的形式,北大信息管理系、历史地理研究所、历史学系、中文系的师生与美国伊利诺伊信息学院博士生同学在一起对数字视角下的人文研究问题、研究数据、研究方法和结果等做了深度的交流和讨论。这种跨学科的讨论从不同的学科视角切入同一个话题,拓展了大家的思考维度,给与会者带了诸多启发。大家希望日后还能组织类似的研讨会,吸引更多的师生参加。