哲学与数字人文研究工作坊实况述要——古籍整理、平台搭建、知识图谱实践及哲学文本分析应用

作者:胡士颍;转自:公众号 DH数字人文

编者按:

2020年12月11日,中国社会科学院哲学研究所组织了一场别开生面的数字人文工作坊。工作坊中,北京大学杨浩老师以开诚布公的态度,详细介绍了自己和同行们近年来在数字人文平台建设、研究方面所做的工作。他的发言激起了与会者的热烈回应。在当今学界,数字人文是计算科学和人文社会科学交织形成的融合地带,我们希望此次工作坊能够在该领域带动一种求真务实、实事求是、畅所欲言的学风,为数字人文打开真正的讨论和创新的空间。以下为工作坊发言纪实和述要。

———————————–

2020年12月11日,社科院哲学所+线上会议

主讲人:杨浩(北京大学)

与谈人:李林芳(北京大学中文系),王贺(上海师范大学),马清源(山东省图书馆),赵薇(中国社会科学院文学研究所),高颖(中国社会科学院哲学研究所),胡士颍(中国社会科学院哲学研究所),宋学立(中国社会科学院历史研究院古代史所),马东(中国社会科学出版社)

———————————–

胡士颍:

首先, 作为主办方,我们非常荣幸邀请到北京大学《儒藏》编纂与研究中心助理教授、北京大学数字人文中心副主任杨浩老师,杨老师对我们无论在学术研究还是在学术资料、数字人文方面的帮助都非常大;李林芳博士现为北京大学中文系博士后,虽然是中国古典文献学专业方向,对拉丁语、希腊语也有深入学习,前段时间在《数字人文》上发表过一篇利用正则表达式研究《诗经》文献的文章;王贺老师是上海师范大学副教授、数字人文中心副主任,在各大刊物上发表文章上百篇,在数字人文方面也很可观;马清源老师现就职于山东省图书馆,山东省图有得天独厚的馆藏并且在数据库方面也很有特色;赵薇老师在社科院文学所的研究方向之一是文学与数字人文,成果在海峡两岸都有发表,也是《数字人文》学刊“基础设施”栏目的主持人和编辑;宋学立老师是社科院历史研究院古代史所副研究员,是全真教研究方面的专家,曾和我商量过全真教文献数据库的建设与利用。这次邀请大家来发表真知灼见,对我们哲学所图书资料工作必然会有重要指导和帮助。

其次,介绍一下哲学所图书资料室的工作和哲学所老师们在数字人文方面的有关研究。哲学所图书资料室在1955年建所时就成立了,目前负责哲学所书库管理、哲学资料及数据库建设、信息化建设等几个方面的工作。高颖老师是现任图书资料室副主任,她是北京师范大学图书馆与信息化方面的专业科班生,发表过科研信息与学科服务、哲学研究热点与知识图谱分析等多个方面的文章。高文娟、于力、兰倩三位老师也都是图书情报与文献学、计算机专业和图书馆业务方面的骨干人才。最近,我们从2017年到2019年对哲学所古籍进行比较彻底的清理核查、著录和拍照工作,形成比较全面、可靠的数据,为今后古籍管理保护和开发利用打下良好基础。哲学所的老师们也一直密切关注科技发展与现代学术、未来世界等方面的问题并发表过多篇重要文章,如赵汀阳、李河、段伟文、杜国平、甘绍平等研究员,讨论人工智能、科技哲学、技术与伦理、逻辑、数字人文等方面的前沿问题。前不久,李河老师在《中国社会科学》发表《从“代理”到“替代”的技术与正在“过时”的人类?》一文,其中论述了“数字人文的后人文含义”,从哲学角度提出:数字人文是否将根本改变传统人文科学知识的文本生产方式和存在形态?指出这一颠覆式发展是“从人文到数字化的后人文”,其发展会造成天才之死、作者之死,传统人文科学最终难免成为孤魂野鬼;现在已有国家将“后人类人文科学”教育政策化、体制化,这背后的技术、道德、社会等许多问题都必须予以面对。

杨浩:

(以下为综述)

首先是关于平台搭建方面的情况介绍。学衡数据(www.xueheng.net)建站的内部架构尽可能简单实用,这个网站的初衷是坚持为学术研究提供方便、快捷的资料查找,以及一些高阶利用的具体实现。目前我们测试的有正统道藏、大藏经与续藏经、文渊阁四库全书、四库丛刊等主要内容,另外还有常用工具、古籍库、全集库和专题库等在建项目。

《宋元学案》知识图谱是北京大学信科学院王军教授主持并且已经公开可用的项目。这个项目在文本、图谱、应用的整体架构,文本处理与图谱构建、图谱系统等方面的应用性很强,能够以学术流变、学派传承、师承关系、人物关系、人物卡片、学略阅读、人物游历、人物迁徙、历史地图、学者数量、经典著作、语义检索等多个层面产生实际应用价值。此外,数字人文研究导航、数字人文资源导航两个项目,展现了文本挖掘、网络分析、地理空间分析及问题发现、数据收集、数据分析、结果呈现等许多方面的案例与效果。

古籍整理核心算法研究、古籍整理与研究平台设计集合了数字人文研究平台和古籍数字整理平台,涵盖了古籍整理、古籍多层次阅读、知识网络构建、协同工作环境、科研辅助研究工具与分析工具等方面的功能,对古籍整理效率、质量、自动化与可学习性具有重要意义。

其次,在具体的文本分析方面,以《论语》为例,《论语》是中国的传统典籍,千百年来深刻地影响着一代又一代中国人的思想,作为儒家核心经典,形塑了古代中国人的思维方式与处事原则。作为中国古代最有代表性的语录体著作,它由各条语录组成二十个篇章,那么,这些篇章到底是随意的排列,还是有一定的规律?历代学者提出了众说纷纭的说法,针对著名的“半部”《论语》的典故,我在《以何“半部”<论语>治天下?——基于文档向量相似性的论语篇章结构分析》尝试用数字人文的方法对这一问题进行推测性的解答。具体是通过计算每篇文档向量相似性,从概念出发,在篇章层面进行了相似度的计算与配对,最终确实得出《论语》前半部与后半部有较大的差别,在篇章分布上也呈现出量化之后的一些新结果。另外一个研究,《基于概念共现聚类方法分析<论语>中仁与礼的关系》,则是基于概念共现聚类方法,来研究《论语》中儒家思想在“仁”与“礼”之间产生的张力关系。例如,《论语》到底是以“礼”为核心,还是以“仁”为核心呢?这个问题很难有确定的答案。因为标准很模糊,难以进行量化的比较。由于“仁”、“礼”都是单字成词的概念,基于字频的统计,不难发现,“仁”出现109次,而“礼”只有75次。但是这样的统计,过于简单,彻底忽略了它们与《论语》中其他各类词汇之间的关系。所以这个研究尝试以一种基于概念共现聚类的方法,来分析“仁”与“礼”各自所属的概念类别在《论语》中的大体关系如何。

王贺:

今天是哲学与数字人文工作坊第一期,我想,除了技术、方法层面的探讨,我们还有必要从哲学的层面来做一些思考。

那么怎么认识数字人文,或是人工智能技术带给人文学术的影响?毫无疑问,首先是技术的变革(或所谓的第四次工业革命)促使人文学者的知识经验、组织发生重大变化,因此,首先我们需要从技术哲学的角度来考虑这些问题。从近代哲学的奠基人笛卡尔,到技术哲学之父培根,他们都强调了人和技术(机器)的二分法,试图处理当时已经出现矛盾、冲突的物质和身体、心灵、人性的关系,但他们仍认为人可以征服机器。到了18世纪,梅特里则提出“人是机器”的论述,指出“人本身就是一台复杂的机器,自己可以发动自己的机器,”思想和有机物之间的关系“绝不是不可调和的,而且看来和电、运动的能力”等等一样,是有机物的一种固有属性。当然,19世纪的马克思的“机器论”以及某种程度上的技术决定论更为我们熟知,他的一个重要判断是“风力磨坊带来了封建社会,蒸汽机磨坊带来了产业资本家社会”,也更提醒我们注意技术(机器)的不透明的一面,以及其带给我们的进步的、解放的、民主的幻觉,启发了当代很多左翼批评家的思考。不过,同样值得重视的是20世纪一位重要的哲学家海德格尔,他很早就预见了技术社会的兴起是一个必然趋势,其对打字机遮蔽/揭示存在、人类的本质的讨论,至今仍具启发意义。此后麦克卢汉等人对媒介的研究、基特勒对数字媒介的讨论等,为我们理解技术、媒介与人类的关系,尤其是文化与社会的媒介化、技术化,以及人类如何因应这一变化,两者之间如何相互作用等,也提供了很多思考的方向。

但我想强调的是,在技术哲学的思考维度之外,对数字人文相关理论问题的认识,还可以有政治哲学、伦理学、数字诠释学等多个维度。

总之,今天我们对数字人文的认识,不是抱持简单的反对和赞成态度。我们既不是学术思想界的路德分子,也不必是惠特曼、郭沫若,因为数字人文已经是一个热点,对热点我们也许需要做一些“冷”思考;同时,除了持续不断地做“实”的研究,恐怕也还要一些形而上的、“虚”的探索。

赵薇:

杨浩老师实事求是地谈到,数字人文颠覆传统人文是不可能的,连第一步还没迈出。我相信,这应该是当下任何真正在做实践的人都深有体会的,至少我个人无比同意。像杨老师,胡老师,近年来从事的其实是基建的工作,漫漫长路,最累,最需要坚持,他们积数年之力构想和设计的“学衡数据”,可谓原生态的数字人文,保持了一种活泼泼的“在野”的状态。杨老师开发的文本对勘工具,早有所闻,也是“前数字人文时代”的工作了。如此默默做实事,不搞事情,不谈玄尚虚,不抢占高地和象征资本,对于现在的数字人文生态来说,都是值得提倡的。同时,我也很感慨,和很多真正由人文学者自己主导建设的平台一样,学衡数据也碰到了开放数据和使用权受限问题,所以下一步是能否通过调用API,倒逼一些商业数据开放,解锁版权问题等等,让更多研究者受惠于共享数据库。

在研究部分,杨老师讲得很好很坦诚,连底层数据都给我们看。我看得比较兴奋,由于我们正在做的几个研究也用到一些共通的手段,所以我有一些感兴趣的问题,大致总结如下:一个是关于《以何“半部”<论语>治天下》,既然关心的是前、后半部分“篇章结构”的相似性,那么就文本表示模型来讲,词包模型是否有点低阶?其次,用词向量来定位文本,再聚类做相似性比较,是一个合理的思路。这里涉及到高维数据(170个特征概念即170维)的测量问题,我注意到杨老师并没有像通常那样做降维分析,而且得出了95%,98%这样的理想结果,那么是否可以借助进一步的统计手段,将差异显著性呈现出来,使结论更有说服力?第二个研究,其实是一个概念网络,让我想起郑文惠,邱伟云老师的概念史研究,可以说杨老师是比较成功地将数字概念史的思路引入了古代哲学和思想史研究中。我在这里感到有意思的是,该研究运用1-gram和2-gram做切词处理,以1-gram为主,那么可能会涉及一个古汉语中单字是否可以作为基本语义单位来理解的问题。我刚用学衡上的《论语》文本检索了一下作为概念节点的“乡”这个词,至少看到了“鄉黨”“互鄉”“鄉原”这三个结果,我们知道它们的意思还是不太一样的。当然了,这也许也无关大碍,因为如果基于词频的筛选过程够科学,后面三个词是有可能会被筛掉,或另作处理的。另外我也在想,现在人工筛选的依据是什么,对于这些重要的哲学范畴,是否可以将它们作为“种子词汇”,把相关概念群自然而然地“钓”出来?总之我非常期待看到杨老师的这两项研究正式发表出来。

最后是关于知识图谱的可计算问题。我们看到《宋元学案》的知识库很强大,学术流变,师承关系等等,桑基图很靓,解释性很强,实体关系呈现很直观。我注意到杨老师介绍的一项宋人人物关系“强连通分量”的研究,仍是基于单一关系类型的量化,似乎没有利用这个花了很多精力建成的“多模网络”(图谱自身)。那么,在所谓知识网中,到底如何能将网络分析的核心计算功能发挥出来?这也是我目前的一个困惑,是我们在建构和研究诸如近代期刊发表和翻译网络时,没有选择基于RDF的一个原因。也就是说,知识图谱如何超越百科全书性质,能有一些真正基于计量的知识发现?是否如杨老师提到,语义检索仍然是这一类建设能提供的基本功能?抱歉的是,我们刚刚在开总结会,演讲听得不真切,只是大致跟下来,我的问题不是针对杨老师的,更是求教于学界的,因为这些是需要我们共同面对共同探索的。

《宋元学案》知识图谱网站首页,https://syxa.pkudh.org

李林芳:

感谢杨浩老师的讲座,从中学到了许多。尤其是最后讲析的两篇论文,颇有耳目一新之感。前面几位老师已经从多个方面分享了心得见解,既深入又切要;那我就从一名古代人文学科学习和研究者的角度,汇报一下自己的听讲所得和相关思考。

我认为,在自己的研究中,数字人文方法体现了两方面的特征。一方面是作为研究的辅助,即更为工具性的一面。在过去的研究中,我们使用纸、笔来积累材料,使用卡片等来协助整理、分析资料,使用文件袋来对成果进行整理、归档。而现在电子信息技术手段则能提供相当多的便利。如将所需资料皆加以电子化,使用程序语言灵活地处理、分析相关材料,使用 git 等工具来协助论文的归档、备份、版本控制等。在这种情形下,数字人文和传统人文研究之间的鸿沟其实并没有那么大,某种程度上只是工具的革新替换,从而使相关工作能够在某些场景下完成得更有效率。比如我自己就常将 Python 和 Excel 相结合,深入分析搜集到的材料;又用 git 归档、备份所写的各种笔记和文章。而杨老师的学衡网站上也提供了不少常用工具和功能,比如文本比较工具、转写工具等,并支持正则表达式的全文检索,这些都是我们在学习和研究的过程中可以善加利用的地方。

而另一方面,数字人文方法则有助于新问题的发现,这就体现了其更具创新性的一面。比如通过积累大量材料,构建人物关系图谱,从中发现某些原本未曾注意的人物联系,或者未曾料及的人物重要性。若使用传统的研究方法,首先从纷繁庞杂的研究材料中梳理归纳人物关系本即不易,其次阅读文本也不如图形呈现更显直观。又如通过构建模型、全面统计,将其结果与既有认识相验核;若二者有不符之处,则深入考察个中缘由——杨老师分享的论文即颇给人以启发。这一创新性的方面正是数字人文研究所体现出的重要价值,值得做更加深入的探索和挖掘。

总体而言,研究需得解决问题。从所熟习的研究领域来看,数字人文确实有助于相关问题的解决。比如杨老师所呈现的关于古籍整理校勘的流程,能够极大地发挥计算机和人的各自的特性,实现专家做专家之事的效果。又如在古代文本研究中,相似文本是很重要的材料。在目前的研究中,相似文本的发现在很大程度上仰赖学者本人广博的知识储备、精深的专业知识、良好的记忆力和敏锐的观察力。而凭藉某些算法,我们可以在一定范围内运用计算机发现相似文本,这就能为文本研究带来助益。值得一提的是,ctext和ARTFL上已经提供了研究论文和相关功能(感谢赵薇老师的提示)。我拜读了论文,感到很受启发,认为可以借助这一算法并在此基础上展开更广和更深层面的文本研究。总之,从古代人文学科的角度来看,数字人文中的新方法、新视角不仅能为研究带来便利,还能为研究提出新问题、带来新思路,从而推动相关研究的进展。

关于常见数据库,我在使用时也有一点点自己的想法。目前已有不少全文数据库,同时也有一些研究平台,内里提供了丰富的功能,能够在很大程度上满足特定研究的需要。不过,由于研究本身的创新性,其中常有许多更为个性化的需求。所以如果平台能够增强开放的程度,如支持正则表达式检索、提供API来实现对数据的直接操作等,这与提供丰富的已经定制好的功能相比可能也是同样重要的项目。

最后,我还是想对杨老师的工作表示感谢。杨老师多年来一直在维护学衡网站,持续添加新内容、新功能、新工具,可谓是矻矻不倦。由于我自己也建过一个小站,所以深知建站之不易,更知长期维护所要消耗的精力、财力、物力之巨,以及个中艰辛和出力不讨好之处。而杨老师的网站不仅不收费,而且还将内容完全开放,源代码公开,这实在是令人赞叹敬佩之举。目前也有一些其它类似的网站为学者所广泛使用。我相信,互联网的某些精神,以及秉持这些精神无私奉献的人士,在现在乃至将来都必然是推动学术发展的重要助力。

胡士颍:

我对数字人文谈不上研究,今天主要是请杨浩老师和各位先进畅所欲言,这里简单谈一些观感和介绍目前上手的项目。我去年在《中国道教》发表过一篇《道教数字人文平台建设刍议》,今年数字人文方面的讨论持续发展,我个人将之概括为四个方面:第一是作为工具的数字人文技术层面,目的是通过数字人文技术提供研究便利、数据保护、图像数据立体形象展示等等方面,算是“数据库”的升级版;第二,是在信息数据的储存、收集、交易等问题上谈数字人文,这一问题可以看作信息化和大数据技术的延伸问题;第三,作为颠覆者和新范式的数字人文,对知识生产、知识传播、教育结构等将会产生根本的影响;第四,数字人文发展的同时也伴随着批评、反思,这方面的研究也值得注意,他们所针对的某些数字人文迷狂、数字化依赖及其可能产生的危害等问题应该被重视和预防,而数字人文时代学术的方法论、认识论、学术规则等仍需持续、深入思考。我个人和很多学者一样,目前正在补课,学习数字人文基本知识和技能,也开始练习建设“易学数据库”,目前主要借助杨浩老师编写的学衡数据的数据库框架,还有一些细节的工作需要完成。

在随后的环节中,山东省图书馆历史文献部马清源介绍了该馆自建的两个古籍数据库,分别为周易数据库及佛经数据库。佛经专藏系该馆的特色馆藏之一,该馆现藏历代佛经两万余册,其中有《碛砂藏》1册,明《永乐南藏》5部、《永乐北藏》3部,清龙藏1部及大量的明清单刻佛经。2018-2019年该将馆藏《永乐南藏》《永乐北藏》各一部进行了数字化工作,建成佛经数据库,对公众开放阅览。目前已发布《永乐南藏》6500余册,近20.5万拍,《永乐北藏》5050册、18.6万余拍。据了解,该馆发布的《永乐南藏》系目前网络公开的唯一一份《永乐南藏》数字资源,数据库发布之后取得了较好的反响,目前正根据读者的反馈情况持续修改升级。

哲学所伦理研究室副主任龚颖研究员介绍了自己从事明清思想、日本思想史和伦理学研究方面的工作与数字人文研究的交叉应用和拓展空间,指出知识图谱中的人物关系在反映学术的动态流变、宋代朱子学派形成、明清思想史中书籍与人物迁移等多个方面将有很大研究和应用空间。历史研究院宋学立副研究员从使用和体验的角度肯定了杨浩老师搭建的学衡数据网站。他认为,仅从民国以来书籍的演变发展看,数字人文是消化人类日益增长的知识生产和未来发展需求的必然产物。此外,中国社会科学出版社数字出版中心马东老师还从数字出版的角度讨论了数字人文的应用现状与前景,提出在现有数据库基础上与学者深度介入、合作共建的数据利用模式。

转自:公众号 DH数字人文,转载请联系授权。

zh_CNChinese