“古籍整理、平台搭建、知识图谱实践及哲学文本分析应用”工作坊

(哲学中国 公众号消息)2020年12月11日,第一次哲学与数字人文研究工作坊在中国社会科学院哲学研究所举行,本次活动主题是“古籍整理、平台搭建、知识图谱实践及哲学文本分析应用”。本次活动由哲学所图书资料室主办,来自北京大学、清华大学、上海师范大学、山东省图书馆和中国社会科学院历史研究院、文学所、哲学所、社会科学出版社的专家学者通过线上线下方式参与。北京大学《儒藏》编纂与研究中心助理教授、北京大学数字人文中心副主任杨浩老师首先作了内容丰富、讲解精彩的报告,包括学衡数据网站的平台搭建、《宋元学案》知识图谱、古籍整理与平台设计、古籍整理算法研究、数字人文研究导航,以及两篇针对《论语》文本的分析应用案例等等。

关于平台搭建,杨浩老师介绍了建站的初衷、内部架构、数据呈现等诸多方面,及其坚持为学术研究提供方便、快捷资料查找与高阶利用的想法与具体实现方式。

《宋元学案》知识图谱是北京大学信科学院王军教授主持并且已经公开可用的项目,杨浩老师从文本、图谱、应用的整体架构,文本处理与图谱构建、图谱系统做了详实解说,并以学术流变、学派传承、师承关系、人物关系、人物卡片、学略阅读、人物游历、人物迁徙、历史地图、学者数量、经典著作、语义检索等多个层面介绍了图谱的实际应用。此外,杨浩老师介绍了数字人文研究导航、数字人文资源导航两个项目,展现了文本挖掘、网络分析、地理空间分析及问题发现、数据收集、数据分析、结果呈现等许多方面的案例与效果。

古籍整理核心算法研究、古籍整理与研究平台设计集合了数字人文研究平台和古籍数字整理平台,涵盖了古籍整理、古籍多层次阅读、知识网络构建、协同工作环境、科研辅助研究工具与分析工具等方面的功能,对古籍整理效率、质量、自动化与可学习性具有重要意义。

就具体的文本分析,杨浩老师以《论语》为例,在《以何“半部”<论语>治天下?——基于文档向量相似性的论语篇章结构分析》中指出:《论语》为中国古代最有代表性的语录体著作,其由各条语录组成二十个篇章,这些篇章到底是随意的排列,还是有一定的规律,历代学者提出了众说纷纭的说法,针对著名的“半部”《论语》的典故,尝试用数字人文的方法尝试对这一问题进行推测性的解答。具体则通过计算每篇的文档向量相似性的方法,从概念出发,对篇章层面进行了相似度的计算与配对,最终确实得出《论语》前半部与后半部有较大的差别,在篇章分布上也呈现出量化之后的一些新结果;基于概念共现聚类方法分析《论语》中仁与礼的关系,杨浩老师指出《论语》是中国的传统典籍,千百年来深刻地影响着一代又一代中国人的思想。其作为儒家核心经典,形塑了古代中国人的思维方式与处事原则。在《基于概念共现聚类方法分析<论语>中仁与礼的关系》文中指出,《论语》所记载的儒家思想就在“礼”的理念与“仁”的理念之间产生一定的张力。那么,到底《论语》是以“礼”为核心呢?还是以“仁”为核心呢?这个问题很难有确定的答案。因为标准很模糊,难以进行量化的比较。由于“仁”、“礼”都是单字成词的概念,基于字频的统计,不难发现,“仁”出现109次,而“礼”只有75次。但是这样的统计,过于简单,彻底忽略了《论语》其他的各类概念。而尝试一种基于概念共现聚类的方法,来分析仁与礼在《论语》中概念群中所处的地位。

与会学者对杨浩老师的报告内容、分享精神以及多年来投入的巨大精力和付出表示高度赞赏,也分别介绍了自身所从事与数字化、数据库和数字人文方面的工作,对杨浩老师的报告进行深入探讨。哲学所伦理研究室主任龚颖研究员介绍了自己从事明清思想、日本思想史和伦理学研究方面的工作与数字人文研究交叉应用和拓展空间,指出知识图谱中的人物关系在反映学术的动态流变、宋代朱子学派形成、明清思想史中书籍与人物迁移等多个方面将有很大研究和应用空间;数字人文发展,一方面前景广阔,另一方面学者们的个体研究、思想仍然具有独特和不可抹杀的价值。上海师范大学中文系副教授、数字人文中心副主任王贺老师从哲学的角度国内外对数字人文发展的几种典型观点进行比较和反思,认为哲学对数字人文的角色定位、理论本质和深层问题的探讨具有重要作用。北京大学中文系李林芳博士,从古典文献学研究指出正则表达式在文献查找方面的可用性与实例,以及数字人文目前在相似文本方面的应用价值,此外还介绍了自己搭建网站方面的经验。山东省图书馆马清源老师介绍了山东省图的特色馆藏以及在善本书数据库、易学古籍数据库、佛经数据库方面的经验,指出目前数据库建设、数据获得与利用维护方面的问题与解决办法。文学所赵薇老师提出目前数字人文发展的技术、版权、开放性等瓶颈问题,并对杨浩老师关于《论语》文本分析中的数据采集、算法等多个方面进行深入的讨论。历史研究院宋学立副研究员认为,仅从民国以来书籍的演变发展看,数字人文是消化人类日益增长的知识生产和未来发展需求的必然产物,从使用和体验的角度肯定了杨浩老师搭建的学衡数据网站。中国社会科学出版社数字出版中心马东老师从数字出版的角度讨论数字人文的应用现状与前景,提出在现有数据库发展基础上的与学者深度介入、合作、共建的数据利用模式。

本次活动由哲学所图书资料室副研究馆员胡士颍主持。胡士颍概述了近几年哲学研究所赵汀阳、李河、段伟文、杜国平、甘绍平等几位老师发表的多篇探讨科技哲学、人工智能、逻辑学、伦理学等与数字人文相关的丰硕学术成果;介绍了哲学所图资室的基本情况和所负责的工作,在科研信息与学科服务、哲学研究热点与知识图谱分析、数据库与网站建设、数字人文理论探讨等方面的成果,以及近期完成的比较彻底的古籍核查、著录、拍照工作,此次核查获得了更为全面可靠的数据,为下一步古籍管理保护和开发利用打下良好基础。

本次活动资讯、录音、视频和研讨成果等将在“哲学中国”微信公众号、哲学中国网、《数字人文》等媒体和刊物上发表。

供稿:胡士颍(中国社会科学院哲学研究所副研究馆员)