“古籍智能信息处理”系列研讨会第八讲(附视频)

2022年10月22日下午两点,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第八讲在腾讯会议如期举行。本次讲座由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学苏祺副教授和南京农业大学王东波教授主持。

此次讲座的主题为“古籍的自然语言处理”,厦门大学史晓东老师老师、北京师范大学胡韧奋老师、南京农业大学王东波老师以及北京语言大学李炜老师先后发表了精彩的报告,随后苏祺副教授主持了讨论和互动环节,各位老师针对观众的提问给出了自己的独到见解。本次研讨会通过腾讯会议、哔哩哔哩平台同步直播,来自国内外高校及相关研究领域的一千多位学者共同观看,共襄盛会。

开场致辞

会议开场,苏祺副教授提到古籍从数字化走向智能化的一个非常重要的环节,就是自然语言处理,即通过计算机、人工智能的手段对人类自然语言进行加工和处理,实现其数字化、智能化的转变。因此,自然语言处理技术可以说是古籍数字化或者数据化的重要一环,也是确保古籍能“活”起来、“智”起来的根本。随后,苏祺副教授介绍了参与本次研讨会的四位专家,各位专家先后发表了基于各自主题的精彩报告。

专题报告

一、基于大规模古籍数字化语料的异体字智能识别

史晓东老师从古籍数字化语料中的异体字出发,分别从异体字概念和研究意义、异体词到异体字及其自动识别、异体字词典的自动生成和应用以及未来工作等方面进行了相关介绍。通过对比传统异体字字典,史晓东老师指出采用古籍大数据+人工智能方法,以计算机算法自动进行异体字识别,并在线出版的方式更加具有优势。在异体字自动识别方面,老师提出了两种方法:搜索引擎和深度学习,并分别对其研究作了相关介绍。异体字词典在古籍可应用于繁简转换、古籍断句、古籍自动校勘、古籍命名实体识别、历史事件挖掘、异体字定音等任务。同时,史晓东老师也提出当前工作只是初步的,仍然需要进一步完善。

二、浅探古汉语词义标注技术及其应用

与史晓东老师不同的是,胡韧奋老师从词的角度入手,分享了古汉语词义标注技术以及应用。胡韧奋老师首先解释了古汉语语言现象的复杂性给词义标注和分析带来的挑战,提出词义标注技术分三步走:专名识别、通假识别和词义识别。胡韧奋老师重点介绍了词义识别这一方面的进展和成果,首先是建设词义知识库、义项标注语料库等语言资源,目前已建成覆盖300余古汉语常用多义词、3000余义项的词义知识库,并据此标注了超过5.8万条标注语料,语料规模超过131万字;在此基础上,研发基于预训练语言模型的词义识别算法,取得了较好的效果。最后,胡韧奋老师表达了殷切希望:借助古汉语词义标注技术,可以更好地服务于古籍整理、词汇语义研究、词典编纂等一系列工作。

三、中国古代典籍跨语言自然语言处理研究

王东波老师以“推动中华文化走向世界”和中国古代典籍存在的一些问题为研究背景,详细介绍了基于背景下所作的一些研究和成果。首先是基础资源的构建,包括中国古代典籍外译目录、中国古代典籍跨语言词表、中国古代典籍跨语言预训练模型等的构建;其次是从数据源、规范和流程、规模和样例、模型构建等方面讲述了中国古代典籍跨语言句对齐语料库的构建;另外还通过成果和案例展示的方式对中国古代典籍跨语言词性标注和中国古代典籍跨语言机器翻译方面的内容作出讲解;最后,王东波老师介绍了中国古代典籍跨语言知识库平台,通过此平台可实现平行语料库检索、典籍智能处理、资源申请及获取古籍信息处理的教材等功能。

四、古籍文本的无监督匹配方法

李炜老师从无监督匹配方法入手介绍了两个部分:任务无关无监督学习和任务相关无监督学习。所谓无监督匹配就是不使用人工标注的数据,然后对模型直接进行训练,具有效率高和灵活性强的优势。而任务相关与任务无关则是基于匹配方法是否限定于具体任务、场景等。李炜老师通过具体的应用场景,提出借助计算机和人工智能从古代文献中自动挖掘文献之间的引述关系是非常必要的。随后,李炜老师从上下文语义建模、句子语义建模、结合动态规划目标的强化学习方法等计算语言技术方面演示了语义匹配的方法以及相关的实验结果。

互动问答

报告结束后,四位专家就评论区的留言,例如异体字自动识别研究中的技术难点、如果既有现代汉语,又有古代汉语,针对这些文献进行处理,是否具有好的标注语料用于训练或者无监督的学习方法等,纷纷给出了具体而详细的回答。在苏祺副教授的主持下,专家们对古籍的自然语言处理技术面临的困境、未来工作的开展等方面也展开了热烈的讨论。最后,苏祺副教授作了总结性的发言并与参会的各位老师、专家和学者合照留念,至此,本次研讨会在交流与收获的充实氛围中圆满结束。

本次研讨会由全国高等院校古籍整理研究工作委员会和中国古籍保护协会古籍智能开发与利用专业委员会指导,字节跳动公益特别支持。

本期研讨会视频回放已在B站更新(https://www.bilibili.com/video/BV1oe4y1e74Q)。“古籍智能”系列研讨会第九讲将于2022年11月下旬举行。系列研讨会的相关信息将会在古籍智能网站(http://gujiai.cn)上进行更新。此外,研讨会还将开展暑期课程等一系列后续活动。敬请关注。

转载自:数字人文开放实验室

en_GBEnglish