“吾与点”古籍自动整理系统

“吾与点”古籍自动整理平台是由北京大学数字人文研究中心与中文在线集团元引公司联合开发的智能化古籍整理平台。该平台将提供图片文字识别、自动句读、命名实体识别三项基本古籍整理功能。目前提供公开测试的是自动句读功能,自动标点、图片文字识别、命名实体识别功能将会陆续开放测试。

北京大学数字人文研究中心致力于将大数据、人工智能等前沿技术应用于人文语料、特别是数字化古籍文本的自动处理,为人文研究提供新工具和新方法。2020年7月,北京大学数字人文研究中心启动了 “智能环境下中华典籍的开发与利用” 基础研究课题,包括:古籍文本的自动句读与自动标点,命名实体自动识别,历代古典目录集成、儒家学术史知识图谱构建、历史人物年谱可视化等多个系统的并行研发。

“吾与点”自动句读系统是基于深度学习的预训练语言模型实现的,利用互联网上公开的古籍文本库训练得到。系统能够处理各类古籍文本,包括经史子集四部典籍以及佛藏,道藏,通俗小说等。无论是先秦典籍还是明清小说,目前模型在混合类文本测试集上的句读准确率(F1值)超过94%,达到了实用标准。“吾与点”自动句读系统具有极高的处理速率和响应速率,经测试,API接口处理5万字耗时10秒左右。

系统地址:

https://wyd.kvlab.org/

功能介绍

用户可以直接将要处理古文本黏贴到左侧的待处理文本框中,也可以直接上传待处理的文本文件(txt格式)。处理结果直接显示在右侧的结果页面,也可以将处理结果下载到本地保存。目前测试版限定粘贴的文本字数不超过8000字,上传文件大小不超过2万字。

文本上传完成后,点击“运行”按钮,几秒钟即可看见自动处理的结果。若有多个用户同时使用系统,系统会将当前用户提交的任务放入待处理队列中。用户可对自动句读的结果进行修改,修改之后的句读标识为红色。

下一步目标

古籍的阅读与理解,句读是第一步。随后的关键是辨识人名、地名、年号、职官等专有名词。古籍中的专有名词识别,涉及到数千年中国历史的时间、地理、人物、政治制度等基础知识,即便是浸淫古史数十年的专家也没有全然的把握。实现命名实体自动识别的最大困难在于以往的古籍整理工作没有分别标注人名、地名、职官名的惯例,不存在大规模的标注语料可供机器学习。所以,命名实体的自动识别必然要将机器算力与人的脑力结合在一起才能实现。

北京大学数字人文中心的核心目标是将大数据、人工智能等前沿技术应用在古籍文献资源上,极大提升古籍整理和古籍数字化的效能,为文史专家、古籍整理人士、古籍爱好者和普通网民提供利用古籍资源的便利工具。我们诚邀古籍领域的专家、商家与同道携手合作,共同促进中华典籍资源在互联网时代的开发、传播与智能化应用。

zh_CNChinese