古籍智能第八讲来啦 | 古籍的自然语言处理

时间:10月22日下午2:00-5:00 

腾讯会议号:287-711-582

B站直播地址:

https://live.bilibili.com/22241979

主持人:

苏 祺(北京大学)

王东波(南京农业大学)

主讲人:

史晓东(厦门大学)

胡韧奋(北京师范大学)

王东波(南京农业大学)

李 炜(北京语言大学)

筹办人:王军、李斌

技术服务:李斌、王瑞、芦靖雅、张雨桐

承办单位:

北京大学-字节跳动数字人文开放实验室

北京大学人工智能研究院

主办单位:

北京大学数字人文研究中心

中国古籍保护协会古籍智能开发与利用专委会

联合主办:

北京大学中国古文献研究中心

南京师范大学文学院

指导单位:

全国高等院校古籍整理研究工作委员会

特别支持:

字节跳动公益

内容介绍:

中国古籍规模庞大,承载着中华民族数千年的历史文明,是我们极为宝贵的文化财富。随着技术的进步,古籍数字化实现了对庞大的古籍资源的整理和利用,古籍文本的内在知识和价值有待于进一步挖掘。前几期会议我们邀请了专家先后介绍了古籍的数字化平台建设、历史地理信息系统的建设、古籍录入技术、专题资源库建设、汉字编码字符集、古籍目录数据库的建设等方面的重要内容,展示了古籍数字化各方面的最新进展。

古籍由数字化到数据化很大程度上依赖于自然语言处理技术。自然语言处理(Natural Language Processing,NLP),即利用计算机对人类自然语言进行加工和处理,是古籍数据化的重要一环,也是确保古籍能“活”起来、“智”起来的根本。

本次会议我们非常荣幸地邀请到了有关古籍自然语言处理技术的专家:厦门大学史晓东老师、北京师范大学胡韧奋老师、南京农业大学信息管理学院王东波老师、北京语言大学李炜老师,将为大家介绍古籍自然语言处理方面的相关内容,以及自然语言处理技术在古籍数字化方面取得的进展与其实际应用。

报告主题与主讲人简介

报告1:基于大规模古籍数字化语料的异体字智能识别

摘要:许多汉字都有多种写法,其原因是汉字作为象形文字,造字方式多、书写工具丰富,有漫长的演变过程。这些异体字虽然有不少词典列出,但不会给出理由。我们提出确定两个字是否互为异体字的理论,并且给出了人工智能算法,能自动从数字化古籍中自动推断异体字。从一个多达23亿字的古籍语料库,我们利用算法自动推断出了74,000 组异体字,其中很多组异体字是首次发现。我们据此生成了一个在线《異體字詞典》,因为我们的异体字自动发现是基于异体词的概念。该词典是可以在线访问的,而且可以像维基百科那样自由编辑。本讲座中不但介绍异体字词典的构造算法,还介绍该其一个应用:为不认识的汉字定音。

报告人:史晓东

厦门大学教授,博士生导师。现任厦门大学人工智能系主任,闽台非遗文化数字化保护与智能处理文化与旅游部重点实验室主任,兼任中国中文信息学会常务理事及机器翻译专委会副主任,福建省人工智能学会副理事长,中国人工智能学会多语种智能信息处理专委会常务委员,中国计算机学会自然语言处理专委会委员。

主要研究领域:机器翻译、自然语言处理、人工智能、文化计算。在机器翻译、中文信息处理、少数民族语言处理均有深入研究。获2017年度西藏自治区科学技术奖一等奖、2016年钱伟长中文信息处理科学技术奖一等奖等。

报告2:浅探古汉语词义标注技术及其应用

摘要:古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,我们基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注,目前已构建并开源了规模超过百万字的词义标注语料库。在此基础上,依托预训练语言模型实现自动词义判别,进一步地,以词义注释、词义演变分析、义族归纳为案例,介绍词义标注技术在古籍整理、语言本体研究和词典编撰等领域的应用。

报告人:胡韧奋

北京师范大学讲师、硕士生导师,研究方向为计算语言学、计算机辅助语言教学、数字人文,中文信息学会青工委成员,国家新闻出版署“古籍数字化与知识工程重点实验室”成员。主持国家社科基金青年项目、国家自科基金青年项目、北京市社科青年学术带头人项目等多项课题,发表学术论文30余篇,曾获中国计算语言学大会(CCL)颁发的“最佳英文论文”(2018)、“最佳资源论文”(2021)奖项,获国家发明专利授权4项。作为主持人或核心成员构建了古汉语自动标点和专名识别系统、“唐诗别苑”知识图谱、“诗词别苑”竞技闯关游戏等应用平台,其中古汉语专名识别系统获“古联杯”古籍文献命名实体识别评测一等奖。

报告3:中国古代典籍跨语言自然语言处理研究

摘要:在深度学习、自然语言处理和文本挖掘等技术、方法和理念的基础上,如何基于中国古代典籍及翻译文本,进行基础的跨语言自然语言处理研究及开展应用探究,不仅有利于促进中国传统文化的传播和推广,而且对提升中国文化的软实力也具有重要的意义。面向中国古代典籍的古现和古外文本,研究团队进行了如下的探究。首先,基于SikuBERT预训练模型构建了中国古代典籍跨语言预训练模型。其次,在制定中国古代典籍跨语言对齐标准的基础上,对先秦诸子典籍完成了古英的对齐,对《二十四史》完成了古现的对齐,并构建了有监督的自动对齐模型。再次,在所制定的中国古代典籍跨语言分词与词性一体化标注规范的基础上,构建《二十四史》分词与词性精标注语料库,总规模为110万字,并构建相应的分词与词性一体化自动标注模型。最后,在所构建的句对齐平行语料库的基础上,开发了中国古代典籍跨语机器翻译模型,并搭建了呈现中国古代典籍跨语言自然语言处理探究成果的平台。

报告人:王东波

南京农业大学信息管理学院教授、博士生导师。主要从事古籍智能信息处理、科技文本知识挖掘研究。主持国家社科基金重大项目、国家自然科学基金面上、青年、国家社科基金重大项目子课题及其他省部级项目共计12项。发表SCI、SSCl、EI、CSSCI检索论文120篇。先后获得江苏省哲学社会科学优秀成果一等、二等和三等奖四次,高等学校科学研究优秀成果奖(人文社会科学)二等奖和三等奖各一次。先后入选江苏省社科优青、江苏省第六期“333工程”第二层次培养对象和江苏高校“青蓝工程”中青年学术带头人等人才项目。  

报告4:古籍文本的无监督匹配方法

摘要:在中国古代文献中,存在大量通过以作者所处时代的话语体系诠释古代经典的方式来阐发自己思想或主张的现象,而在现代语境下则需要以现当代表达方式对古代文献进行解释或翻译。在基于大数据的深度学习时代,能够自动化地匹配不同时代下具有相似语义的文本或文本片段是找到这种思想关联、构建翻译平行数据的基础。基于有监督学习方法的匹配模型需要人工标注大量的对齐语料,不仅需要花费较高成本,而且不同时代的文本具有不同的表达特点,因而在某个时代文本上训练得到的模型应用到其他时代文本上,效果往往不好。而利用在大规模数据上训练得到的预训练语言模型对数据分布规律的建模并根据不同的文本或任务,设定相应的无监督学习目标就是一种可行的解决办法。本报告以宋代二程对先秦经典的引用探测和历史古籍和现代文翻译的句对齐两个场景为例,分别介绍了讲者使用无监督方式进行目标无关和目标相关的无监督语义对齐方法的尝试。

报告人:李炜

北京语言大学讲师,2021年于北京大学获计算机软件与理论博士学位。主要研究方向为自然语言处理和深度学习,并对自然语言处理与数字人文领域的结合方向感兴趣。在包括ACL、EMNLP、AAAI、IJCAI、CIKM等国际顶级会议上发表论文十余篇,其中在自然语言处理国际顶级会议ACL、COLING和人工智能国际顶级会议IJCAI上以第一作者和共同第一作者身份发表论文4篇,以共同作者身份发表的论文《SGM: Sequence Generation Model for Multi-label Classification》获COLING2018最佳论文奖,论文《No Stock is an Island: Learning Internal and Relational Attributes of Stocks with Contrastive Learning》获FinNLP 2022最佳论文奖。谷歌学术引用量目前已经超过900+。

问题征集:

欢迎您提出针对本次讲座的主题,主讲人或与谈人的问题。这些问题将提交给本次讲座的主讲人/与谈人,在自由讨论阶段予以优先回答。请将您的问题交至 gdhc@pku.edu.cn 。谢谢!

志愿者招募:

北京大学数字人文研究中心目前正在推进古籍智能领域的研究与探索,其中涉及到古籍有关的文字标点校对、元数据加工、段落篇章校对、实体标注校对、实体消歧校对、实体关系校对等方面的内容,亟需古籍爱好者协助完成,现长期招募有关古籍爱好者参与这项事业。具体要求如下:

1.热爱古籍事业,专业不限,学历不限,愿意参与志愿工作;

2.有一定空闲时间参与相关志愿工作,参与时长没有限制,可以随时退出。

参与志愿者的工作,除了可以了解古籍智能领域的前沿研究,熟悉相关古籍内容以外,您还将获得:

1.本中心为志愿者的劳动提供一定的报酬;

2.本中心面向社会举办的学术活动,志愿者优先参加;

3.参加一定时长、达到一定质量的志愿者,本中心可以开具相应的实习证明。

有意参与古籍智能工作的志愿者,请将个人简历发送至:gdhc@pku.edu.cn,标题请注明:“志愿者申请+姓名”

欢迎感兴趣的同学或老师加入,谢谢大家的支持!

来源:比特人文

zh_CNChinese