[北大]专名识别功能在吾与点上线啦!

[北京大学数字人文研究中心网站消息]“吾与点”古籍命名实体自动识别和大家见面啦!感谢中文在线集团元引公司的大力协助!“吾与点”自动句读功能于今年三月份上线,在历代各类古籍文本上的准确率达到94%。“吾与点”平台上线后,得到了许多用户的反馈,在此小编谢谢大家的支持!
小编在这里再向大家报告一个好消息:我们已经完成了古籍文本中的人名、地名、职官名、时代名、书名等专有名词的自动识别,经过反复测试,今天正式上线公测啦!
请您点击“吾与点”平台新域名(请您在桌面端访问,尚未提供手机端适配,还请谅解): https://wyd.pkudh.xyz
                                                                                                                                                                                                                 
什么是NER?
专名识别,即命名实体识别(Named Entity Recognition, NER),它是自然语言处理( Natural Language Processing, NLP中的一项基础任务,是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等众多NLP任务的前提。
命名实体一般指代文本中具有特定意义或者指代性强的实体通常包括人名、地名、组织机构名、日期时间、专有名词等。
举一个栗子:“高祖,沛丰邑中阳里人,姓刘氏,字季。” 其中,“高祖”、“刘氏”、“季”都属于“人名”实体。“沛丰邑”、“中阳里”都属于“地名”实体。
eg
命名实体自动识别系统功能旨在从非结构化的输入文本中识别出各类专有名词。在实际的应用场景中,可以按照不同的业务需求识别出特定的实体,比如在古代历史文献中要识别地理、年号、职官、著述等常规命名实体,在中医典籍中则侧重疾病名、中药名、经络穴位等实体的识别。
                                                                                                                                                                                                                 
吾与点NER技术
“吾与点”采用BERT+BiLSTM+CRF模型,在大规模增量训练的BERT模型基础上,应用迁移学习对古籍命名实体的嵌入信息进行表示,并结合主动学习机制对部分古籍语料进行迭代式学习。经测试,现有模型在与训练语料同类型的测试语料上,其准确率(F1)达到98.5%。在《尚书》、《春秋》等先秦上古语料上对人名、地名的泛化准确率(F1)分别达到87%和82%。所谓泛化准确率,是指模型在非同等类型、非同时代的语料上识别专有名词的能力。上述的准确率水平,表明当前基于预训练模型的深度学习方法在中华古籍文本上的句读和专有名词识别已经取得与专业人员相媲美的表现,准确率的进一步提升完全取决于标记语料的质量和覆盖率。以下是系统对《三国志》中一段文字的自动句读和命名实体识别效果。
nerr
                                                                                                                                                                                                                 
下一步目标
在攻克了专有名词识别的难题之后,下一步的目标是关系抽取,即判定这些专有名词之间的关系。在关系提取的基础上,就能将古籍文字表达的语义,转换成用人、时、地、官、书的语义关系连接在一起的语义网络,实现知识图谱的自动构造。这样的知识图谱,其目标不是要全面表示古文所蕴含的文义,而是将古籍文本段落编织到由历史时空、礼乐制度和学术著述等多维知识框架支撑起来的立体知识组织空间中去,实现古籍所蕴含的历史文化知识在数字空间中的多维组织、知识关联和复活。北大数字人文中心的《宋元学案知识图谱》项目,已经展示了这样应用的前景。我们刚刚完成将自然语言提问转换为对知识图谱的查询图构造,如下图所示:
relationship
提问句“朱熹的同乡有没有魏了翁的门人”被转换成了(<朱熹> is同乡of 某人) & (某人 is门人of <魏了翁>)这样的两个相关联的查询子图,随后将被应用到图谱中进行图匹配,将为针对古籍文献的自然语言问答铺平道路,这将真正实现在数字空间中复活古代文化知识。
《宋元学案知识图谱》的升级版将在6月初上线公测,敬请期待!
                                                                                                                                                                                                                 
问题反馈
请您点击我们酷酷的新域名: https://wyd.pkudh.xyz
如遇到任何问题,请及时向我们反馈。扫码添加管理员,加入用户交流群:
扫码添加管理员,加入用户交流群
qr
微信号:minmin286536043