
信息抽取的目的是从海量互联网文本信息中抽取结构化知识,是知识图谱自动化构建、更新的基础,为信息检索、推荐系统、智能问答等诸多研究领域提供底层知识推理支撑并取得了重大突破,是推动人工智能技术由感知走向认知的关键要素,具有重要的研究意义和实用价值。本书梳理了命名实体识别、关系抽取、事件抽取等相关研究方向的知识资源、基础理论和实践应用,详细介绍了实体关系联合抽取、弱监督关系抽取、基于迁移学习的关系抽取、多实例联合事件抽取、基于因变量的事件模板推导等前沿理论研究,并以领域知识图谱、事理图谱等为例,详细介绍了信息抽取在图谱构建中的应用。最后本书对信息抽取进行了总结和未来研究方向展望。
文本信息抽取是自然语言处理领域的重要研究方向之一,也是人工智能领域极具应用价值的核心研究课题。信息抽取作为分析、抽取、管理文本知识的核心技术和重要手段,自诞生以来就得到了学术界与工业界的广泛关注。从非结构化文本中抽取出以结构化形式存储的信息,可以被计算机直接处理和利用,实现让机器能够像人类一样阅读文本,进而完成查询和推理等功能,一直是文本信息抽取追求的目标。现如今,信息抽取系统可应对海量非结构化文本,在各领域有广泛应用,数十年中依然是研究者前赴后继投身其中的奋斗目标。 随着计算机的普及以及互联网的迅猛发展,文本数据量迅猛增长,大量的信息以电子文档的形式被存储在计算机里,使得文本信息抽取技术研究具有充足的数据资源和广阔的应用场景。这一方面,促进了现有的研究工作表现出百花齐放、争奇斗艳的景象,正所谓“草树知春不久归,百般红紫斗芳菲。杨花榆荚无才思,惟解漫天作雪飞。”另一方面,这种海量数据和信息爆炸式的发展趋势也让文本信息抽取技术研究面临着诸多挑战与难题,包括新研究场景下产生的新问题和悬而未决的原有科学难题。我们希望从纷繁复杂的研究工作中,帮助对这一领域感兴趣的读者梳理出一条相对清晰的研究路径。本书所探讨的内容既包括关系抽取、事件抽取这样的传统研究,也包括实体关系联合抽取、事件模板构建这样的基础任务,还涉及了时下研究和应用热度持续升高的知识图谱、知识应用等重要方向。本书尽量选取了领域中具有代表性的研究工作加以介绍。这些研究工作所涉及的也是人们日常生活当中实实在在能够接触的应用场景,大部分研究方向直接见证了人工智能技术的发展过程。同时,由于文本信息抽取的研究特点,几乎所有的任务都会定期举办对应的国际/国内公开评测,也有公开发布的训练数据集、开源平台等资源供业界人士共享。本书尽可能在相关章节将这些评测、资源等相关信息列举出来,以飨读者。 本书共11章,在章节的组织上针对文本信息抽取的典型研究方向,尽可能梳理出每个方向的问题描述、最新关键技术及未来趋势。其中,第1章绪论部分介绍了本书的研究背景及意义,并对本书拟解决的研究问题进行了详细描述和形式化定义。第2、3章分别介绍本书所主要用到的自然语言处理相关基础理论知识以及信息抽取相关评测和标注资源。第4~6章围绕实体间的关系,从联合实体识别的关系抽取、弱监督的关系抽取、基于知识迁移的关系抽取三个角度,分析相关典型理论模型并概述现有研究的不足。第7、8章围绕更为复杂的事件结构,从多实例联合的事件抽取和无监督的事件模板推导两个方面,分析文本中事件和模板的建模方式和经典理论模型并概述现有研究的缺陷。综合第4~8章,第9、10章分别从图谱构建和图谱知识应用两个方面探索信息抽取在知识图谱中的应用。第11章对全书进行了总结,并展望了未来的研究趋势。诚挚感谢电子工业出版社编辑牛平月老师及审校人员为本书出版所付出的辛勤工作。感谢长期以来对我们团队工作给予大力支持和帮助的各位同仁。 众所周知,文本信息抽取涉及众多研究内容,限于篇幅和学识,本书无法一一涵盖,仅是抛砖引玉,希望与“咬定青山不放松,立根原在破岩中”的同行学者一起,在文本信息抽取的浩瀚海洋中,共同寻求“吹尽狂沙始到金”的快乐。由于作者水平有限,加之时间和精力不足,书中难免存在疏漏或错误之处,诚心欢迎各位同仁和读者给予批评指正。 编著者 2021年12月于北京
第1章 绪论 1 1.1 研究背景及意义 1 1.2 基本定义及问题描述 3 1.2.1 概念 3 1.2.2 命名实体识别 3 1.2.3 关系抽取 4 1.2.4 事件抽取 4 1.2.5 资源受限 6 1.2.6 信息抽取应用 7 1.3 基本研究方法与代表性系统 9 1.3.1 基于规则的方法 9 1.3.2 基于统计模型的方法 10 1.3.3 基于深度学习的方法 10 1.3.4 基于文本挖掘的方法 10 1.4 本书章节组织架构 11 第2章 基础理论 13 2.1 词汇语义表示 13 2.1.1 基于矩阵分解的方法 13 2.1.2 基于预测任务的方法 15 2.2 序列标注 16 2.3 条件随机场 18 2.3.1 线性链条件随机场 18 2.3.2 Viterbi算法 19 2.4 循环神经网络 20 2.4.1 朴素循环神经网络 21 2.4.2 长短期记忆网络 22 2.4.3 门控循环单元 22 2.4.4 双向循环神经网络 23 2.5 卷积神经网络 24 2.5.1 文本上的卷积 25 2.5.2 卷积神经网络的优点 25 2.6 图卷积神经网络 26 2.7 多任务学习 28 2.7.1 多任务学习模式 28 2.7.2 多任务学习有效性分析 29 2.8 远程监督 30 2.9 迁移学习 30 2.9.1 基于实例的迁移学习 31 2.9.2 基于特征的迁移学习 31 2.9.3 基于共享参数的迁移学习 31 参考文献 32 第3章 信息抽取相关评测和标注资源 35 3.1 MUC系列评测会议 35 3.2 ACE系列评测会议 37 3.3 TAC-KBP系列评测会议 40 3.4 其他研究活动 43 3.5 信息抽取标注资源 43 参考文献 45 第4章 联合实体识别的关系抽取 48 4.1 引言 48 4.2 问题描述 51 4.3 基于序列建模的实体识别 51 4.3.1 基于BERT的句子编码 51 4.3.2 头实体识别 52 4.3.3 尾实体识别 53 4.4 基于生成的实体关系联合抽取 53 4.4.1 句子编码 55 4.4.2 基于集合预测的解码过程 56 4.5 基于翻译的实体关系联合抽取 57 4.5.1 输入编码 57 4.5.2 实体识别 58 4.5.3 关系预测 58 4.5.4 基于翻译的实体关系联合抽取案例 61 4.6 实验验证 62 4.6.1 数据集和评价指标 63 4.6.2 对比算法 63 4.6.3 实验结果 64 4.6.4 问题与思考 65 4.7 本章小结 66 参考文献 67 第5章 弱监督的关系抽取 69 5.1 引言 69 5.2 问题分析 70 5.3 基于注意力机制的弱监督关系抽取 73 5.3.1 基于切分卷积神经网络的关系抽取 73 5.3.2 基于句子级别的注意力机制的远程监督关系抽取 76 5.3.3 基于实体描述的句子级别的注意力机制的远程监督关系抽取 77 5.3.4 基于非独立同分布的远程监督关系抽取 80 5.4 基于图卷积的远程监督关系抽取 82 5.4.1 基于依存树的图卷积关系抽取 82 5.4.2 基于注意力机制引导的图卷积神经网络关系抽取 85 5.5 基于篇章级别的远程监督关系抽取 87 5.6 实验验证 91 5.7 本章小结 95 参考文献 96 第6章 基于知识迁移的关系抽取 101 6.1 引言 101 6.2 同类别迁移的关系抽取 102 6.2.1 引言 102 6.2.2 相关工作 104 6.2.3 基于领域分离映射的领域自适应关系抽取框架 106 6.2.4 实验部分 111 6.2.5 总结与分析 117 6.3 跨类别迁移的关系抽取 118 6.3.1 引 言 118 6.3.2 相关工作 120 6.3.3 基于任务感知的小实例关系抽取模型 122 6.3.4 实验部分 129 6.3.5 总结与分析 134 6.4 不均衡模型训练方法 135 6.4.1 引 言 135 6.4.2 相关工作 137 6.4.3 基于多分布选择的不均衡数据分类方法 140 6.4.4 实验部分 144 6.4.5 总结与分析 149 6.5 本章小结 149 参考文献 150