
语言智能处理一直是人工智能领域的重要研究方向之一。本书按照研究历程与现状、关键技术与方法、发展趋势与展望的基本脉络,重点介绍了语言智能处理中的语言模型与知识表示、语言分析技术、语言情感分类、自然语言生成技术、自动问答与人机对话、机器翻译、信息检索与信息推荐等主题。本书所描述的内容涉及人们日常生活中的真实应用场景,理论与实践相结合,所探讨的技术具有代表性,便于读者理解与融会贯通。本书既可作为高等院校相关专业师生的教学参考书,也可作为人工智能领域语言智能处理研究人员和广大爱好者的技术参考书。
语言智能处理是人工智能领域的重要研究方向之一,也是人工智能领域日久弥新的核心研究课题。语言是人类文明传承的重要载体和媒介。实现语言智能化处理,从第一台计算机诞生之日起,就是人类梦寐以求的美好愿望。语言智能化处理技术的独特魅力,也是被无数产、学、研各界人员痴迷的原因所在。然而时至今日,相关研究工作已经开展了几十年,借助机器完全自动地实现自然语言的机器翻译、情感分析、智能问答、人机对话、个性化检索等任务的实用化处理,依然是研究者前赴后继投身其中的奋斗目标。 在新一波人工智能浪潮席卷之下,关于语言智能处理的新技术、新方法和新产品层出不穷,很多研究工作取得了长足的进步,也引起了越来越多来自社会各界的高度关注。但不得不说,现有的研究状况也渐渐显现出“乱花渐欲迷人眼”的景象,特别是在深度学习技术大放异彩甚至是独占鳌头的态势下,对语言智能处理的研究面临着诸多挑战与难题。有些挑战与难题是因为新业态的产生而滋生的新问题,更多的是本质上仍然是悬而未决的旧有科学难题。我们希望从纷繁复杂的研究工作中,帮助对这一领域感兴趣的读者在一些典型任务上梳理出一条相对清晰的路径,免于陷入“独上高楼,望尽天涯路”的窘迫。本书所探讨的内容既包括语言模型与知识表示这样的传统研究,也包括语言分析技术这样的基础任务,还涉及了时下研究热度持续升温的机器翻译、自动问答、自然语言生成、信息推荐、语音情感分析等重要方向。本书尽量选取了语言智能处理领域中具有代表性的研究工作加以介绍。这些研究工作同时也是人们日常生活当中实实在在能够接触的应用场景,大部分研究方向直接见证了人工智能技术发展的起起落落。同时,由于语言智能化处理的研究特点,几乎所有的任务都定期举办对应的国际/国内公开评测,也有公开发布的训练数据集、开源平台等资源供业界人士共享。本书尽可能在相关章节将这些评测、资源等相关信息列举出来,以飨读者。 本书共8章,在章节的组织上针对语言智能处理中的典型研究方向,尽可能梳理出每个方向大体的技术发展脉络、主要方法、关键技术、最新进展以及未来趋势。其中,第1章由黄河燕主笔,第2章由黄河燕、史树敏主笔,第3章由史树敏、黄河燕主笔,第4章由贾珈主笔,第5章由黄民烈主笔,第6章由韩先培主笔,第7章由刘洋主笔,第8章由刘奕群主笔,全书由黄河燕、史树敏统稿。此外,李洪政博士后(现为北京理工大学助理教授)协助完成了22节及第3章部分图表的绘制及校对工作,鉴萍博士协助完成33节部分文献资源的整理和校对工作,毛佳昕博士后(现为中国人民大学助理教授)协助完成了第8章的校对工作。在本书编写过程中,孙乐研究员对于61节提出了宝贵意见,陈波副研究员、安波副研究员参与了第6章的校对工作,在此深表感谢。另外,部分研究生也为本书的写作提供了文献资料整理、参考文献规范化处理等协助工作。他们是尚煜茗、苏超、周素平、边宁、黄斐、柯沛、黄轩成,陈驰、杨宗瀚、许一舟、郑远航、张慧盟、王硕,在此一并向他们表示衷心的感谢。诚挚感谢电子工业出版社赵丽松副总编和富军、钱维扬等其他编辑及审校人员为本书出版所付出的辛勤工作。感谢长期以来对我们团队工作给予大力支持和帮助的诸位师长、同行和各界朋友们。 众所周知,语言智能处理涉及众多研究内容,限于篇幅和学识,本书无法一一涵盖,仅是抛砖引玉,希望与“为伊消得人憔悴”同仁们一起,在语言智能处理的浩瀚海洋中,共同寻求“蓦然回首,‘成果’就在灯火阑珊处”的快乐。由于作者水平所限,加之时间和精力不足,书中一定存在疏漏或错误之处,衷心欢迎专家和读者给予批评指正。 编著者
第1章绪论 11语言智能处理简介 12人工智能与语言智能处理 13基于神经网络的自然语言处理 14语言智能处理的应用 15本书的组织结构 第2章语言模型与知识表示 21语言模型 211概述 212n-gram语言模型 213估计 214评价指标 215数据稀疏与齐夫定律 216计数平滑方法 217神经网络语言模型 218小结 22词向量构造方法 221词向量(Word Embedding)构造方法概述 222基于全局统计信息的Word Embedding构造方法 223基于预测任务的Word Embedding构造方法 224利用外部信息的Word Embedding构造方法 225方法评价 226Word Embedding的应用 227研究展望 23知识图谱表示学习 231表示学习的基本概念 232表示学习的典型应用 233表示学习的主要优点 234表示学习的典型方法 参考文献 第3章语言分析技术 31词法分析 311概述 312自动分词 313词性标注 314分词和词性标注的联合模型 32句法分析 321概述 322句法结构分析 323依存关系分析 33篇章分析 331概述 332篇章分析相关理论及标注语料库 333篇章分析方法 34语义分析 341概述 342词汇级语义分析 343句子级语义分析 344篇章级语义分析 345基于神经网络模型的语义分析 346语义分析评测任务 347未来发展趋势 参考文献 第4章语言情感分类 41情感描述的主要方法 411情感的类别表示法 412情感的维度表示法 42情感识别模型 421文本情感计算 422语音情感计算 43当前语言情感识别的挑战 431领域依赖 432语料库的建设 433多模态融合 434细粒度情感计算 参考文献 第5章自然语言生成技术 51概述 52序列到序列模型 521基本原理和算法框架 522模型实现与注意力机制 523小结 53变分自编码器 531基本原理 532应用场景 533高级话题 54生成式对抗网络 541基本原理和算法框架 542生成式对抗网络的特点 543相关模型 544小结 55基于预训练语言模型的生成方法 551预训练语言模型 552拓展话题 553小结 56本章小结 参考文献 第6章自动问答与人机对话 61知识库问答 611基于语义解析的知识库问答 612基于神经网络的端到端知识库问答 62机器阅读理解 621任务介绍 622机器阅读理解系统框架 623机器阅读理解系统的核心组件 624代表性机器阅读理解模型 625总结与展望 63人机对话系统 631面向任务型的对话系统 632面向非任务型的聊天系统 64总结与未来的挑战 参考文献 第7章机器翻译 71概况 711任务的定义与研究的意义 712发展的历史 72神经机器翻译 721核心模型 722关键技术 73数据与评测 731数据集 732技术评测 74开源工具 741统计机器翻译开源工具 742神经机器翻译开源工具 75总结与展望 参考文献 第8章信息检索与信息推荐 81概述 811信息检索的概念与发展 812信息推荐的概念与发展 813信息检索和信息推荐的联系和区别 82信息检索与信息推荐的相关技术 821信息检索部分前沿技术 822信息推荐部分前沿技术 823信息检索与信息推荐领域的相关资源 83相关技术的产业应用 831典型的应用产品 832信息检索技术的应用情况 833信息推荐技术的应用情况 84发展趋势 参考文献