
本书是国家自然科学基金资助的课题,围绕人机对话的过程展开叙述,主要的研究内容包括:人机对话的基本概述,人机对话的语音处理技术,对话系统中的的自然语言理解技术,对话系统中的信息处理,对话系统中的语言生成技术,对话管理系统。最后,根据本书叙述的模型和技术方法,提供部分开源的源代码。
前言 加拿大传播学者麦克卢汉曾说,媒介是人的延伸。然而,人类正在通过人工智能来延伸自己。早在1950年,计算机科学之父阿兰?图灵在Mind杂志上发表了题为“计算的机器和智能”的论文,首次提出了机器智能的概念,论文还提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。这就是后来鼎鼎有名的人工智能图灵测试。 图灵测试的概念极大地影响了人工智能对于功能的定义,在这一时期,科学家们也将语音识别比作“机器的听觉系统”,该技术可以让机器通过识别和理解,把语音信号转换为相应的文本或命令。1952年,贝尔研究所研制了世界上第一个能识别10个英文数字发音的实验系统。1960年,英国的Denes等人研制了第一个计算机语音识别系统。 然而,在接下来的10年,科学家们在语音识别上也走上了与人工智能其他领域同样的弯路。他们认为,让机器具备智能必须先让计算机理解自然语言,即电脑模拟人脑,导致研究局限在人类学习语言的方式上,这期间人机对话研究进展几乎为零。直到20世纪70年代初,转机出现在统计语言学的创立上。这不得不提到一个关键性人物——德里克?贾里尼克和他领导的IBM华生实验室,他们创新地使用统计方法,奠定了今天自然语言处理的基础,也使得人和机器的对话逐渐成为现实。 2017年4月,由中国科学技术大学智能机器人“佳佳”担任新华社特约记者,与全球人工智能大咖展开“人机对话”,引发媒体和网民们广泛关注。这是全球首次由机器人担任记者开展采访活动,标志着新的内容生产模式的诞生。在与美国著名科技观察家、《连线》杂志创始人凯文?凯利、脸书公司人工智能专家田渊栋等人工智能领域专家的交互中,机器人“佳佳”依靠语音图像识别、语义理解等新技术,展示了应对采访实践中多轮对话的能力。 “佳佳”开展名家采访活动,是一次关于人工智能如何改变人类生活的成功科普,表明人机对话系统开始从科学家的实验室飞入“寻常百姓家”。这次成功的人机对话,显示了中国人工智能和机器人研究能力的飞跃。然而,正如开发“佳佳”的中国科技大学机器人实验室主任陈小平教授所说,虽然中国相关领域科研团队的水平已完全可以匹敌世界一流技术,但中国人工智能和机器人研究的顶尖团队,从数量上和基础研究上,与美国相比还有相当大的差距。 人机对话作为自然语言处理的集成应用,涉及的研究内容非常广泛,包括语音识别与语音合成、语言理解与语言生成、信息检索与信息抽取及对话管理等。虽然从每一个研究模块来看,都有较多的相关论文和专著。然而,将人机对话系统的基本概念、基本理论和技术研究作为一个整体范畴,这方面的专著在国内尚处于空白。鉴于此,笔者结合自身多年的教学与科研心得,特编撰此拙著,以期抛砖引玉。 全书分为六章。第1章是绪论,围绕人机对话系统的基本概念,阐述了人机对话的发展历史、基本构成和前景应用。第2章围绕对话系统中的语音处理过程,介绍了语音的产生与特性,以及语音识别和语音合成的基本原理。第3章从对话理解的基本概述开始,继而讨论对话中的词法分析、句法分析和语义分析。第4章根据对话中的信息处理过程,着重阐述了知识表示、信息检索,以及信息抽取技术。第5章首先叙述语言生成的文档规划、微观规划和表层实现的基本原理,然后继续介绍文本自动生成技术。第6章针对对话管理的工作流程、基本原则和系统结构先进行介绍,随后分别对基于专家知识的方法、基于任务的方法、基于智能Agent的方法、数据驱动方法四种对话管理模型展开讨论。 本书在编写的过程中,从各种论文、书刊和期刊及网络中引用了大量的资料,有的在参考文献中列出,有的无法查证,在此谨向所有作者表示衷心感谢!此外,本书的研究与撰写工作获得了国家自然科学基金项目(编号:61363032,61462025,61463012)、海南省重大科技计划课题(编号:ZDKJ2017012)、海南省教育规划课题(编号:QJY13516014)、海南师范大学专著出版基金等研究项目的资助。此外,围绕项目研究,本书的编写也得到了海南师范大学信息科学技术学院的大力支持,特别感谢何书前博士、张瑜博士、罗自强博士的支持与帮助。 作 者 2017年5月
第1章 绪论 1 1.1 对话系统概述 1 1.1.1 人机界面 1 1.1.2 人机交互 2 1.1.3 人机对话 3 1.2 人机对话的发展历史 10 1.3 人机对话的应用 12 第2章 语音处理技术 16 2.1 概述 16 2.2 语音的产生与特性 17 2.2.1 语音的产生 17 2.2.2 语音的性质 17 2.3 语音识别技术 19 2.3.1 语音识别概述 19 2.3.2 语音识别的基本原理 19 2.3.3 语音信号特征 20 2.3.4 语音信号预处理 22 2.3.5 语音特征提取 25 2.3.6 语音识别算法 28 2.4 语音合成技术 48 2.4.1 语音合成概述 48 2.4.2 语音合成历史 49 2.4.3 语音合成方法 49 2.4.4 语音合成发展方向 53 第3章 对话语言的理解技术 56 3.1 自然语言理解概述 56 3.2 词法分析 57 3.2.1 分词技术 57 3.2.2 词性标注 65 3.2.3 命名实体识别 68 3.2.4 指代消解 75 3.3 句法分析 77 3.3.1 短语结构语法 77 3.3.2 依存关系语法 82 3.3.3 常见句法分析器 87 3.4 语义分析 89 3.4.1 语义分析概述 89 3.4.2 语义关系 92 3.4.3 语义指向 98 3.4.4 语义分析模型 99 3.4.5 文本语义分析 101 3.5 语用分析 104 3.5.1 概述 104 3.5.2 话语分析与语用学的基础 105 3.5.3 话语的语用学分析 106 第4章 对话系统中的信息处理 109 4.1 知识表示 109 4.1.1 知识表示发展简述 109 4.1.2 谓词逻辑法 110 4.1.3 产生式系统 114 4.1.4 语义网络 119 4.1.5 框架表示 126 4.1.6 面向对象表示法 130 4.1.7 其他类型知识表示法 137 4.2 信息检索 138 4.2.1 信息检索模型 139 4.2.2 查询扩展 148 4.2.3 Web信息检索 158 4.2.4 问答式信息检索 163 4.3 信息抽取 174 4.3.1 信息抽取的发展历史 174 4.3.2 信息抽取与信息检索的区别 176 4.3.3 基于置信度分析的答案抽取 176 第5章 对话系统语言生成技术 180 5.1 自然语言生成概述 180 5.2 自然语言生成的发展历史 181 5.3 对话系统的语言生成 184 5.4 自然语言生成系统架构 185 5.4.1 文档规划 186 5.4.2 微观规划 187 5.4.3 表层实现 194 5.5 文本自动生成技术 195 5.5.1 模板生成技术 195 5.5.2 模式生成技术 201 5.5.3 修辞结构理论 203 5.5.4 XML文本生成技术 205 5.5.5 属性特征生成技术 206 5.6 混合文本生成技术 206 5.6.1 Schema和RST混合规划技术 206 5.6.2 模式与模板混合规划技术 208 5.7 SPUD系统基础 211 5.7.1 SPUD简述 211 5.7.2 SPUD举例说明 212 第6章 对话管理系统 216 6.1 对话管理概述 216 6.2 对话管理的工作流程 217 6.3 对话管理的交互原则 217 6.3.1 对话管理的可移植性 218 6.3.2 对话管理的鲁棒性 218 6.3.3 人与系统的相容性 219 6.3.4 对话模式的多样性 220 6.4 对话管理平台的系统结构 220 6.4.1 上下文分析 223 6.4.2 主题管理 224 6.4.3 历史管理 225 6.4.4 消歧处理 227 6.4.5 对话导航 228 6.5 对话管理模型 230 6.5.1 基于有限状态机的对话管理 230 6.5.2 基于任务的对话管理 235 6.5.3 基于智能Agent的对话管理 238 6.5.4 数据驱动对话管理 242 6.5.5 其他对话管理模型 243 参考文献 246
曹均阔,博士,副教授,主要研究领域:(1)中文信息处理;(2)自然语言处理;(2)智能信息处理。主持在研国家自然科学基金项目1项,省重大科研项目子课题1项;主持完成省级项目3项,市级横向项目1项。发表学术论文20余篇,其中10多篇被SCI、EI和ISTP收录;主编教材2部;申请软件著作产权4项;获海南省科技进步奖三等奖(排名第2)一次。