科技>计算机>计算机科学
神经机器翻译:基础、原理、实践与进阶  

神经机器翻译:基础、原理、实践与进阶  "

作者:熊德意,李良友,张檬
ISBN:9787121437526
定价:¥208.0
字数:714千字
页数:512
出版时间:2022-07
开本:16开
版次:01-01
装帧:
出版社:电子工业出版社
简介

本书旨在对现阶段的神经机器翻译技术和开放问题进行介绍,力求以通俗易懂的语言向读者系统化展现神经机器翻译的内涵和外延。本书内容主要包括三部分:基础篇主要介绍神经机器翻译的基本原理,发展脉络、核心技术及若干改进方法,本篇也提供了必要的神经网络和自然语言处理基础知识;实践篇旨在激发读者更多的实战兴趣,将神经机器翻译基本技术转为璀璨的场景应用,内容包括如何训练一个神经机器翻译系统、如何在不同计算环境下部署神经机器翻译以及如何动手实现一个神经机器翻译系统;进阶篇则主要为有兴趣进一步探索和推动神经机器翻译技术发展的读者准备的,该篇概述了神经机器翻译面临的几个主要挑战、开放问题以及最新的研究进展,如篇章级神经机器翻译、低资源神经机器翻译、多模态和鲁棒性神经机器翻译等最新研究主题。

前言

推荐序 机器翻译:科学vs.技术 老友钱跃良嘱我为其同事熊德意新作写个序,按说我不从事这个领域的研究,并不合适。但是,出于两个原因,我还是接受了:一是新世纪初,我刚进入国家“863 计划”计算机主题专家组时的首个任务,就是担任人机接口专题的责任专家,曾在较长时间内和机器翻译领域的学者频繁交流,算是学习了该领域的一些基本知识;二是当前正处于人工智能的热潮中,而自然语言处理被誉为人工智能“皇冠上的明珠”,机器翻译则是自然语言处理领域极具挑战性的研究方向,我也想从计算机学科这个大同行的视角谈一些认识和思考。 使用自然语言进行交流是人类区别于动物的重要标志。随着智人走出非洲,在漫长的“全球化”进程中诞生了无数种语言。农业革命后,人类开启了现代意义的全球化。工业革命后,全球化更是明显加速,其中需要解决的难题之一就是语言交流障碍!解决途径无外乎二,一是靠时间、靠融合,在这个过程中,很多语言退出了历史舞台;二是靠语言翻译,长期以来依赖掌握“双语”或“多语”的人才。 能否用机器来实现语言间的自动翻译?我没有去查文献做详细的调研,但我相信一定有不少古人产生过这种“梦想”,在早期的科幻小说中也出现过这种“机器”。20 世纪初,有科学家开始了这种研究尝试,但直到计算机诞生,才使得利用机器进行语言自动翻译的想法具备了现实可行性。从1949 年机器翻译思想的正式提出,迄今已七十余年,众多学者在此领域做出了艰辛的探索,机器翻译经历了一条曲折的螺旋式上升的发展道路。从早期的过分乐观、过度承诺,到20 世纪60 年代中期开始的10 年遇冷;从20 世纪70 年代中期研究的恢复及其成果的成功商用,到20 世纪80 年代末统计机器翻译方法的兴起;再到新世纪深度学习方法带来的翻译质量的大幅跃升及随后的“井喷式”发展,这实际上也是观察人工智能几度兴衰的一个视角。可喜的是,“热度”在变,方法在变,但梦想未变;需忧的是,跟风仍在,“过度”仍在,应避免“极化”! 机器翻译是一个多学科交叉领域,面临的既有技术问题,也有科学问题,一方面需要依赖语言学、认知科学等学科关于语言表示、理解与生成的科学发现和科学理论,另一方面也需要在技术和工程上设计和实现高效的机器模型、算法及系统。规律和原理的发现是技术突破的基础,在追求技术突破和规模化发展的同时,不能忘记探究其后的科学问题,二者的平衡才是学科健康发展的前提。 机器翻译在70 多年的发展过程中,形成了两大技术途径:基于规则的方法和基于数据的方法,也称规则驱动和数据驱动。规则驱动方法偏重于语言的抽象表示、语言学理论、知识表示等原理性探索,分别出现了提供自然语言抽象表示的中间语言途径、语言学理论指导的基于转换的途径,以及基于语义和知识的途径等。数据驱动方法则依赖语料库和计算力,发展出基于实例的机器翻译、统计机器翻译,以及现在的神经机器翻译等模式。统计机器翻译从早期的不被认可,到随计算力的不断提高及平行语料规模的不断增长,逐步成为机器翻译的主要模式。最近10 年,深度学习技术提升了机器翻译模型从数据中获取知识的能力,深度学习驱动的神经机器翻译也因此成为新一代主流机器翻译技术,其生成的译文质量与人工译文质量之间的距离不断缩小,应用场景和范围不断扩大,如在线机器翻译,已成为人们在互联网上交流不可或缺的工具。 深度学习方法的显著成效带来了新一轮人工智能热潮,热潮中更多呈现的是现有方法的应用。不可回避的是,深度学习模型的强表达能力及高计算特性,使得包括机器翻译在内的很多人工智能领域的研究在科学与技术、理性主义与经验主义之间出现了向技术、经验主义一端“极化”的态势。然而,我们也都认识到,当前的深度学习技术本身存在着诸多问题,如不可解释、鲁棒性差、耗能高等,人工智能的未来发展应该是何走向?我以为,还是应该保持开放的思维,保持研究探索的多样性。规则驱动是否可能随认知科学、语言学等相关学科研究的深入再次螺旋回归?数据驱动结合规则驱动是否能体现“科学”和“技术”的平衡?类脑途径能否成为实现人工智能的通用模式?如此等等。作为非该领域专家,我不敢妄言,只是从科研的基本规律出发,谈自己的期望。 本书介绍的是当前的主流——神经机器翻译技术。全书按两条主线组织,内容主线分四篇,覆盖神经机器翻译的基础知识、神经网络模型原理、引擎实现和部署以及若干前沿研究主题,理论和实践相结合;短评主线交织穿插于内容主线网络中,将相关内容与更广泛的主题关联,如机器翻译的发展历史、自然语言处理研究范式、软件开源、数据驱动、技术创新、实验可复现性、人工智能伦理等。可贵的是,书中的某些短评探讨了被机器翻译技术快速发展掩盖的机器翻译背后的科学问题,并呼吁机器翻译研究需在科学与技术间再平衡;在技术创新发展的同时,机器翻译研究需与其他学科交叉融合,使得相关科学理论可以支撑机器翻译未来更大的发展和突破。同时,作者也从科学研究范式的本源上深入思考了机器翻译的未来。 本书作者熊德意等长期从事机器翻译领域的研究工作,熟悉统计机器翻译和神经机器翻译技术,书中不少思想和观点来源于作者长期的研究、观察、实践及思考。 本书可作为计算机科学及相关专业,对自然语言处理和机器翻译感兴趣的高年级本科生和研究生的学习教材,也可供自然语言处理、机器翻译领域的研究人员和工程技术人员参考。希望读者通过阅读本书,能够了解自然语言处理、机器翻译技术的发展和现状,并对其中乃至人工智能中的科学问题有更深入的思考。 是为序。 梅宏 中国计算机学会理事长 壬寅孟春于北京 前言 本书对神经机器翻译技术进行了全面梳理和系统探讨,按内容分为基础篇、原理篇、实践篇及进阶篇,合计20 章。 ? 基础篇:从机器翻译历史发展角度阐述了神经机器翻译的诞生过程,探讨了神经机器翻译与上一代机器翻译技术——统计机器翻译的关系,并进行了多维度对比,系统介绍了与神经机器翻译相关的神经网络、自然语言处理基础知识。 ? 原理篇:按照神经机器翻译技术发展的脉络,依次介绍了经典神经机器翻译模型、神经机器翻译注意力机制、基于卷积神经网络的神经机器翻译及基于自注意力的神经机器翻译,对神经机器翻译技术发展过程中面临的主要问题进行了探讨,如集外词、深度模型、快速解码和领域适应等问题,并介绍了相应的解决方案。 ? 实践篇:按照完整实现一个神经机器翻译系统的主要步骤,依次介绍了数据的准备、模型的训练、系统的测试及最后的实际部署,并对如何设计和实现一个神经机器翻译软件系统进行了详细探讨。 ? 进阶篇:对目前神经机器翻译领域正在研究的前沿课题进行了介绍,包括语篇级神经机器翻译、低资源及无监督神经机器翻译、融合知识的神经机器翻译、鲁棒神经机器翻译、多语言神经机器翻译、语音与视觉多模态神经机器翻译六大主题,梳理了目前在这六大方向上的主要技术路线及开放问题。 我们希望本书不仅仅是一本介绍机器翻译新技术的书。如果对神经机器翻译的介绍仅仅停留在技术的形式化上,只有算法、模型、公式等,那么难免会让读者觉得枯燥乏味。相反,本书力求可以承载更多有意思的内容,如技术背后的思想、技术发展的脉络等。为此,在写作本书过程中,我们始终站在历史发展的角度,对比不同机器翻译范式,希望从对比中窥见技术发展的内在原因。同时,为了能够串联不同技术及同一技术的不同发展阶段,更好地介绍技术背后的思想、争议及发展原因,本书的每一章均附有一篇与该章主题相关的短评。 这些短评少则一两页,多则六七页,共计20 篇,串起了神经机器翻译技术背后的历史、故事、思想、哲学、争议和规范等,如“统计与规则的竞争”“自然语言处理之经验主义与理性主义”“卷积神经机器翻译——实用性倒逼技术创新”“超参数设置——自动优化与实验可重现性”“机器翻译工业部署”“神经机器翻译达到人类同等水平了吗?”“神经机器翻译是疯子吗?兼谈其‘幻想’”“预训练技术争议与语言符号奠基问题”等,有些评论内容已超出神经机器翻译甚至机器翻译的范畴,涉及自然语言处理乃至人工智能等更广泛的议题。这些短评既可以结合相应技术章节阅读,也可以单独阅读。它们不仅包含本书作者的观点,也涉及许多其他机器翻译、自然语言处理研究人员的发现、观察及思考等。因此,这些短评可为机器翻译研究者、实践者、使用者、爱好者和旁观者等不同读者提供一个理解机器翻译技术的新视角。受限于本书作者水平,短评及书中观点难免存在错漏,敬请读者批评指正! 机器翻译是计算机科学与语言学交叉形成的最早的研究方向,计算语言学最初以机器翻译技术研究为中心,在机器翻译初期研究遇到困难之后(ALPAC报告),其他分支开始广泛发展起来。机器翻译本身的高难度及历史发展原因,使机器翻译成为自然语言处理技术的集大成者及发源地。一方面,很多自然语言处理技术在机器翻译中得到广泛应用,如词法分析、句法分析、语义分析、语篇分析、知识图谱和信息检索等;有些自然语言处理技术即使没有直接应用于机器翻译,它们与机器翻译仍然存在诸多交叉重叠之处,如自然语言生成、对话和问答等。另一方面,自然语言处理的很多技术源自机器翻译,如深度学习驱动的自然语言处理,很多底层技术最初是在机器翻译领域提出或最先应用于机器翻译的,如序列到序列编码器-解码器框架、Transformer 等。这些技术最早应用于机器翻译,后来拓展到自然语言处理的其他任务上;有些技术甚至应用到自然语言处理之外的其他领域,如Transformer 应用于计算机视觉、语音等。 鉴于此,本书在介绍机器翻译技术时,尽可能兼顾自然语言处理,对技术的介绍希望从更广的角度展开,如: ? 第16 章介绍的融合知识的方法,对其他自然语言处理任务融合知识具有一定启发意义; ? 第17 章介绍的鲁棒性技术,不仅仅面向神经机器翻译,也面向其他自然语言处理模型; ? 第18 章介绍的大规模多语言神经机器翻译模型的设计及训练方法,也适用于其他自然语言处理大模型,如预训练语言模型。 此外,本书还涉及并讨论了自然语言处理相关的大量概念,如语篇、常识、低资源、语言类型学和语法性别等。 因此,虽然本书的主题是机器翻译,但是对自然语言处理技术感兴趣的读者,也可以将本书作为参考书使用。 熊德意 2021 年6 月1 日

目录

推荐序 前言 数学符号 第1 章绪论1 1.1 引言. . . . . . . . . . . . . . . . . . 2 1.2 基本思想. . . . . . . . . . . . . . 6 1.2.1 基于规则的机器翻译. . . 6 1.2.2 统计机器翻译. . . . . . . . 7 1.2.3 神经机器翻译. . . . . . . . 10 1.2.4 模型设计. . . . . . . . . . . 11 1.3 解码. . . . . . . . . . . . . . . . . . 12 1.3.1 统计机器翻译解码. . . . . 12 1.3.2 神经机器翻译解码. . . . . 16 1.3.3 搜索错误与模型错误. . . 16 1.4 神经机器翻译与统计机器翻译对比. . . . . . . . . . . . . . 18 1.4.1 表示. . . . . . . . . . . . . . 18 1.4.2 参数. . . . . . . . . . . . . . 20 1.4.3 模型存储. . . . . . . . . . . 21 1.4.4 模型假设或约束. . . . . . 21 1.4.5 端到端. . . . . . . . . . . . 22 1.4.6 译文生成. . . . . . . . . . . 22 1.4.7 训练方式. . . . . . . . . . . 23 1.4.8 鲁棒性. . . . . . . . . . . . 24 1.4.9 可解释性. . . . . . . . . . . 24 1.4.10 可干预性. . . . . . . . . . 25 1.4.11 低资源适应性. . . . . . . 25 1.4.12 对比总结. . . . . . . . . . 26 1.5 发展历史. . . . . . . . . . . . . . 26 1.5.1 机器翻译发展历史. . . . . 27 1.5.2 神经机器翻译发展历程. . 28 1.6 应用现状. . . . . . . . . . . . . . 29 1.6.1 维度1:通用领域vs. 垂直领域. . . . . . . . . . . . 29 1.6.2 维度2:多语种vs. 单语种30 1.6.3 维度3:云端vs. 终端. . 31 1.6.4 维度4:在线vs. 离线. . 31 1.6.5 维度5:B 端vs. C 端. . 31 1.6.6 维度6:纯文本vs. 多模态31 1.6.7 维度7:人机结合vs. 人机分离. . . . . . . . . . . . 31 1.6.8 维度8:机器翻译+ vs.纯机器翻译. . . . . . . . . 32 1.6.9 应用现状总结. . . . . . . . 32 1.7 本书组织. . . . . . . . . . . . . . 32 1.7.1 基础篇. . . . . . . . . . . . 32 1.7.2 原理篇. . . . . . . . . . . . 33 1.7.3 实践篇. . . . . . . . . . . . 34 1.7.4 进阶篇. . . . . . . . . . . . 34 1.8 阅读材料. . . . . . . . . . . . . . 34 1.9 短评:统计与规则的竞争. . 35 第I 部分基础篇 第2 章神经网络基础41 2.1 神经网络. . . . . . . . . . . . . . 42 2.1.1 神经元. . . . . . . . . . . . 42 2.1.2 激活函数. . . . . . . . . . . 45 2.1.3 神经元组织:层. . . . . . 46 2.2 神经网络训练. . . . . . . . . . . 48 2.2.1 损失函数. . . . . . . . . . . 49 2.2.2 随机梯度下降. . . . . . . . 52 2.2.3 计算图. . . . . . . . . . . . 56 2.2.4 训练优化. . . . . . . . . . . 57 2.2.5 正则化. . . . . . . . . . . . 59 2.3 常用神经网络简介. . . . . . . 61 2.3.1 前馈神经网络. . . . . . . . 61 2.3.2 卷积神经网络. . . . . . . . 62 2.3.3 循环神经网络. . . . . . . . 64 2.4 阅读材料. . . . . . . . . . . . . . 70 2.5 短评:神经网络与自然语言处理关系演变. . . . . . . . . 71 第3 章自然语言处理基础75 3.1 语言模型. . . . . . . . . . . . . . 76 3.1.1 n-gram 语言模型. . . . . 77 3.1.2 神经语言模型. . . . . . . . 78 3.1.3 预训练语言模型. . . . . . 80 3.2 词嵌入. . . . . . . . . . . . . . . . 82 3.2.1 分布表示与分布式表示. . 82 3.2.2 静态词嵌入. . . . . . . . . 84 3.2.3 语境化词嵌入. . . . . . . . 86 3.2.4 跨语言词嵌入. . . . . . . . 88 3.3 对齐. . . . . . . . . . . . . . . . . . 90 3.3.1 文档对齐. . . . . . . . . . . 91 3.3.2 句对齐. . . . . . . . . . . . 91 3.3.3 词对齐. . . . . . . . . . . . 92 3.4 语言分析. . . . . . . . . . . . . . 93 3.4.1 词法分析. . . . . . . . . . . 93 3.4.2 句法分析. . . . . . . . . . . 94 3.4.3 语义分析. . . . . . . . . . . 97 3.4.4 语篇分析. . . . . . . . . . . 98 3.5 阅读材料. . . . . . . . . . . . . . 99 3.6 短评:自然语言处理之经验主义与理性主义. . . . . . . 100 第II 部分原理篇 第4 章经典神经机器翻译105 4.1 编码器-解码器结构. . . . . . 106 4.1.1 编码器. . . . . . . . . . . . 108 4.1.2 解码器. . . . . . . . . . . . 110 4.2 序列到序列学习. . . . . . . . . 112 4.3 训练. . . . . . . . . . . . . . . . . . 114 4.4 解码. . . . . . . . . . . . . . . . . . 114 4.4.1 采样. . . . . . . . . . . . . . 115 4.4.2 贪心搜索. . . . . . . . . . . 115 4.4.3 柱搜索. . . . . . . . . . . . 115 4.5 阅读材料. . . . . . . . . . . . . . 116 4.6 短评:神经机器翻译之独立同发现——编码器-解 码器vs. 序列到序列. . . . . 117 第5 章基于注意力的神经机器翻译119 5.1 经典神经机器翻译模型的瓶颈. . . . . . . . . . . . . . . . . . 120 5.2 注意力机制. . . . . . . . . . . . 120 5.3 注意力机制的改进. . . . . . . 124 5.3.1 全局注意力机制和局部注意力机制. . . . . . . . . 124 5.3.2 注意力覆盖. . . . . . . . . 125 5.3.3 注意力引导训练. . . . . . 126 5.3.4 其他改进方法. . . . . . . . 126 5.4 基于注意力的多层神经机器翻译模型GNMT . . . . . . . 127 5.4.1 整体结构. . . . . . . . . . . 127 5.4.2 残差连接. . . . . . . . . . . 128 5.4.3 双向编码器. . . . . . . . . 128 5.4.4 模型并行. . . . . . . . . . . 128 5.5 阅读材料. . . . . . . . . . . . . . 128 5.6 短评:注意力机制与认知注意. . . . . . . . . . . . . . . . . . 129 第6 章基于卷积神经网络的神经机器翻译模型131 6.1 卷积编码器. . . . . . . . . . . . 132 6.2 全卷积序列到序列模型. . . . 133 6.2.1 位置编码. . . . . . . . . . . 134 6.2.2 卷积层结构. . . . . . . . . 134 6.2.3 多步注意力. . . . . . . . . 135 6.2.4 训练. . . . . . . . . . . . . . 136 6.3 ByteNet . . . . . . . . . . . . . . . 137 6.3.1 编码器--解码器堆叠. . . 137 6.3.2 动态展开. . . . . . . . . . . 138 6.3.3 空洞卷积. . . . . . . . . . . 139 6.3.4 字符级神经机器翻译. . . 139 6.4 阅读材料. . . . . . . . . . . . . . 139 6.5 短评:卷积神经机器翻译——实用性倒逼技术创新. . 140 第7 章基于自注意力的神经机器翻译142 7.1 自注意力机制. . . . . . . . . . . 143 7.2 Transformer 模型. . . . . . . . 144 7.2.1 Transformer 模型总体架构. . . . . . . . . . . . . . 144 7.2.2 多头注意力. . . . . . . . . 146 7.2.3 位置编码. . . . . . . . . . . 147 7.2.4 正则化. . . . . . . . . . . . 148 7.2.5 优点分析. . . . . . . . . . . 148 7.3 自注意力改进方法. . . . . . . 149 7.3.1 相对位置编码. . . . . . . . 149 7.3.2 平均注意力网络. . . . . . 151 7.4 阅读材料. . . . . . . . . . . . . . 152 7.5 短评:Transformer 带来的自然语言处理技术革新. . . . 153 第8 章神经机器翻译若干基础问题及解决方案155 8.1 开放词汇表. . . . . . . . . . . . 156 8.2 深度模型. . . . . . . . . . . . . . 160 8.3 快速解码. . . . . . . . . . . . . . 161 8.3.1 非自回归神经机器翻译. . 162 8.3.2 浅层解码器. . . . . . . . . 165 8.4 模型融合. . . . . . . . . . . . . . 165 8.5 领域适应. . . . . . . . . . . . . . 168 8.6 阅读材料. . . . . . . . . . . . . . 171 8.7 短评:再谈神经机器翻译新思想新技术的诞生. . . . . 172 第III 部分实践篇 第9 章数据准备175 9.1 平行语料. . . . . . . . . . . . . . 176 9.2 语料获取. . . . . . . . . . . . . . 178 9.2.1 平行语料爬取. . . . . . . . 179 9.2.2 公开数据集. . . . . . . . . 181 9.3 数据过滤与质量评估. . . . . 182 9.3.1 噪声类型. . . . . . . . . . . 182 9.3.2 噪声过滤. . . . . . . . . . . 184 9.4 数据处理. . . . . . . . . . . . . . 185 9.4.1 Tokenize . . . . . . . . . . . 185 9.4.2 子词化. . . . . . . . . . . . 186 9.5 阅读材料. . . . . . . . . . . . . . 187 谈数据对机器翻译的重要性. . . . . . . . . . . . 187 第10 章训练190 10.1 mini-batch 设置. . . . . . . . 191 10.1.1 小批量样本选择. . . . . . 191 10.1.2 小批量大小. . . . . . . . . 193 10.2 学习速率设置. . . . . . . . . . 194 10.3 随机梯度下降算法选择. . . 196 10.3.1 Momentum . . . . . . . . 196 10.3.2 AdaGrad . . . . . . . . . . . 197 10.3.3 AdaDelta . . . . . . . . . . 198 10.3.4 Adam . . . . . . . . . . . . 198 10.4 其他超参数选择. . . . . . . . . 199 10.4.1 参数初始化. . . . . . . . . 199 10.4.2 随机失活. . . . . . . . . . 200 10.4.3 模型容量. . . . . . . . . . 200 10.4.4 梯度裁剪. . . . . . . . . . 201 10.5 分布式训练. . . . . . . . . . . . 201 10.5.1 模型并行与数据并行. . . 202 10.5.2 同步更新与异步更新. . . 203 10.5.3 参数服务器与环状全规约204 10.5.4 分布式训练开源框架. . . 205 10.6 Transformer 训练设置. . . . 206 10.6.1 训练数据相关设置. . . . 206 10.6.2 模型容量. . . . . . . . . . 207 10.6.3 小批量大小. . . . . . . . . 207 10.6.4 学习速率. . . . . . . . . . 207 10.6.5 分布式训练. . . . . . . . . 208 10.7 阅读材料. . . . . . . . . . . . . . 208 10.8 短评:超参数设置——自动优化与实验可复现性. . . . 209 第11 章测试212 11.1 解码. . . . . . . . . . . . . . . . . . 213 11.1.1 解码算法. . . . . . . . . . 213 11.1.2 译文评分. . . . . . . . . . 214 11.1.3 检查点平均. . . . . . . . . 216 11.2 解码和训练不一致. . . . . . . 217 11.3 机器翻译评测方法. . . . . . . 219 11.3.1 人工评测. . . . . . . . . . 219 11.3.2 自动评测. . . . . . . . . . 221 11.4 错误分析. . . . . . . . . . . . . . 222 11.5 阅读材料. . . . . . . . . . . . . . 224 11.6 短评:评测驱动机器翻译研究. . . . . . . . . . . . . . . . . . 224 第12 章部署232 12.1 GPU 环境下的部署. . . . . . 233 12.1.1 压力测试. . . . . . . . . . 234 12.1.2 负载均衡. . . . . . . . . . 234 12.1.3 请求合并. . . . . . . . . . 235 12.2 CPU 环境下的部署. . . . . . 236 12.2.1 候选词表. . . . . . . . . . 236 12.2.2 量化运算. . . . . . . . . . 237 12.2.3 结构优化. . . . . . . . . . 239 12.3 智能终端部署. . . . . . . . . . 239 12.3.1 知识蒸馏. . . . . . . . . . 240 12.3.2 剪枝. . . . . . . . . . . . . 241 12.3.3 参数共享. . . . . . . . . . 243 12.3.4 矩阵分解. . . . . . . . . . 243 12.4 模型压缩与计算加速. . . . . 243 12.5 阅读材料. . . . . . . . . . . . . . 244 12.6 短评:机器翻译工业部署. . 245 第13 章系统设计与实现250 13.1 总体设计. . . . . . . . . . . . . . 251 13.1.1 可扩展性. . . . . . . . . . 251 13.1.2 易用性. . . . . . . . . . . . 251 13.1.3 系统效率. . . . . . . . . . 252 13.2 功能设计. . . . . . . . . . . . . . 253 13.2.1 数据. . . . . . . . . . . . . 253 13.2.2 模型. . . . . . . . . . . . . 253 13.2.3 训练. . . . . . . . . . . . . 254 13.2.4 推理. . . . . . . . . . . . . 255 13.3 开源系统. . . . . . . . . . . . . . 256 13.3.1 FAIRSEQ . . . . . . . . . . 256 13.3.2 OpenNMT . . . . . . . . . 257 13.3.3 Marian . . . . . . . . . . . . 257 13.4 FAIRSEQ 解析. . . . . . . . . . 258 13.4.1 注册机制. . . . . . . . . . 258 13.4.2 训练流程. . . . . . . . . . 260 13.4.3 混合精度训练. . . . . . . 262 13.5 阅读材料. . . . . . . . . . . . . . 263 13.6 短评:机器翻译开源之路. . 263 第IV 部分进阶篇 第14 章语篇级神经机器翻译270 14.1 什么是语篇. . . . . . . . . . . . 271 14.2 语篇级机器翻译面临的挑战273 14.2.1 语篇级依存关系建模. . . 273 14.2.2 文档级平行语料稀缺. . . 273 14.2.3 高计算需求. . . . . . . . . 273 14.2.4 语篇级机器翻译评测. . . 274 14.3 语篇级机器翻译形式化定义274 14.4 语篇级神经机器翻译方法. . 275 14.4.1 拼接当前句子与上下文. 275 14.4.2 额外的上下文编码器. . . 277 14.4.3 基于缓存器. . . . . . . . . 279 14.4.4 基于语篇分析. . . . . . . 280 14.4.5 基于衔接性. . . . . . . . . 281 14.4.6 优化训练目标函数. . . . 283 14.4.7 学习句子级语境化表示. 284 14.5 面向语篇现象的机器翻译评测数据集. . . . . . . . . . . . 287 14.6 语篇级机器翻译评测方法. . 287 14.7 未来方向. . . . . . . . . . . . . . 288 14.8 阅读材料. . . . . . . . . . . . . . 289 14.8.1 语篇级统计机器翻译. . . 289 14.8.2 语篇级神经机器翻译. . . 290 14.9 短评:神经机器翻译达到人类同等水平了吗. . . . . . . 291 第15 章低资源及无监督 神经机器翻译295 15.1 低资源语言与资源稀缺挑战296 15.2 低资源神经机器翻译. . . . . 297 15.2.1 数据增强. . . . . . . . . . 299 15.2.2 基于枢纽语言. . . . . . . 300 15.2.3 利用单语数据. . . . . . . 303 15.3 无监督机器翻译. . . . . . . . . 304 15.3.1 无监督跨语言词嵌入. . . 305 15.3.2 无监督神经机器翻译. . . 307 15.4 未来方向. . . . . . . . . . . . . . 310 15.5 阅读材料. . . . . . . . . . . . . . 311 15.6 短评:无监督机器翻译之美及挑战. . . . . . . . . . . . . . 311 第16 章融合知识的神经机器翻译314 16.1 知识与机器翻译. . . . . . . . . 315 16.1.1 内部知识. . . . . . . . . . 315 16.1.2 外部知识. . . . . . . . . . 316 16.2 语言学知识融合. . . . . . . . . 317 16.2.1 句法知识融合. . . . . . . 317 16.2.2 语义角色知识融合. . . . 319 16.2.3 指称知识融合. . . . . . . 321 16.3 非语言学知识融合. . . . . . . 323 16.3.1 常识知识. . . . . . . . . . 323 16.3.2 知识图谱融合. . . . . . . 325 16.4 双语知识融合. . . . . . . . . . 327 16.4.1 双语词典融合. . . . . . . 327 记忆库融合. . . . . . 328 16.5 内部知识迁移. . . . . . . . . . 331 16.5.1 知识蒸馏. . . . . . . . . . 331 16.5.2 预训练模型知识迁移. . . 333 16.6 未来方向. . . . . . . . . . . . . . 336 16.7 阅读材料. . . . . . . . . . . . . . 336 16.8 短评:浅谈基于知识的机器翻译. . . . . . . . . . . . . . . . 337 第17 章鲁棒神经机器翻译341 17.1 鲁棒性概述. . . . . . . . . . . . 342 17.2 对抗鲁棒性. . . . . . . . . . . . 345 17.3 对抗样本生成. . . . . . . . . . 346 17.3.1 白盒攻击. . . . . . . . . . 347 17.3.2 黑盒攻击. . . . . . . . . . 350 17.4 对抗训练. . . . . . . . . . . . . . 354 17.5 数据集. . . . . . . . . . . . . . . . 355 17.5.1 自然噪声数据集. . . . . . 356 17.5.2 人工噪声数据集. . . . . . 356 17.6 未来方向. . . . . . . . . . . . . . 357 17.6.1 对抗攻击. . . . . . . . . . 357 17.6.2 对抗训练. . . . . . . . . . 357 17.6.3 后门攻击与数据投毒. . . 358 17.6.4 分布之外鲁棒性. . . . . . 358 17.7 阅读材料. . . . . . . . . . . . . . 358 17.8 短评:神经机器翻译是疯子吗?兼谈其“幻想” . . . . 360 第18 章多语言神经机器 翻译362 18.1 基本思想与形式化定义. . . 363 18.2 多语言机器翻译vs. 双语机器翻译. . . . . . . . . . . . . . 364 18.2.1 双语机器翻译面临的挑战364 18.2.2 多语言神经机器翻译的优势. . . . . . . . . . . . . . 365 18.3 多语言神经机器翻译模型. . 366 18.3.1 共享. . . . . . . . . . . . . 366 18.3.2 部分共享方法. . . . . . . 368 18.3.3 完全共享方法. . . . . . . 373 18.4 训练数据采样方法. . . . . . . 374 18.5 大规模多语言神经机器翻译375 18.5.1 大规模平行语料数据获取376 18.5.2 模型设计. . . . . . . . . . 378 18.5.3 模型训练. . . . . . . . . . 380 18.6 多语言神经机器翻译向双语神经机器翻译迁移. . . . . 383 18.7 未来方向. . . . . . . . . . . . . . 385 18.7.1 如何处理数据不平衡问题385 18.7.2 如何建模不同语言之间的关系. . . . . . . . . . . . 386 18.7.3 如何在不同语言间有效共享模型参数. . . . . . . . 387 18.7.4 如何有效构建多语言神经机器翻译大模型. . . . . 387 18.8 阅读材料. . . . . . . . . . . . . . 388 18.9 短评:多语言机器翻译之美389 第19 章语音与视觉多模态神经机器翻译392 19.1 文本模态之外的机器翻译. . 393 19.2 端到端语音翻译. . . . . . . . . 394 19.2.1 面临的挑战. . . . . . . . . 397 19.2.2 模型与方法. . . . . . . . . 397 19.2.3 数据集. . . . . . . . . . . . 405 19.2.4 未来方向. . . . . . . . . . 406 19.3 视觉引导的多模态神经机器翻译. . . . . . . . . . . . . . . . 406 19.3.1 面临的挑战. . . . . . . . . 408 19.3.2 模型与方法. . . . . . . . . 409 19.3.3 数据集. . . . . . . . . . . . 414 19.3.4 未来方向. . . . . . . . . . 415 19.4 阅读材料. . . . . . . . . . . . . . 416 19.4.1 端到端语音翻译额外阅读材料. . . . . . . . . . . . 416 19.4.2 视觉引导的多模态神经机器翻译额外阅读材料. . 417 19.5 短评:预训练技术争议与符号奠基问题. . . . . . . . . . . 418 第20 章发展趋势与展望427 20.1 展望. . . . . . . . . . . . . . . . . . 428 20.2 本书未覆盖内容. . . . . . . . . 429 20.2.1 数据伦理与安全. . . . . . 429 20.2.2 偏差. . . . . . . . . . . . . 431 20.2.3 翻译风格. . . . . . . . . . 431 20.2.4 翻译腔. . . . . . . . . . . . 431 20.2.5 音译. . . . . . . . . . . . . 431 20.2.6 对话翻译. . . . . . . . . . 432 20.2.7 非参数与半参数机器翻译432 20.3 短评:科幻中的机器翻译与未来机器翻译. . . . . . . . . 432 参考文献439 索引499

作者简介

编辑推荐

作者寄语

电子资料

www.luweidong.cn

下一个