
语音降噪处理是信号处理的重要分支领域。近年来,该领域在人工智能与深度学习技术的驱动下取得了突破性进展。本书系统总结语音降噪处理的深度学习方法,尽可能涵盖该方法的前沿进展。全书共分8章。第 1章是绪论;第 2章介绍深度学习的基础知识和常见的深度网络模型;第 3~6章集中介绍基于深度学习的语音降噪处理前端算法,其中,第 3章介绍语音检测,第4章介绍单通道语音增强,第5章介绍多通道语音增强,第6章介绍多说话人语音分离;第7章和第 8章分别介绍基于深度学习的语音降噪处理在声纹识别和语音识别方面的应用,其中着重介绍基于深度学习的现代声纹识别、语音识别基础和前沿进展。
本书专业性较强,主要面向具备一定语音信号处理和机器学习基础、致力于从事智能语音处理相关工作的高年级本科生、研究生和专业技术人员。
自 2012年美国俄亥俄州立大学汪德亮教授等提出基于深度学习的鲁棒语音处理以来,语音降噪处理的深度学习方法迅速成为鲁棒语音处理的主流方法之一,在学术界和工业界的共同努力下,得到了快速发展。语音降噪处理的深度学习方法从最开始只能在匹配的噪声、匹配的信噪比环境下取得一个研究点上的突破,发展到能够在复杂的现实噪声场景和极低信噪比环境下获取惊人的性能;从最开始需要深度置信网络进行分层预训练才能训练成功,发展到今天可以没有难度地训练任意深度的深层网络;从最开始算法时延高达数十毫秒,发展到今天在没有性能显著损失的条件下能够满足实时通信的需求;从最开始的单通道(单麦克风)信号处理,发展到今天可以对由任意多个麦克风组成的自组织网络信号进行联合处理;等等。基于深度学习的鲁棒语音处理技术也在快速步入实际使用,并在智能家居、智能车载、智能语音客服、会议记录等应用方面创造了巨大的产业价值。
尽管该技术发展迅速,但是相关的中文书籍匮乏。对此,本书将以中文首次全面介绍基于深度学习的鲁棒语音处理的发展,具体内容包括语音检测、语音增强、语音去混响、多说话人语音分离、鲁棒声纹识别与鲁棒语音识别。本书侧重对历史的回顾,帮助读者梳理该方向的技术发展脉络和趋势;并着重介绍在实际使用中性能突出的代表性方法,帮助读者快速熟悉该方向的主要技术。
全书共分 8章。第 1章是绪论;第 2章介绍深度学习的基础知识和常见的深度网络模型;第 3~ 6章集中介绍基于深度学习的语音降噪处理前端算法,其中,第 3章介绍语音检测,第 4章介绍单通道语音增强,第 5章介绍多通道语音增强,第 6章介绍多说话人语音分离;第 7章和第 8章分别介绍基于深度学习的语音降噪处理在声纹识别和语音识别方面的应用,其中着重介绍基于深度学习的现代声纹识别、语音识别基础知识和前沿技术。
本书是一部专业性较强的著作,主要面向具备一定语音信号处理和机器学习基础、致力于从事智能语音处理相关工作的高年级本科生、研究生和专业技术人员。
作者在编写本书时参考和引用了一些学者的研究成果、著作和论文,具体出处见参考文献。在此,作者向这些文献的著作者表示感谢。在本书的编写过程中得到了西北工业大学一批优秀研究生的协助,他们分别是官善政、李盛强、王谋、白仲鑫、王瑞、王建宇、杨子叶、刘书培、徐梦龙、李梦真、朱文博、梁成栋、谭旭、唐林瑞泽、陈俊淇、龚亦骏、姚嘉迪、陈益江、王杰、陈星(排名不分先后)。
本书获西北工业大学精品学术著作培育项目资助(项目号为 21GH030801)。
基于深度学习的鲁棒语音处理是一个理论性强、实用面广、内容新、难度大的研究方向,同时这个方向又处于快速发展中,尽管作者在编写过程中力求涵盖最前沿的技术,通过简明、通俗的语言将这门技术介绍给读者,但因作者水平有限,不妥之处在所难免,敬请广大读者批评指正。
张晓雷
2021年 4月
第 1章绪论 .........................................................................................1
第 2章深度学习基础 ............................................................................5
2.1有监督学习................................................................................ 5
2.2单层神经网络 ............................................................................ 6
2.2.1基本模型 ........................................................................ 6
2.2.2激活函数 ........................................................................ 7
2.3前馈深度神经网络.....................................................................10
2.3.1反向传播算法.................................................................11
2.3.2正则化...........................................................................15
2.4循环神经网络 ...........................................................................17
2.4.1循环神经网络基础 ..........................................................17
2.4.2长短时记忆网络 .............................................................20
2.4.3门控循环神经网络 ..........................................................22
2.4.4深层 RNN结构..............................................................23
2.4.5序列数据的 RNN建模框架 .............................................25
2.5卷积神经网络 ...........................................................................26
2.5.1卷积神经网络基础 ..........................................................27
2.5.2其他卷积形式.................................................................31
2.5.3残差神经网络.................................................................35
2.5.4时序卷积网络.................................................................37
2.6神经网络中的归一化 .................................................................39
2.6.1批归一化 .......................................................................39
2.6.2层归一化 .......................................................................41
2.7神经网络中的注意力机制...........................................................42
2.7.1编码器-解码器框架.........................................................42
2.7.2 编码器
-注意力机制-解码器框架 .......................................44
2.
7.3 单调注意力机制 .............................................................46 Transformer...................................................................47
2.7.4
2.8生成对抗网络
...........................................................................48
2.8.1 基本结构
.......................................................................49
2.8.2 模型训练
.......................................................................51
2.9本章小结
..................................................................................52
第 3章语音检测................................................................................. 53
3.1引言
.........................................................................................53
3.2基本知识
..................................................................................54
3.2.1 信号模型
.......................................................................54
3.2.2 评价指标
.......................................................................55
3.3语音检测模型
...........................................................................57
3.
3.1 语音检测模型的基本框架 ................................................57
3.
3.2 基于深度置信网络的语音检测 .........................................58
3.
3.3 基于降噪深度神经网络的语音检测...................................61
3.
3.4 基于多分辨率堆栈的语音检测模型框架 ............................63
3.
4语音检测模型的损失函数...........................................................65
3.
4.1 最小化交叉熵.................................................................66
3.
4.2 最小均方误差.................................................................66
3.4.3 最大化
ROC曲线下面积 ................................................66
3.
5语音检测的声学特征 .................................................................69
3.
5.1 短时傅里叶变换的频带选择.............................................69
3.
5.2 多分辨率类耳蜗频谱特征 ................................................70
3.
6模型的泛化能力 ........................................................................72
3.7本章小结
..................................................................................73
第 4章单通道语音增强....................................................................... 75
4.1引言
.........................................................................................75
4.2基本知识
..................................................................................77
4.2.1 信号模型
.......................................................................77
4.2.2 评价指标
.......................................................................79
4.3频域语音增强
...........................................................................81
4.3.1算法框架
.......................................................................81
4.3.2训练目标
.......................................................................82
4.
3.3语音增强模型.................................................................89
4.
3.4语音去混响模型 .............................................................93
4.4时域语音增强
.........................................................................100
4.4.1关键问题
.....................................................................101
4.4.2卷积模型
.....................................................................102
4.4.3损失函数
.....................................................................104
4.5本章小结
................................................................................106
第 5章多通道语音增强..................................................................... 107
5.1引言
.......................................................................................107
5.2信号模型
................................................................................108
5.
3空间特征提取法 ......................................................................109
5.3.1空间特征
.....................................................................109
5.3.2深度模型
.....................................................................111
5.4波束形成方法
.........................................................................113
5.
4.1自适应波束形成器 ........................................................114
5.4.2噪声估计
.....................................................................116
5.
4.3基于神经网络的波束形成方法 .......................................117
5.
5自组织麦克风阵列方法 ............................................................121
5.
5.1深度自组织波束形成.....................................................123
5.
5.2通道权重估计...............................................................124
5.
5.3通道选择算法...............................................................125
5.6本章小结
................................................................................131
第 6章多说话人语音分离 ................................................................. 133
6.1引言
.......................................................................................133
6.2信号模型
................................................................................134
6.
3与说话人相关的语音分离方法 ..................................................134
6.
3.1模型匹配法 ..................................................................134
6.
3.2声纹特征法 ..................................................................139
6.
4与说话人无关的语音分离.........................................................142
6.
4.1深度聚类算法...............................................................143
6.
4.2置换不变训练算法 ........................................................146
6.
4.3基于时域卷积的端到端语音分离算法 .............................148
6.5本章小结
................................................................................151
第 7章声纹识别............................................................................... 153
7.1引言
.......................................................................................153
7.2说话人确认
.............................................................................155
7.
2.1说话人确认基础 ...........................................................155
7.
2.2基于分类损失的深度嵌入说话人确认算法.......................159
7.
2.3基于确认损失的端到端说话人确认算法 ..........................168
7.
3说话人分割聚类 ......................................................................173
7.
3.1说话人分割聚类基础.....................................................174
7.
3.2分阶段说话人分割聚类 .................................................176
7.
3.3端到端说话人分割聚类算法...........................................180
7.4鲁棒声纹识别
.........................................................................183
7.
4.1结合增强前端的抗噪声纹识别 .......................................183
7.
4.2基于无监督域自适应的鲁棒声纹识别 .............................185
7.5本章小结
................................................................................188
第 8章语音识别............................................................................... 191
8.1引言
.......................................................................................191
8.2语音识别基础
.........................................................................193
8.2.1信号模型
.....................................................................193
8.2.2评价指标
.....................................................................193
8.
3端到端语音识别 ......................................................................194
8.
3.1连接时序分类模型 ........................................................194
8.
3.2注意力机制模型 ...........................................................203
8.
4语音识别的噪声鲁棒方法.........................................................206
8.5说话人自适应
.........................................................................210
8.
5.1说话人自适应训练 ........................................................210
8.
5.2测试阶段自适应 ...........................................................214
8.6本章小结
................................................................................220
参考文献 ............................................................................................. 221
本书将以中文首次全面介绍基于深度学习的鲁棒语音处理的发展,具体包括语音检测、单通道语音增强、多通道语音增强、语音分离、鲁棒声纹识别与鲁棒语音识别。
张晓雷,西北工业大学教授,博导,入选国家千人计划青年项目、陕西省百人计划青年项目。清华大学博士、美国俄亥俄州立大学博士后。从事声信号与语音处理,机器学习,人工智能的研究工作。在Neural Networks、IEEE TPAMI、IEEE TASLP、IEEE TCYB、IEEE TSMCB等期刊、会议发表论文50余篇。合著译著1部。承担国家重点研发计划、国家自然科学基金重点项目等省部级以上项目10余项。论文“Multilayer Bootstrap Networks”获得国际神经网络学会与国际**期刊《Neural Networks》联合授予的2020年度****论文奖。获得亚太信号与信息处理学会杰出讲者称号、UbiMedia 2019国际会议**论文奖、北京市科学技术一等奖、教育部科技成果完成者荣誉称号。研究成果在国内三大电信运营商、金融、交通、保险等行业的20余家主流企业成功应用。