
本书是根据作者在音频降噪领域的研究成果而著,全书共分为10章,主要内容包括绪论、基于高斯混合模型的非监督在线建模噪声功率谱估计、结合优化U-Net和残差网络的单通道语音增强算法、基于差分麦克风阵列的变步长LMS语音增强算法、语音频带扩展研究综述、基于时间卷积神经网络的语音频带扩展、基于编解码器网络的语音频带扩展、基于时频感知神经网络的语音频带扩展、IMCRA-OMLSA噪声动态估计下的心音降噪、结合SVM和香农能量的HSMM心音分割方法。
随着深层神经网络的研究进展和大规模使用,人工智能领域得到了空前的发展,智能语音是人工智能重要的应用场景,“人工智能+语音”将成为未来大发展趋势。 目前,国内智能语音处理专著出版的比较少,已有专著大多侧重于语音单个应用场景,由于网络模型更新速度较快,已有专著在算法更新方面难免有所滞后。江西理工大学人工智能实验室长期从事智能语音处理及应用方面的研究工作。先后在本科生和研究生中开设了“语音信号处理”“智能语音处理”两门课程。本书既是我们对于研究工作的归纳与提炼,又融入了多年教学工作的经验积累。期望能够对普及语音信息处理理论,丰富智能语音处理方法做出一点贡献,并对高校的智能语音研究和教学有所裨益。 本书共分为10章,第1章主要介绍音频增强的研究意义以及国内外研究进展。第2章阐述传统的频域语音增强算法,主要研究了基于GMM的噪声功率谱估计与语音增强算法。第3章给出噪声抑制与语音增强前沿算法,主要包括基于深层学习的语音增强算法,提出了一种结合优化U-Net和残差网络的单通道语音增强算法。第4章介绍双通道语音增强研究意义,给出了一种基于差分麦克风阵列的变步长LMS语音增强算法,该算法既使用了阵列的空域特性来抑制方向性干扰噪声,又结合了传统语音增强技术提升算法效果,且具有算法复杂度低的特点,能够用于便携式语音处理系统。第5章介绍语音频带扩展技术,通过频谱扩展实现语音增强效果,概述了几种传统的和最近出现的语音频带扩展算法。第6章提出了一种基于时间卷积神经网络的语音频带扩展算法,该算法相对基线系统参数量更小,并提出了一种时频损失函数,提升了语音频带扩展系统性能。第7章提出了一种基于编解码网络的语音频带扩展算法,设计的深度模型结合了时频感知特性,生成的重构宽带语音具有更高的语音质量。第8章提出了一种基于时频感知神经网络的语音频带扩展算法,相对于前面章节提出的算法,本算法从时域、频域和感知域三个维度同时恢复宽带语音信息,取得了更好的性能。第9章提出了一种基于IMCRA-OMLSA噪声动态估计下的心音降噪算法,能有效抑制采集环境下的噪声,尤其是靠近基础心音的噪声,且能有效提升分类系统的准确性,提升了心音信号的可分析性。第10章提出了结合SVM和香农能量的HSMM心音分割算法,包括心音降噪处理、提取香农能量特征,并进一步进行心音分割处理。 本书在编写过程中,参考了国内外近年来出版的多本专著,在体系结构、章节安排、案例设置等方面借鉴了它们的优点,篇章结构体现了经典理论、学科前沿以及场景应用相结合的原则,同时融入了作者多年来在“语音信号处理”“智能语音处理”等课程教学和科研的经验,凝练了本书的以下主要特点。 (1)学术性较强:力求反映当前智能语音处理领域解决音频降噪和语音增强问题的最新研究进展,书中的理论是当前音频领域研究的热点之一,内容丰富,阐述全面,能够为相关研究人员开辟新的研究方向提供启示。 (2)内容新颖:给出了课题组最新的研究成果,如基于端到端深度学习的语音降噪、结合注意力机制的语音频带扩展、基于神经网络的心音分类等。 (3)强化应用:书中内容面向应用,涉及了语音降噪、心音增强、语音频带扩展、声源定位等众多分支领域,力求为解决工程实际问题提供有益参考。 (4)案例分析透彻。本书给出了一些深层神经网络在语音处理系统前端的应用案例,并对案例进行理论分析、过程推导、实验测试、结果分析以及应用展望,有助于读者深入理解智能语音理论基础和相关算法,为实际应用提供借鉴。 本书不但汇集了课题组多年的研究成果,还在绪论、基础知识等方面汇集了学术界和产业界对音频信息处理的最新研究成果。 本书主要面向研究生和高年级的本科生,特别适合于人工智能本科专业和智能语音研究方向的研究生阅读,也可供不同层面从事语音研究工作的相关技术人员参考。 本书由许春冬执笔、统稿,王吉源、凌贤鹏参与了部分章节内容编写。感谢中国科学院大学讲座教授应冬文老师的指导,感谢北京理工大学王晶老师在专著编写过程中所提的建议。本书在编写过程中,得到了江西理工大学许多老师和研究生的帮助,特别是研究生许瑞龙、周静、龙清华、徐琅、周滨、林海、闵源、辛鹏丽、李庆林、李海兵、徐锦武、朱诚、王茹霞等同学做出了积极贡献,在此表示衷心的感谢。 本书涉及的研究内容得到了江西理工大学专著出版基金、国家自然科学基金项目以及江西省科技项目的部分资助,在此表示感谢。 本书是作者在语音增强与心音降噪领域的一种努力和尝试,由于水平有限,书中难免存在不足之处,恳请读者批评指正。 许春冬、王吉源、凌贤鹏 2021年10月30日
第1章 绪论 1 1.1 引言 1 1.2 语音增强基础 2 1.2.1 模型描述 2 1.2.2 噪声类型 2 1.2.3 语音质量评价方法 3 1.3 传统单通道语音增强技术发展 4 1.4 监督性单通道语音增强技术发展 5 1.4.1 基于浅层模型的语音增强算法 6 1.4.2 基于深层模型的语音增强算法 6 1.5 本章小结 11 参考文献 12 第2章 基于高斯混合模型的非监督在线建模噪声功率谱估计 18 2.1 引言 18 2.2 基于GMM的在线建模方法 18 2.3 基于极大似然的在线参数估计 19 2.4 基于MDL准则的在线约束 21 2.5 聚类方法实现 22 2.6 实验设置与分析 23 2.6.1 实验设置 23 2.6.2 实验结果与分析 24 2.7 本章小结 26 参考文献 27 第3章 结合优化U-Net和残差网络的单通道语音增强算法 30 3.1 引言 30 3.2 Residual-U-Net语音增强方法 31 3.2.1 自编码器结构 31 3.2.2 U-Net网络结构 32 3.2.3 残差网络 33 3.2.4 Residual-U-Net网络 34 3.3 实验设置与分析 35 3.3.1 数据集及参数设置 36 3.3.2 结果与分析 37 3.3.3 语谱图比较 39 3.4 本章小结 40 参考文献 40 第4章 基于差分麦克风阵列的变步长LMS语音增强算法 42 4.1 引言 42 4.2 双通道信号模型 43 4.3 算法描述 44 4.3.1 一阶差分麦克风阵列 44 4.3.2 变步长频域LMS算法 45 4.4 实验设置与分析 46 4.5 本章小结 52 参考文献 53 第5章 语音频带扩展研究综述 55 5.1 引言 55 5.2 源-滤波器模型 55 5.2.1 宽带激励信号生成 57 5.2.2 宽带谱包络估计 59 5.3 深度学习的端到端语音频带扩展 63 5.3.1 全连接神经网络 64 5.3.2 基于全连接神经网络的语音频带扩展 66 5.4 基于卷积神经网络的语音频带扩展 66 5.5 基于循环神经网络的语音频带扩展 68 5.6 基于时频神经网络的语音频带扩展 71 5.7 数据预处理方式及窄带语音特性 74 5.7.1 窄带语音产生原因 74 5.7.2 时域预处理方法 75 5.7.3 频域预处理方法 75 5.8 仿真与分析 78 5.8.1 客观评价 78 5.8.2 主观评价 80 5.8.3 语谱图 81 5.9 本章小结 81 参考文献 82 第6章 基于时间卷积神经网络的语音频带扩展 89 6.1 时间卷积网络结构 89 6.1.1 扩张因果卷积 89 6.1.2 时间卷积网络 91 6.2 基于TCN的语音频带扩展 93 6.2.1 模型架构 93 6.2.2 时频损失 95 6.3 实验设置与分析 96 6.3.1 实验设置 96 6.3.2 实验结果与分析 97 6.4 本章小结 100 参考文献 100 第7章 基于编解码器网络的语音频带扩展 103 7.1 编解码器网络模型 103 7.2 时频感知损失函数 105 7.3 实验设置与分析 106 7.3.1 实验设置 106 7.3.2 语谱图 107 7.3.3 客观评价 107 7.3.4 主观评价 108 7.4 本章小结 109 参考文献 109 第8章 基于时频感知神经网络的语音频带扩展 111 8.1 编解码器注意力模型 112 8.1.1 编码器结构 113 8.1.2 局部敏感哈希自注意力层 113 8.1.3 解码器结构 114 8.2 深度时频感知损失函数 115 8.3 实验设置与分析 115 8.3.1 实验设置 115 8.3.2 语谱图 116 8.3.3 客观评价 117 8.3.4 主观评价 118 8.4 消融对比实验 119 8.5 本章小结 121 参考文献 121 第9章 IMCRA-OMLSA噪声动态估计下的心音降噪 124 9.1 引言 124 9.2 算法框架 125 9.3 基于IMCRA-OMLSA的心音降噪 126 9.3.1 基于OMLSA的心音降噪 126 9.3.2 基于IMCRA的噪声估计 128 9.4 降噪结果的定性分析 131 9.5 降噪结果的定量评估 134 9.5.1 数据集与特征提取 135 9.5.2 分类器构建 135 9.5.3 评估结果及分析 136 9.6 本章小结 138 参考文献 138 第10章 结合SVM和香农能量的HSMM心音分割方法 142 10.1 引言 142 10.2 分割的原理与方法 143 10.2.1 预处理 143 10.2.2 LR-HSMM 144 10.2.3 归一化香农能量 146 10.2.4 支持向量机(SVM) 147 10.2.5 心音持续时间分布 148 10.2.6 Viterbi解码 148 10.3 分割算法流程 149 10.4 训练与评价指标 149 10.4.1 数据集 149 10.4.2 训练集 150 10.4.3 模型评估 150 10.5 实验设置与分析 151 10.5.1 实验结果 151 10.5.2 性能指标对比 152 10.6 本章小结 154 参考文献 154 主要符号缩写 156