
深度学习是人工智能与机器学习领域的重要研究分支,经过短短十几年的发展,已经在计算机视觉与图像处理、自然语言处理等领域取得令人瞩目的成就。本书作为深度学习方面的专门书籍,融合了机器学习、人工神经网络和深度学习的相关概念,并且从信号处理视角呈现了深度学习背后的几何学原理,以便从统一的角度去深化理解深度学习的主要模型和算法,从而更好地用于指导理论分析和实践开发。全书分为三个部分,共14章。第1~4章为第一部分,主要介绍机器学习基础知识,包括向量空间、矩阵代数、凸优化等数学预备知识,以及支持向量机、核回归等经典机器学习技术;第5~9章为第二部分,主要介绍深度学习的构成要素,包括人工神经网络与反向传播、卷积神经网络、图神经网络及归一化和注意力机制,重点介绍这些模型背后的数学原理和几何解释;第10~14章为第三部分,主要介绍深度学习的高级主题,包括深度神经网络几何学、深度学习优化与泛化能力,以及生成模型与无监督学习。
前言 这是一个前所未有的、奇特的、非常与众不同的新学期伊始,我本应面向生物与脑工程系和数学科学系高年级本科生开设一门新的高级智能课程。我最初规划了一套标准的机器学习教学方法,即在内容设置上是实用的、基于经验的讲座,并且通过许多小型项目和学期项目与学生进行大量互动。不幸的是,新冠肺炎的全球大流行彻底改变了世界上的教学方式,这种互动课程在大多数情况下不再是一种好的选择。 因此,我想到了给学生在线授课的最佳方式。我希望这门课程有别于其他流行的在线机器学习课程,但仍然提供有关现代深度学习的最新信息。然而,大多数现有的教材要么内容已经过时了,要么过于注重具体操作而没有涉及相关的基础知识,可用的选项并不多。一种选择是通过添加我想要讲授的所有最新知识来准备演示幻灯片。但对本科阶段的课程,演示文件通常不足以让学生跟随课堂教学,我们还需要一本学生可以独立阅读的教材来帮助他们理解消化教学内容。为此,我决定先撰写一个阅读材料,再根据它创建演示文件,这样学生就可以在线上讲座前后独立开展学习。这就是我为期一学期的《深度学习的几何学—信息处理视角》书籍项目的由来。 事实上,我一直坚信深度神经网络绝不是一个神奇的黑匣子,而是数学新发现的无穷灵感的源泉。此外,我相信艾萨克·牛顿的那句名言“站在巨人的肩膀上”,并寻求对深度学习的数学解释。对像我这样的医学影像研究人员来说,这个话题不仅从理论角度,而且对临床决策都是至关重要的,因为我们并不想创造出可以被视为“疾病”的虚假特征。 2017年的某一天,在里斯本(Lisbon)的一条街道上,我在理解编码器-解码器神经网络中隐藏的小波框架结构方面突然来了灵感。关于深度卷积小波框架的最终解释发表在SIAM Journal on Imaging Science上,这项工作在应用数学界产生了重大影响,并且是自发表以来下载次数最多的论文之一。然而,有关整流线性单元(Rectified Linear Unit,ReLU)在这项工作中的作用机理阐述并不清晰,医学影像期刊的一位审稿人一直要求我解释ReLU在深度神经网络中的作用。起初,这看起来像一个超出医学应用论文范围的问题,但要感谢审稿人,因为在准备问题答复的痛苦中,我意识到ReLU决定了输入空间划分,它会自动适应输入空间流形。事实上,这一发现促成了2019年的ICML论文,在该论文中我们揭示了小波框架的组合表示,这清楚地表明了其与经典压缩感知(Compressed Sensing,CS)方法之间的关键联系。 回想起来,当初我非常大胆地开始了这本书的撰写工作,因为这只是我对深度学习的几何理解的两个片段。然而,当我为深度学习的每个主题准备阅读材料时,我发现确实有许多令人兴奋的几何见解尚未充分讨论。 例如,在撰写关于反向传播的章节时,我意识到分母布局(denominator layout)约定在矩阵演算中的重要性,这导致了非常优美的反向传播几何学。在写这本书之前,归一化和注意力机制在我看来似乎相当富有启发性,由于缺乏系统理解的证据,加上二者的相似性,这更加令人困惑不已。例如,AdaIN、Transformer和BERT就像研究人员用他们自己的秘密调味料开发的黑暗食谱。然而,在准备阅读材料的过程中经深入研究后发现,它们的直觉背后其实有一个非常好的数学结构,这表明二者之间及它们与最优传输理论之间是密切相关的。 在撰写关于深度神经网络的几何学的章节中,另一个乐趣是它开阔了我的视野。在讲座过程中,我的一位学生指出,某些分区将会导致低秩映射(low-rank mapping)。回想起来,这其实已经蕴含在方程中了,但直到学生向我发起挑战,我才意识到分区的优美几何形状,它与深度神经网络的迷人经验观察完美吻合。 第13章是关于生成模型和无监督学习的,这也是令我感到非常自豪的地方。与采用概率工具对生成对抗网络、变分自编码器及归一化流进行解释的传统做法相比,我的主要重点放在利用几何工具对它们进行推导。事实上,这种努力是非常有益的,该章清楚地将各种形式的生成模型统一为统计距离最小化和最优传输问题。 事实上,本书的重点是赋予学生一种几何洞察力,以便帮助他们在一个统一的框架下理解深度学习,我相信这是第一本从这种角度写作的深度学习书籍。由于本书是基于我为高年级本科生课程而准备的材料,相信本书可用于为期一个学期的高年级本科生和研究生课程。另外,我的课程是生物工程和数学专业的代码共享课程,因此其中的大部分内容是跨学科的,试图吸引这两个学科的学生。 非常感谢我的助教及Bi S400C和MAS480 2020年春季班的学生。特别感谢我伟大的助教团队:Sangjoon Park、Yujin Oh、Chanyong Jung、Byeongsu Sim、Hyungjin Chung和Gyutaek Oh。尤其是Sangjoon,作为首席助教做了大量工作,并就本书的印刷错误和谬误提供了系统的反馈。还要感谢我在KAIST生物成像、信号处理与学习实验室(Bio Imaging, Signal Processing and Learning Laboratory,BISPL)的出色团队,他们的开创性研究工作激发了我的灵感。 非常感谢我了不起的儿子和未来的科学家Andy Sangwoo,以及我可爱的女儿和未来的作家Ella Jiwoo,他们的爱和支持是我无穷无尽的能量和灵感源泉,我为你们感到骄傲。最后,但同样也是最重要的,我要感谢我亲爱的妻子Seungjoo(Joo),自从我们认识以来,她一直给予我无尽的爱和持续不断的支持。我欠你的一切,是你让我成为一个好人。 以上致以我最诚挚的谢意。 Jong Chul Ye 于韩国大田? 2021年2月
第一部分 机器学习基础 第1章 数学预备知识 2 1.1 度量空间 2 1.2 向量空间 3 1.3 巴拿赫空间与希尔伯特空间 4 1.4 概率空间 7 1.5 矩阵代数 8 1.5.1 Kronecker积 10 1.5.2 矩阵与向量微积分 11 1.6 凸优化基础 12 1.6.1 基本概念 12 1.6.2 凸集与凸函数 14 1.6.3 次微分 15 1.6.4 凸共轭 16 1.6.5 拉格朗日对偶公式 18 1.7 习题 20 第2章 线性与核分类器 22 2.1 引言 22 2.2 硬间隔线性分类器 23 2.2.1 可分离情况的最大间隔 分类器 23 2.2.2 对偶公式 25 2.2.3 KKT条件与支持向量 26 2.3 软间隔线性分类器 27 2.4 采用核SVM的非线性 分类器 29 2.4.1 特征空间中的线性 分类器 29 2.4.2 核技巧 30 2.5 图像分类的经典方法 31 2.6 习题 32 第3章 线性回归、逻辑回归与 核回归 34 3.1 引言 34 3.2 线性回归 34 3.3 逻辑回归 36 3.3.1 对数概率与线性回归 36 3.3.2 使用逻辑回归进行 多分类 37 3.4 岭回归 38 3.5 核回归 39 3.6 回归中的偏差-方差权衡 41 3.7 习题 43 第4章 再生核希尔伯特空间与 表示定理 44 4.1 引言 44 4.2 再生核希尔伯特空间 45 4.2.1 特征映射和核 46 4.2.2 再生核希尔伯特空间的 定义 47 4.3 表示定理 49 4.4 表示定理的应用 50 4.4.1 核岭回归 50 4.4.2 核SVM 51 4.5 核机器的优缺点 53 4.6 习题 53 第二部分 深度学习的构成要素 第5章 生物神经网络 56 5.1 引言 56 5.2 神经元 56 5.2.1 神经元解剖 56 5.2.2 信号传输机制 57 5.2.3 突触可塑性 58 5.3 生物神经网络 59 5.3.1 视觉系统 60 5.3.2 Hubel-Wiesel模型 60 5.3.3 Jennifer Aniston细胞 61 5.4 习题 62 第6章 人工神经网络与反向传播 64 6.1 引言 64 6.2 人工神经网络 64 6.2.1 符号约定 64 6.2.2 单个神经元建模 65 6.2.3 多层前馈神经网络 67 6.3 人工神经网络训练 68 6.3.1 问题描述 68 6.3.2 优化器 69 6.4 反向传播算法 72 6.4.1 反向传播算法的推导 72 6.4.2 反向传播算法的几何 解释 75 6.4.3 反向传播算法的变分 解释 75 6.4.4 局部变分公式 77 6.5 习题 78 第7章 卷积神经网络 80 7.1 引言 80 7.2 现代卷积神经网络发展 简史 81 7.2.1 AlexNet 81 7.2.2 GoogLeNet 81 7.2.3 VGGNet 83 7.2.4 ResNet 83 7.2.5 DenseNet 84 7.2.6 U-Net 84 7.3 卷积神经网络的基础构件 85 7.3.1 卷积 85 7.3.2 池化与反池化 87 7.3.3 跳跃连接 89 7.4 训练卷积神经网络 90 7.4.1 损失函数 90 7.4.2 数据划分 90 7.4.3 正则化 91 7.5 卷积神经网络可视化 92 7.6 卷积神经网络的应用 94 7.7 习题 95 第8章 图神经网络 98 8.1 引言 98 8.2 数学基础 100 8.2.1 定义 100 8.2.2 图同构 100 8.2.3 图着色 101 8.3 相关工作 102 8.3.1 词嵌入 102 8.3.2 损失函数 105 8.4 图嵌入 105 8.4.1 矩阵分解方法 106 8.4.2 随机游走方法 106 8.4.3 神经网络方法 107 8.5 WL同构测试与图神经 网络 109 8.5.1 WL同构测试 109 8.5.2 图神经网络作为WL 测试 110 8.6 总结和展望 111 8.7 习题 111 第9章 归一化和注意力 113 9.1 引言 113 9.2 归一化 115 9.2.1 批量归一化 115 9.2.2 逐层和实例归一化 116 9.2.3 自适应实例归一化 117 9.2.4 白化与着色变换 119 9.3 注意力 120 9.3.1 代谢型受体:生物学 类比 120 9.3.2 空间注意力的数学建模 121 9.3.3 通道注意力 123 9.4 应用 124 9.4.1 StyleGAN 124 9.4.2 自注意力GAN 125 9.4.3 注意力GAN 126 9.4.4 图注意力网络 127 9.4.5 Transformer 128 9.4.6 BERT 130 9.4.7 GPT 133 9.4.8 视觉Transformer 135 9.5 归一化与注意力的数学 分析 136 9.6 习题 138 第三部分 深度学习的高级主题 第10章 深度神经网络几何学 141 10.1 引言 141 10.2 实例探究 142 10.2.1 单隐层感知器 142 10.2.2 框架表示 143 10.3 卷积小波框架 146 10.3.1 卷积与Hankel矩阵 146 10.3.2 卷积小波框架展开 148 10.3.3 与卷积神经网络的 联系 148 10.3.4 深度卷积小波框架 150 10.4 卷积神经网络的几何学 152 10.4.1 非线性的作用 152 10.4.2 非线性是归纳学习的 关键 153 10.4.3 表达能力 153 10.4.4 特征的几何意义 154 10.4.5 自编码器的几何理解 159 10.4.6 分类器的几何理解 161 10.5 尚待解决的问题 161 10.6 习题 163 第11章 深度学习优化 164 11.1 引言 164 11.2 问题描述 164 11.3 Polyak-?ojasiewicz型收敛性 分析 165 11.4 Lyapunov型收敛性分析 169 11.4.1 神经正切核 171 11.4.2 无限宽极限的神经正 切核 172 11.4.3 一般损失函数的神经正 切核 173 11.5 习题 174 第12章 深度学习的泛化能力 175 12.1 引言 175 12.2 数学基础 175 12.2.1 Vapnik-Chervonenkis界 178 12.2.2 Rademacher复杂度界 180 12.2.3 PAC贝叶斯界 183 12.3 利用双下降模型协调泛化 ?鸿沟 184 12.4 归纳偏置优化 187 12.5 基于算法鲁棒性的泛化界 188 12.6 习题 190 第13章 生成模型与无监督学习 192 13.1 引言 192 13.2 数学基础 193 13.3 统计距离 196 13.3.1 f散度 196 13.3.2 Wasserstein度量 197 13.4 最优传输 199 13.4.1 Monge原始公式 199 13.4.2 Kantorovich公式 200 13.4.3 熵正则化 202 13.5 生成对抗网络 203 13.5.1 GAN的最初形式 203 13.5.2 f–GAN 205 13.5.3 Wasserstein GAN 207 13.5.4 StyleGAN 208 13.6 自编码器型生成模型 208 13.6.1 ELBO 209 13.6.2 变分自编码器 209 13.6.3 β–VAE 212 13.6.4 归一化流与可逆流 213 13.7 通过图像翻译进行无监督 ?学习 216 13.7.1 Pix2pix 216 13.7.2 CycleGAN 217 13.7.3 StarGAN 219 13.7.4 协同GAN 222 13.8 总结与展望 224 13.9 习题 224 第14章 总结与展望 226 附录A 专业术语中英文对照表 228 参考文献 234