
本书是关于神经网络的经典教材,完整、详细地讨论了各个主题,且包含了相关的计算机实验。全书共15章,主要内容包括神经网络的定义、Rosenblatt感知器、回归建模、最小均方算法、多层感知器、核方法和径向基函数网络、支持向量机、正则化理论、主成分分析、自组织映射、信息论学习模型、源于统计力学的随机方法、动态规划、神经动力学、动态系统状态估计的贝叶斯滤波、动态驱动递归网络。本书适合高等院校计算机、电子信息、软件工程、智能工程等专业的高年级本科生和研究生学习使用,也可供相关领域的技术人员参考。
前 言 撰写作为一本经典著作的本书的第三版时,我一直秉持撰写本书第一版时遵循的基本宗旨——以体系完善、深入透彻和通俗易懂的方式,撰写一部关于神经网络的最新著作。 为了反映如下两个事实,第三版更名为《神经网络与机器学习》: 1.感知器、多层感知器、自组织映射和神经动力学等总被人们视为神经网络的不可分割部分的主题,都源于受人类大脑启发的理念。 2.体现支持向量机和核主成分分析的核方法,都源于统计学习理论。 虽然神经网络和机器学习二者确实共享许多基本的概念与应用,但是在具体运行方面仍然存在一些细微的区别。因此,将二者放在同一个体系下进行研究时,这些潜在的主题就会变得更加丰富,尤其是在如下方面: ● 混合使用神经网络和机器学习的理念,执行改进的学习任务(改进的学习任务超出二者之一单独运行的能力)。 ● 受人类大脑启发的理念在任何重要的地方都能带来新的思路。 此外,本书的范围已被扩充,并提供动态规划和序列状态估计的详细处理方法,这两种方法分别反映了强化学习和监督学习领域的重要研究成果。 本书的组织方式 本书首先在导言中介绍编写目的,然后介绍如下六部分内容。 1.本书的第一部分包括第1章至第4章,主要介绍监督学习的经典方法,具体内容如下: ● 第1章介绍Rosenblatt感知器,重点介绍感知器的收敛定理,还介绍在高斯环境下运行时感知器和贝叶斯分类器之间的关系。 ● 第2章介绍作为建模基础的最小二乘法,建立特定高斯环境下最小二乘法与贝叶斯推理之间的关系,讨论基于模型选择的最小描述长度(MDL)准则。 ● 第3章介绍最小均方(LMS)的算法及其收敛性分析。收敛性分析理论框架利用了非平衡态热力学中的两个著名原则:Kushner直接法和朗之万(Langevin)方程。 以上三章的内容虽然概念上有所不同,但是有一个共同的特点,即它们都是基于单个计算单元的。它们更重要的作用是以各自的方式将大量洞察领悟纳入学习过程,这一特征将在后续章节中加以应用。 第4章介绍多层感知器,它是Rosenblatt感知器的广义版本,具体包括如下主题: ● 反向传播算法、反向传播算法的优缺点及反向传播算法作为计算偏导数的一种最优化方法。 ● 学习率的最优退火和自适应控制。 ● 交叉验证。 ● 卷积网络,灵感来自Hubel和Wiesel在视觉系统方面的开创性工作。 ● 被视为一个最优化问题的有监督学习,重点介绍共轭梯度法、拟牛顿法和Marquardt-Levenberg算法。 ● 非线性滤波。 ● 小规模学习问题和大规模学习问题的对比讨论。 2.本书的第二部分包括第5章和第6章,主要讨论基于径向基函数(RBF)网络的核方法。 第5章深入介绍核方法,具体包括如下内容。 ● 介绍Cover定理,它是RBF网络总体架构的理论证明。 ● 描述一种相对简单的二阶段混合监督学习过程,第一阶段基于聚类理念(即 均值算法)计算隐藏层,第二阶段使用LMS或最小二乘法计算该网络的线性输出层。 ● 介绍核回归,并考察其与RBF网络的关系。 第6章介绍支持向量机(SVM),这是一种公认的监督学习方法。SVM本质上是一个二元分类器。基于此,本章介绍的主题如下: ● 界定一对线性可分的两个类别之间的最大间隔的条件。 ● 当两个类别线性可分或不可分时,寻找最优超平面的二次优化。 ● 将SVM视为一个核机器,包括对核技巧和Mercer定理的讨论。 ● SVM的设计原理。 ● -不敏感损失函数及其在回归问题优化中的作用。 ● 表示定理,希尔伯特空间和再生核希尔伯特空间(RKHS)在其公式中的作用。 由以上描述可知,支持向量机的基本理论建立在强大的数学背景上,因此它们的计算能力是监督学习巧妙且强大的工具之一。 3.本书的第三部分只包含第7章,这一章基础广泛,专门讨论正则化理论,是机器学习的核心。详细介绍的主题如下: ● 基于RKHS的Tikhonov经典正则化理论。该理论体现了若干深奥的数学概念:Tikhonov泛函的Fréchet微分、Riesz表示定理、Euler-Lagrange方程、Green函数和多变量高斯函数。 ● 广义RBF网络及其可计算的易处理性的修正。 ● 根据表示定理再讨论的正则化最小二乘估计。 ● 利用Wahba的广义交叉验证概念,进行正则化参数估计。 ● 利用有标签样本和无标签样本,进行半监督学习。 ● 可微流形及其在流形正则化中的作用,这种作用是设计半监督学习机的基础。 ● 在半监督学习的一个RBF网络中寻找一个高斯核的光谱图理论。 ● 处理半监督核机器的广义表示定理。 ● 适合计算RBF网络的线性输出层的拉普拉斯正则化最小二乘(LapRLS)算法;注意,当内在正则化参数(对应无标签数据)衰减为零时,该算法相应地衰减为普通的最小二乘法。 高度理论化的本章具有非常重要的实际意义。首先,它为有监督学习机的正则化提供了理论基础;其次,它为设计正则化的半监督学习机奠定了基础工作。 4.本书的第四部分包括第8章至第11章,主要讨论无监督学习。从第8章开始,介绍由神经生物学研究激发的4个自组织原则: ① 自增强学习的Hebb假设。 ② 单个神经元或一组神经元的突触连接竞争有限的资源。 ③ 获胜神经元及其相邻神经元之间的合作。 ④ 输入数据中包含的结构信息(如冗余)。 本章的主要主题如下: ● 将原则①、②和④应用于单个神经元,并在这个过程中推导适用于最大特征滤波的Oja规则;这是由自组织获得的显著结果,既针对自下而上的学习,又针对自上而下的学习。此外,为了实现降维,将最大特征滤波的理念推广到对输入数据进行主成分分析(PCA),得到的算法被称为广义Hebb算法(GHA)。 ● PCA本质上是一种线性方法,因此其计算能力仅限于二阶统计量。为了处理高阶统计量,以类似于第6章中针对支持向量机的方式,将核方法应用于PCA,但与SVM不同的是,核PCA是以一种无监督的方式执行的。 ● 遗憾的是,在处理自然图像时,核PCA在计算方面会变得难以控制。为了克服这种计算限制,将GHA和核PCA组合成一个在线无监督学习的新算法,即核Hebb算法(KHA),该算法在图像去噪方面得到了应用。 KHA的开发是一个杰出的案例,表明当将源于机器学习的理念与源于神经网络的互补理念相结合时,结合成功后产生的一种新算法克服了它们各自的实用局限性。 第9章专门论述自组织映射(SOM),其开发遵循第8章中阐述的自组织原则。虽然在计算方面SOM是一种简单的算法,但是其内置能力非常强大,可以构建有组织的拓扑映射,且这些映射具有如下有用的性质: ● 对输入空间进行空间离散逼近,负责数据生成。 ● 拓扑排序,即在某种意义上,拓扑图中一个神经元的空间位置对应输入空间中的一个特定特征。 ● 输入-输出密度匹配。 ● 输入数据特征选择。 SOM已在实际工作中得到广泛使用。上下文映射的构建和分层次的矢量量化是SOM强大计算能力的两个有说服力的范例。真正令人惊讶的是,尽管SOM展示了若干令人感兴趣的特点,并且能够求解难度很大的计算任务,但是它依然缺少一个可被优化的目标函数。为了填补这一空白,从而提供改进的拓扑映射的可能性,自组织映射采用了核方法。这是通过引入一个熵函数来将其最大化为该目标函数而实现的。在此,我们再次看到了将根植于神经网络的理念与补充的核理论理念相结合所带来的实用价值。 第10章探讨将根植于香农信息论的若干原则作为适用于无监督学习的工具。这一章首先回顾香农信息论,重点介绍熵、互信息、相对熵(KLD)等概念。这一综述还将重点关注数十年来一直被忽略的Copula函数的概念。最重要的是,Copula函数提供了一对相关的随机变量之间具有统计意义的一种度量。无论如何,通过聚焦于将互信息作为目标函数,本章建立了如下原则: ● Informax原则(最大互信息原则),将一个神经系统的输入数据和输出数据之间的互信息最大化,它与冗余减少密切相关。 ● Imax原则,将由相互关联的输入驱动的一对神经系统的单个输出之间的互信息最大化。 ● Imin原则,其运行方式类似于Imax原则,但是要将其一对输出随机变量的互信息最小化。 ● 独立成分分析(ICA)原则,这是一个强而有力的工具,用于对一个隐藏的、从统计学上讲独立的源信号集进行盲源分离。满足一定的运行条件时,ICA原则就成为从一组可观察集合(对应源信号的线性混合变体)中恢复原始源信号的推导过程的基础。两个特别的ICA算法概述如下: ① 自然梯度学习算法,它通过一个参数化概率密度函数与其对应的阶乘分布之间的KLD最小化来求解ICA问题,但是不包括缩放和排列问题。 ② 最大熵学习算法,它将分层器输出的一个非线性变换版本的熵最大化,常被称为ICA的Informax算法,还具有缩放与排列的特点。 第10章中还将阐述被称为快速ICA的另一种重要ICA算法,顾名思义,该算法的计算速度很快。该算法基于负熵的概念将一个对比函数最大化,以提供对一个随机变量的非高斯分布的度量。作为ICA的延续,本章还介绍称为相干ICA的一种新算法,该算法是基于Copula函数,通过融合Infomax原则和Imax原则开发出来的;相干ICA能有效提取调幅信号的混合物的包络线。最后,第10章中引入了源于香农信息论的另一个概念——率失真理论,用于开发本章中的最后一个概念——信息瓶颈。已知一个输入向量和一个(与其相关的)输出向量的联合分布时,这种方法就可表述为一个有约束的最优化问题,但是需要在这两种信息量之间进行折中:一种信息量与瓶颈向量中包含的输入信息有关,另一种信息量与瓶颈向量中包含的输出信息有关。然后,本章使用信息瓶颈法持续寻找数据表达的最优流形。 第11章中描述无监督学习的最后一种方法,这种方法使用了源于统计力学的随机方法。统计力学的研究与信息论密切相关。本章首先回顾Helmholtz自由能和熵(统计力学意义)的基本概念,然后介绍马尔可夫链。接着,设置一个适合生成马尔可夫链的Metropolis算法,该算法的转移概率收敛于一个唯一且稳定的分布。随机方法的讨论首先描述全局最优化的模拟退火,然后使用其作为Metropolis算法的一种特殊形式完成吉布斯采样。有了手头这些关于统计力学的背景知识,描述玻尔兹曼机的工作就已准备就绪。从历史背景上讲,玻尔兹曼机是已有文献中讨论的第一台多层学习机器。遗憾的是,玻尔兹曼机的学习过程很慢,尤其是当隐藏神经元的数量很大时——因而对其实际应用开展较难。许多文献中提出了各种方法来克服玻尔兹曼机的这些局限性。迄今为止,最成功的创新方法是深度置信网络,这种方法以巧妙的方式将以下两种功能结合到了一台强大的机器中,从而使得其与众不同: ● 生成建模,即在无监督的条件下自下而上地逐层学习产生结果。 ● 推论,即自上而下地学习产生结果。 第11章的最后描述确定性退火,以克服模拟退火的过度计算要求。确定性退火的唯一问题是它可能陷入局部极小值。 5.到目前为止,本书关注的焦点都放在有监督学习、半监督学习和无监督学习的算法构建上。第12章作为本书的第五部分,单独讨论强化学习,即以在线方式进行学习,这是代理(如机器人)与其周围环境相互作用的结果。然而,在现实中,动态规划是强化学习的核心。因此,第12章的前半部分专门介绍贝尔曼动态规划方法,接着介绍两种使用广泛的强化学习方法:时序差分(TD)学习和Q学习,这两种方法可以作为动态规划的特例推导得到。TD学习和Q学习都是相对简单的在线强化学习算法,都不需要转移概率知识。然而,它们的实际应用仅限于中等规模的状态空间维数。在大规模的动态系统中,维数灾难将成为一个非常严重的问题,不仅会使得动态规划在计算上难以处理,而且会使得其近似形式(TD学习和Q学习)在计算上非常棘手。为了克服这个严重的缺陷,本章介绍两种近似动态规划的间接方法: ● 一种线性方法,称为最小二乘策略评估(LSPV)算法。 ● 一种非线性方法,即使用一个神经网络(如多层感知器)作为一个通用逼近器。 6.本书的最六部分由第13章、第14章和第15章组成,专门研究非线性反馈系统,重点介绍递归神经网络。 ① 第13章介绍神经动力学,重点介绍稳定性问题。本章介绍李亚普诺夫直接法,这种方法体现为两个定理:一个定理处理系统稳定性,另一个定理处理渐近稳定性。这种方法的核心是一个李亚普诺夫函数,一个能量函数通常就能满足其要求。有了这些背景的理论知识,就可引出两种联想记忆模型: ● Hopfield模型,该模型的运行表明一个复杂的系统能够产生简单的新生行为。 ● 盒中脑状态模型,它是聚类的基础。 本章还讨论混沌过程的性质,以及适用于混沌过程动态重建的一个正则化过程。 ② 第14章介绍贝叶斯滤波器,至少从概念上讲,贝叶斯滤波器是序列状态估计算法的一体化基础。本章的内容总结如下: ● 适用于线性高斯环境下的经典卡尔曼滤波器,可用最小均方误差准则推导得出;章末的一个习题中证明了由此推导出来的卡尔曼滤波器是贝叶斯滤波器的一个特例。 ● 平方根滤波,用来克服卡尔曼滤波器在实际实用中可能出现的发散现象。 ● 扩展卡尔曼滤波器(EKF),用来处理非线性程度较轻的动态系统;维持高斯假设依然有效。 ● 贝叶斯滤波器的直接逼近形式,这是一种新的滤波器,称为容积卡尔曼滤波器(CKF);这里同样维持高斯假设依然有效。 ● 贝叶斯滤波器的间接逼近形式,这种粒子滤波器的实现既能兼顾非线性,又能兼顾非高斯性。 鉴于卡尔曼滤波本质上始于一种预测-校正机制,第14章中将进一步介绍“类卡尔曼滤波”在人脑一定区域中的可能作用。 第15章介绍动态驱动的递归神经网络。本章的开始部分介绍递归网络的不同结构(模型)及其计算能力,然后介绍训练递归网络的两种算法: ● 基于时间的反向传播算法。 ● 实时递归学习。 遗憾的是,这两种算法程序都是基于梯度的,因此易受所谓梯度消失问题的影响。为了克服该问题,本章详细介绍非线性序列状态估计器在递归网络中进行有监督训练的创新方法。在此背景下,讨论扩展卡尔曼滤波器(简单,但是依赖导数)、容积卡尔曼滤波器(无导数,但是数学上更复杂)作为有监督学习的序列状态估计器时的优缺点。此外,本章还讨论递归网络特有的自适应行为的出现,并且讨论使用自适应技术进一步增强递归网络能力的潜在优点。 本书不同部分突出的一个重要主题是,将有监督学习和半监督学习应用到大规模的问题中。本书的结束语断言,这个主题还处于发展的早期阶段;更重要的是,还为其未来的发展阐述了一个四阶段的过程。 本书的突出特点 本书不仅深入论述了上述的各个主题,而且具有如下特点。 1.第1章~第7章和第10章中包括计算机实验,实验内容针对适用于生成数据以进行二分类为目的的双月结构。实验范围从线性可分模式的简单算例到不可分模式的难解算例。作为运行算例的双月结构,一直用于第1章~第7章和第10章,为研究和比较这八章中介绍的各种学习算法提供了一种实验工具。 2.针对第8章的PCA、第9章的SOM和核SOM,第14章的使用EKF和CKF算法来动态重建Mackay-Glass吸引子,也提供了计算机实验。 3.给出了使用真实数据的若干案例分析: ● 第7章讨论了如何使用LapRLS算法对美国邮政服务(USPS)数据进行半监督学习。 ● 第8章讨论了如何将PCA应用于手写数字数据,并且介绍了图像的编码和去噪。 ● 第10章使用稀疏感觉编码和ICA分析了自然图像。 ● 第13章介绍了如何将一个正则化RBF网络应用于Lorenz吸引子的动态重构。 ● 第15章包含了一节关于模型参考自适应控制系统的案例分析。 4.每章的结尾都提供了进一步学习的注释、参考文献和习题。本书的术语表已被扩充,包含了处理矩阵分析和概率论问题所用方法的解释性说明。 5.授课教师可以获得书中所有图表的PowerPoint文件 。 Simon Haykin 于加拿大安大略省安卡斯特
第0章 导言 1 0.1 什么是神经网络 1 0.2 人脑 6 0.3 神经元模型 10 0.4 视为有向图的神经网络 15 0.5 反馈 18 0.6 网络架构 21 0.7 知识表征 24 0.8 学习过程 34 0.9 学习任务 38 0.10小结 45 注释和参考文献 46 第1章 Rosenblatt感知器 47 1.1 引言 47 1.2 感知器 48 1.3 感知器收敛定理 50 1.4 高斯环境下感知器与贝叶斯分类器的关系 55 1.5 计算机实验:模式分类 60 1.6 批量感知器算法 62 1.7 小结和讨论 65 注释和参考文献 66 习题 66 第2章 回归建模 68 2.1 引言 68 2.2 线性回归模型:初步考虑 69 2.3 参数向量的后验估计 71 2.4 正则化最小二乘估计和MAP估计的关系 76 2.5 计算机实验:模式分类 77 2.6 最小描述长度原则 79 2.7 有限样本量考虑 82 2.8 辅助变量法 86 2.9 小结和讨论 88 注释和参考文献 89 习题 89 第3章 最小均方算法 91 3.1 引言 91 3.2 LMS算法的滤波结构 92 3.3 无约束优化:综述 94 3.4 维纳滤波器 100 3.5 最小均方算法 102 3.6 描述LMS算法和维纳滤波器的偏差的马尔可夫模型 104 3.7 朗之万方程:布朗运动的特点 106 3.8 库什纳直接平均法 107 3.9 小学习率参数的统计LMS学习理论 108 3.10 计算机实验I:线性预测 110 3.11 计算机实验II:模式分类 112 3.12 LMS算法的优缺点 113 3.13 学习率退火过程 115 3.14 小结和讨论 117 注释和参考文献 118 习题 119 第4章 多层感知器 122 4.1 引言 123 4.2 预备知识 124 4.3 批量学习和在线学习 126 4.4 反向传播算法 129 4.5 异或问题 141 4.6 提升反向传播算法性能的启发式方法 144 4.7 计算机实验:模式分类 150 4.8 反向传播与微分 153 4.9 海森矩阵及其对在线学习的作用 155 4.10 学习率的最优退火和自适应控制 157 4.11 泛化 164 4.12 函数逼近 166 4.13 交叉验证 171 4.14 复杂度正则化和网络剪枝 175 4.15 反向传播学习的优缺点 180 4.16 视为优化问题的监督学习 186 4.17 卷积网络 201 4.18 非线性滤波 203 4.19 大小规模学习问题 209 4.20 小结和讨论 217 注释和参考文献 219 习题 221 第5章 核方法和径向基函数网络 230 5.1 引言 230 5.2 模式可分性的Cover定理 231 5.3 插值问题 236 5.4 径向基函数网络 239 5.5 均值聚类 242 5.6 权重向量的递归最小二乘估计 245 5.7 RBF网络的混合学习过程 249 5.8 计算机实验:模式分类 250 5.9 高斯隐藏单元的说明 252 5.10 核回归及其与RBF网络的关系 255 5.11 小结和讨论 259 注释和参考文献 261 习题 263 第6章 支持向量机 268 6.1 引言 268 6.2 线性可分模式的最优超平面 269 6.3 不可分模式的最优超平面 276 6.4 视为核机器的支持向量机 281 6.5 构建支持向量机 284 6.6 异或问题 286 6.7 计算机实验:模式分类 289 6.8 回归:鲁棒性考虑 289 6.9 线性回归问题的最优解 293 6.10 表示定理和相关问题 296 6.11 小结和讨论 302 注释和参考文献 304 习题 307 第7章 正则化理论 313 7.1 引言 313 7.2 哈达玛适定性条件 314 7.3 Tikhonov的正则化理论 315 7.4 正则化网络 326 7.5 广义径向基函数网络 327 7.6 再论正则化最小二乘估计 331 7.7 关于正则化的其他说明 335 7.8 正则化参数估计 336 7.9 半监督学习 342 7.10 流形正则化:初步考虑 343 7.11 可微流形 345 7.12 广义正则化理论 348 7.13 图谱论 350 7.14 广义表示定理 352 7.15 拉普拉斯正则化最小二乘算法 354 7.16 半监督学习的模式分类实验 356 7.17 小结和讨论 359 注释和参考文献 361 习题 363 第8章 主成分分析 367 8.1 引言 367 8.2 自组织原则 368 8.3 自组织特征分析 372 8.4 主成分分析:微扰理论 373 8.5 基于Hebb的最大特征滤波器 383 8.6 基于Hebb的主成分分析 392 8.7 案例分析:图像编码 398 8.8 核主成分分析 401 8.9 自然图像编码的基本问题 406 8.10 核Hebb算法 407 8.11 小结和讨论 412 注释和参考文献 415 习题 418 第9章 自组织映射 425 9.1 引言 425 9.2 两个基本特征映射模型 426 9.3 自组织映射 428 9.4 特征映射的性质 437 9.5 计算机实验I:利用SOM求解点阵动力学 445 9.6 上下文映射 447 9.7 分层向量量化 450 9.8 核自组织映射 454 9.9 计算机实验II:使用核SOM求解点阵动力学 462 9.10 核SOM与KL散度的关系 464 9.11 小结和讨论 466 注释和参考文献 468 习题 470 第10章 信息论学习模型 475 10.1 引言 476 10.2 熵 477 10.3 最大熵原则 481 10.4 互信息 484 10.5 KL散度 486 10.6 Copula函数 489 10.7 作为待优化目标函数的互信息 493 10.8 最大互信息原理 494 10.9 最大互信息与冗余减少 499 10.10 空间相干特征 501 10.11 空间非相干特征 504 10.12 独立成分分析 508 10.13 自然图像的稀疏编码与ICA编码比较 514 10.14 独立成分分析的自然梯度学习 516 10.15 独立成分分析的最大似然估计 526 10.16 盲源分离的最大熵学习 529 10.17 独立成分分析的负熵的最大化 534 10.18 相干独立成分分析 541 10.19 率失真理论与信息瓶颈 549 10.20 数据的最优流形表示 553 10.21 计算机实验:模式分类 560 10.22 小结和讨论 561 注释和参考文献 564 习题 572 第11章 源于统计力学的随机方法 579 11.1 引言 580 11.2 统计力学 580 11.3 马尔可夫链 582 11.4 Metropolis算法 591 11.5 模拟退火 594 11.6 吉布斯采样 596 11.7 玻尔兹曼机 598 11.8 逻辑置信网络 604 11.9 深度置信网络 606 11.10 确定性退火 610 11.11 确定性退火与期望最大化算法的类比 616 11.12 小结和讨论 617 注释和参考文献 619 习题 621 第12章 动态规划 627 12.1 引言 627 12.2 马尔可夫决策过程 629 12.3 贝尔曼最优性准则 631 12.4 策略迭代 635 12.5 值迭代 637 12.6 近似动态规划:直接法 642 12.7 时序差分学习 643 12.8 Q学习 648 12.9 近似动态规划:间接法 652 12.10 最小二乘策略评估 655 12.11 近似策略迭代 660 12.12 小结和讨论 663 注释和参考文献 665 习题 668 第13章 神经动力学 672 13.1 引言 672 13.2 动力系统 674 13.3 平衡状态的稳定性 678 13.4 吸引子 684 13.5 神经动力学模型 686 13.6 作为一个递归网络范式的吸引子操作 689 13.7 Hopfield模型 690 13.8 Cohen-Grossberg定理 703 13.9 盒中脑状态模型 705 13.10 奇异吸引子与混沌 711 13.11 混沌过程的动态重建 716 13.12 小结和讨论 722 注释和参考文献 724 习题 727 第14章 动态系统状态估计的贝叶斯滤波 731 14.1 引言 731 14.2 状态空间模型 732 14.3 卡尔曼滤波器 736 14.4 发散现象与平方根滤波 744 14.5 扩展卡尔曼滤波器 750 14.6 贝叶斯滤波器 755 14.7 容积卡尔曼滤波器:基于卡尔曼滤波器 759 14.8 粒子滤波器 765 14.9 计算机实验:扩展卡尔曼滤波器与粒子滤波器的比较 775 14.10 脑功能建模中的卡尔曼滤波 777 14.11 小结和讨论 780 注释和参考文献 782 习题 784 第15章 动态驱动递归网络 790 15.1 引言 790 15.2 递归网络架构 791 15.3 万能逼近定理 797 15.4 可控性和可观察性 799 15.5 递归网络的计算能力 804 15.6 学习算法 806 15.7 时间反向传播 808 15.8 实时递归学习 812 15.9 递归网络中的梯度消失 818 15.10 使用非线性序列状态估计的递归网络的监督训练框架 822 15.11 计算机实验:Mackay-Glass吸引子的动态重建 829 15.12 适应性考虑 831 15.13 案例分析:应用于神经网络控制的模型参考 833 15.14 小结和讨论 835 注释和参考文献 839 习题 842 参考文献 847