
这本书系统阐述了深度学习方法论在道路短期交通状态时空序列预测领域的最新研究成果。需要着重说明以下几点:(1)领域限定在了道路交通,因为交通是个大系统,存在着航空、水运、道路等多种运输方式,而本书所阐述的研究均是针对道路交通领域的数据以及面向道路交通领域的应用;(2)本书所讨论的研究问题是道路短期交通状态时空序列预测问题,该问题是时空数据挖掘领域中时空预测问题的一个重要子集,在本书的第1章中将会对这个问题进行数学上的形式化定义;(3)本书针对道路短期交通状态时空序列预测问题的讨论,完全是基于深度学习的方法论,所参考的文献绝大部分发表于2017年以后,并不涵盖前人对该研究问题所采用的全部方法论(如ARIMA,卡尔曼滤波、SVR等)。
前 言 一、写作动机 自从 2006 年深度学习三巨头之一的 Geoffrey Hinton 及其学生提出了采 用“逐层初始化”(Layer-wise Pre-training)训练深度神经网络模型之后,新 一波以深度神经网络为基础核心理论的人工智能席卷全球,以无比耀眼的姿 态登上了全世界学术与工业实践的前沿舞台。自此,短短十几年的时间内, 由深度学习推动的机器视觉、自然语言处理、语音识别等人工智能领域获得 突飞猛进的发展,不断刷新识别、预测、生成等性能的历史记录。同时,深 度学习所助推的自动驾驶、智慧城市、智慧家居、智慧物联、城市计算等新 概念、新实践层出不穷,一时间“乱花渐欲迷人眼”。拥有千亿级参数规模的 自然语言处理模型 GPT-3 涉足艺术领域,作出的诗歌能够以假乱真,让人不 禁怀疑人类还有什么不能被 AI 所取代;AlphaGO 通过“左右手互搏式”训 练,实力碾压围棋九段世界高手李世石,令很多英雄黯然失色、俯首称臣; AlphaFold 成功破解蛋白质结构预测 50 年未解之难题,再次问鼎自然科学之 巅;等等。这些不断颠覆着人们的固有认知,让我们真正目睹了人工智能时 代的来临,以及以其为代表的第四次工业革命的汹涌浪潮。 就在以深度学习为理论核心的人工智能汹涌袭来之际,道路交通领域的 先驱研究学者们,也适时地将这门方法论引入了自己的研究领域,先后在传 统道路交通所涉及的诸多领域开展了相应的研究,例如,基于深度学习的微 观交通流建模、基于深度学习的交通控制、基于深度学习的交通预测等,试 图将传统的道路交通问题研究与最新的深度学习理论进行深度融合,充分释 放当前交通大数据的内在价值,从而系统提升道路交通规划、管理、控制、 诱导等多个层面的理论研究与工业实践水平。 在这样的时代大背景下,本书的写作动机可以总结为以下 3 个方面: (1)短期交通状态时空序列预测是很多道路交通实践问题的核心理论,扮演着理论基石的作用。长期交通预测(如经典的四阶段法)可以服务于交 通系统规划,而短期交通预测则是交通管理、控制、诱导等智能交通系统应 用的基础与前提。本书所阐述的道路交通时空序列预测问题本质上属于短期 交通预测。鉴于短期交通预测在道路交通领域的核心和基础地位,长期以来 其一直是学术界研究中的重要问题。 (2)深度学习方法论的引入,为道路短期交通状态预测的研究带来了“质” 的飞跃。纵观道路交通预测领域研究的发展历史,每次新的预测方法论产生 之后,都会催生该领域大量的研究实践和创新成果。总体而言,时间序列类 模型、卡尔曼滤波类模型、传统机器学习类模型及当前的深度学习类模型先 后被引入该领域的研究之中,而依据当前基于深度学习的道路交通预测研究 文献的公开结果来看,其预测性能相对于前几代预测方法有了极大的提升, 这标志着道路交通预测的性能正发生着“质”的飞跃。 (3)探讨深度学习方法论与道路短期交通状态预测的研究问题的结合, 不仅有助于提高道路短期交通状态预测的研究与实践水平,同时对于在道路 交通领域传播深度学习这个具有时代标志性的方法论也具有十分重要的价 值。深度学习属于机器学习领域,是典型的计算机科学分支,这对于道路交 通专业的学生使用其进行本领域的研究造成了不少障碍,当前该领域的学者 很多出身于计算机、电子信息等相关学科,也正是由于这个原因。但正如前 文所说,深度学习是属于这个时代的方法论,不应该局限于某些计算机相关 专业,道路交通专业的学生同样有必要掌握该门方法论,在理解它的基本原 理的基础上,有效地运用它解决本领域的实践问题。本书的一个重要考量便 是在介绍采用深度学习解决道路交通预测问题的同时,补充介绍一些深度学 习的重要知识点,力求让非计算机类专业的学生也能够理解它的基本原理, 并能够有效地使用它。 尽管最早基于深度学习的道路短期交通状态时空序列预测研究出现在2015 年前后,但目前该领域的研究炙手可热,在领域内的顶级刊物发表了大 量的研究文献。针对道路短期交通状态时空序列预测中复杂时空相关性的建 模这一核心挑战,研究者分别借用了卷积神经网络(及其变形)、循环神经网络(及其变形)、注意力机制、Transformer 等一系列深度学习前沿理论和方法,针对特定预测问题,提出了各自的建模思路,产生了一批新颖的创新研 究成果。本书试图从这些前沿研究中选取出一些有代表性的成果,基于对它 们的细致解读,从中提炼出基本的研究思路和建模技巧,试图阐明当前基于 深度学习进行道路短期交通状态时空序列预测的优势和不足,从而对未来该 领域的研究提供有价值的参考。 总结起来,从一个研究者的视角,梳理前沿,提炼规律,发现问题,看 清趋势,传播知识,就是本书写作的全部初衷。 二、本书内容 本书系统地阐述了深度学习方法论在道路短期交通状态时空序列预测 领域的最新研究成果。需要着重说明以下几点:(1)领域限定在了道路交通, 因为交通是个大系统,存在航空、水运、道路等多种运输方式,而本书所阐 述的研究均是针对道路交通领域的数据,以及面向道路交通领域的应用;(2)本书所讨论的研究问题是道路短期交通状态时空序列预测问题,该问题 是时空数据挖掘领域中时空预测问题的一个重要子集,在本书的第 1 章中将 会对这个问题进行数学上的形式化定义;(3)本书针对道路短期交通状态时 空序列预测问题的讨论,完全是基于深度学习的方法论,所参考的文献大部 分发表于 2017 年以后,并不涵盖前人对该研究问题所采用的全部方法论(如 ARIMA、卡尔曼滤波、SVR 等)。 本书的内容组织安排总体上分为 4 个部分:(1)第 1 章从短期交通状态 时空序列预测问题的一般数学形式化表达出发,揭示了该问题的本质及关键 的核心挑战,并按照预测方式的不同对其进行了不同维度的分类,最后对该 领域的相关研究进行了简要的文献综述;(2)第 2 篇(第 2 章~第 4 章)着 重探讨基于深度学习的网格化道路交通状态时空序列预测问题,通过将研究 区域网格化处理,进而将交通状态观测数据类比为图像(Image),从而采用 深度学习领域的图像卷积操作对其空间相关性进行捕获,进一步结合时间维 度的卷积操作或者循环神经网络操作,对交通状态数据的时空相关性进行捕 获,从而达到对未来短期交通状态的预测;(3)第 2 篇(第 5 章~第 8 章)探讨了基于深度学习的拓扑化道路交通状态时空序列预测问题。相对于将研究区域进行网格的划分,拓扑化更加自然地反映了研究区域内道路交通状态 传播的底层物理规律,通过拓扑图卷积神经网络、注意力机制等实现道路交 通状态的空间相关性捕获,进一步通过时间维度的卷积网络、注意力机制、 循环网络提取交通状态的时空相关性,从而对未来拓扑网络的交通状态进行 预测;(4)第 3 篇为第 1、2 篇中所用到的深度学习相关理论的概要性介绍, 主要是为了方便读者快速且深入地了解相关的深度学习理论,降低读者将深 度学习用于短期交通状态预测的门槛。尽管是“概要性”,但这些理论的介绍 融入了很多作者的个人理解,力图深入浅出,直达问题本质,让读者快速掌 握深度学习相关方法论。 三、本书特色 概括起来,这本书具有以下 4 个方面的特色。 (1)写作风格上严谨与通俗并重。一般的学术研究著作与研究论文措辞 非常严谨,学术性较强,难免有“八股文”之风,所以学术著作常常给人以 晦涩、枯燥、难以理解的直觉印象,这也体现了科学研究追求客观真理、不 添加个人情感、无偏见的本质要求。但是这种客观、严肃的表达带给人的可 读性、亲和力就略显不足。本书本质上属于学术专著,是在探讨严肃的科学 研究,免不了大量的数学公式、复杂的逻辑推理,但同时本书还有一部分传 播深度学习方法论的初衷,因此,在有些介绍方法论的部分,尽量采用了通 俗的表达方式,以期让读者更容易接受和了解深度学习方法论复杂数学公式 背后的动机和原理。 (2)写作思路上细节与宏观并重。本书从当前最新的研究中,选取一些 具有代表性的研究文献,深入剖析其针对道路短期交通状态时空序列预测建 模的整体构思、框架和公式细节,但在适当的时候,本书会对不同研究的建 模思路、框架、模型处理技巧之间做出对比分析,让读者跳出数学模型的细 节,在宏观上总揽全局,明确不同研究思路各自的思考角度、优缺点等。 (3)写作内容上问题与方法并重。本书本质上是学术专著与方法论教材 的综合体,一方面,按照学术专著的写作思路,以道路短期交通状态时空序列预测问题为中心,介绍基于深度学习的不同研究思路;另一方面,按照教材的写作思路,以深度学习方法论为中心,为读者补充研究中所使用的方法 论的基础背景知识。 (4)写作选材上前沿与多源并重。本书的写作选材全部来自行业内的顶 刊(如 IEEE Intelligent Transport Systems、Transportation Research Part C: Emerging Technologies、IET Intelligent Transport Systems 等)自 2017 年后发 表的最新研究文献,确保在选材上具有前沿性。同时,鉴于当前时代研究成 果发表渠道的多元化,本书还参考了大量来自 Arxiv 的最新研究文献。此 外,本书还参考了包括计算机科学、电子电气科学等领域顶级期刊的最新研 究文献。 四、适用对象 本书适用于具有一定计算机科学(尤其是深度学习相关理论)背景知识 的道路交通领域专业研究人员阅读,也适用于时空数据挖掘领域的研究人员 阅读。
目 录 第 1 章 道路短期交通状态时空序列预测总论.................................................... 001 1.1 时空数据............................................................................................................... 001 1.2 时空数据挖掘....................................................................................................... 002 1.3 道路短期交通状态时空序列预测 ....................................................................... 003 1.3.1 问题描述 .................................................................................................. 003 1.3.2 核心挑战 .................................................................................................. 005 1.3.3 问题分类 .................................................................................................. 007 1.4 道路短期交通状态时空序列预测研究概要性综述 ........................................... 012 1.5 基于深度学习的道路短期交通状态时空序列预测建模一般性框架................ 014 1.6 本章小结............................................................................................................... 015 第 1 篇 基于深度学习的网格化道路交通状态时空序列预测 第 2 章 基于 2D 图像卷积神经网络的时空相关性建模................................... 018 2.1 ST-ResNet ............................................................................................................. 020 2.1.1 问题提出 .................................................................................................. 020 2.1.2 历史交通状态切片数据的获取............................................................... 020 2.1.3 预测模型 .................................................................................................. 022 2.1.4 训练算法 .................................................................................................. 026 2.2 MDL...................................................................................................................... 027 2.2.1 问题提出 .................................................................................................. 027 2.2.2 预测模型 .................................................................................................. 029 2.2.3 训练算法 .................................................................................................. 035 2.3 MF-STN ................................................................................................................ 036 2.3.1 问题提出 .................................................................................................. 037 2.3.2 预测模型 .................................................................................................. 037 2.3.3 训练算法 .................................................................................................. 040 2.4 DeepLGR[23] .......................................................................................................... 042 2.4.1 问题提出 .................................................................................................. 043 2.4.2 预测模型 .................................................................................................. 043 2.4.3 模型小结 .................................................................................................. 048 2.5 ST-NASNet ........................................................................................................... 048 2.5.1 问题提出 .................................................................................................. 051 2.5.2 预测模型 .................................................................................................. 051 2.5.3 训练算法 .................................................................................................. 054 2.6 本章小结............................................................................................................... 055 第 3 章 基于 2D 图像卷积与循环神经网络相结合的时空相关性建模....... 057 3.1 STDN[25]................................................................................................................ 058 3.1.1 问题提出 .................................................................................................. 059 3.1.2 预测模型 .................................................................................................. 059 3.1.3 训练算法 .................................................................................................. 066 3.2 ACFM[26] ............................................................................................................... 067 3.2.1 问题提出 .................................................................................................. 067 3.2.2 预测模型 .................................................................................................. 068 3.2.3 模型拓展 .................................................................................................. 073 3.2.4 训练算法 .................................................................................................. 075 3.3 PredRNN[27] .......................................................................................................... 076 3.4 PredRNN++[28] ...................................................................................................... 081 3.4.1 模型架构 .................................................................................................. 082 3.4.2 Casual-LSTM............................................................................................ 083 3.4.3 GHU.......................................................................................................... 084 3.5 MIM[29].................................................................................................................. 084 3.6 SA-ConvLSTM[30]................................................................................................. 088 3.6.1 模型背景 .................................................................................................. 089 3.6.2 模型构造 .................................................................................................. 090 3.7 本章小结............................................................................................................... 092 第 4 章 基于 3D 图像卷积的时空相关性建模..................................................... 094 4.1 问题提出............................................................................................................... 095 4.2 预测模型............................................................................................................... 095 4.2.1 近期时空相关性捕获模块....................................................................... 096 4.2.2 短期时空相关性捕获模块....................................................................... 098 4.2.3 特征融合模块........................................................................................... 099 4.2.4 预测模块 .................................................................................................. 099 4.2.5 损失函数 .................................................................................................. 099 4.3 训练算法............................................................................................................... 100 4.4 本章小结............................................................................................................... 100 第 2 篇 基于深度学习的拓扑化道路交通状态时空序列预测 第 5 章 基于 1D 图像卷积与卷积图神经网络相结合的时空相关性建模 .. 102 5.1 STGCN[32] ............................................................................................................. 102 5.1.1 问题提出 .................................................................................................. 102 5.1.2 模型建立 .................................................................................................. 103 5.2 TSSRGCN[33] ........................................................................................................ 105 5.2.1 问题提出 .................................................................................................. 106 5.2.2 模型建立 .................................................................................................. 106 5.3 Graph Wave Net[34]................................................................................................ 112 5.3.1 问题提出 .................................................................................................. 112 5.3.2 模型建立 .................................................................................................. 113 5.4 ASTGCN[35] .......................................................................................................... 116 5.4.1 问题提出 .................................................................................................. 116 5.4.2 模型建立 .................................................................................................. 117 5.5 本章小结............................................................................................................... 123 第 6 章 基于循环与卷积图神经网络相结合的时空相关性建模.................... 124 6.1 AGC-Seq2Seq[36]................................................................................................... 124 6.1.1 问题提出 .................................................................................................. 125 6.1.2 模型建立 .................................................................................................. 125 6.2 DCGRU[37] ............................................................................................................ 129 6.2.1 问题提出 .................................................................................................. 130 6.2.2 模型建立 .................................................................................................. 130 6.3 T-MGCN[38] ........................................................................................................... 132 6.3.1 问题提出 .................................................................................................. 132 6.3.2 模型建立 .................................................................................................. 133 6.4 GGRU[39] ............................................................................................................... 138 6.4.1 符号定义 .................................................................................................. 139 6.4.2 GaAN 聚合器 ........................................................................................... 140 6.4.3 GGRU 循环单元 ...................................................................................... 141 6.4.4 基于 Encoder-Decoder 架构和 GGRU 的交通状态时空预测网络 ........ 141 6.5 ST-MetaNet[40]....................................................................................................... 142 6.5.1 问题提出 .................................................................................................. 143 6.5.2 模型建立 .................................................................................................. 143 6.6 本章小结............................................................................................................... 147 第 7 章 基于 Self-Attention 与卷积图神经网络相结合的时空相关性建模.... 149 7.1 GMAN[41] .............................................................................................................. 150 7.1.1 问题提出 .................................................................................................. 150 7.1.2 模型建立 .................................................................................................. 150 7.2 ST-GRAT[42] .......................................................................................................... 157 7.2.1 问题提出 .................................................................................................. 157 7.2.2 模型建立 .................................................................................................. 158 7.3 STTN[43] ................................................................................................................ 163 7.3.1 问题提出 .................................................................................................. 163 7.3.2 模型建立 .................................................................................................. 164 7.4 STGNN[44] ............................................................................................................. 169 7.4.1 问题提出 .................................................................................................. 169 7.4.2 模型建立 .................................................................................................. 169 7.5 本章小结............................................................................................................... 173 第 8 章 基于卷积图神经网络的时空相关性同步建模 ...................................... 174 8.1 MVGCN[45] ........................................................................................................... 175 8.1.1 问题提出 .................................................................................................. 176 8.1.2 模型建立 .................................................................................................. 177 8.2 STSGCN[46] ........................................................................................................... 180 8.2.1 问题提出 .................................................................................................. 180 8.2.2 模型建立 .................................................................................................. 180 8.3 本章小结............................................................................................................... 186 第 3 篇 深度学习相关基本理论 第 9 章 全连接神经网络 ............................................................................................. 190 9.1 理论介绍............................................................................................................... 190 9.2 本章小结............................................................................................................... 192 第 10 章 卷积神经网络 ............................................................................................... 193 10.1 二维卷积神经网络(2D CNN)....................................................................... 193 10.2 一维卷积和三维卷积神经网络(1D 和 3D CNN) ........................................ 198 10.3 挤压和激励卷积网络(Squeeze and Excitation Networks)............................ 199 10.4 残差连接网络(ResNet) ................................................................................. 201 10.5 因果卷积(Casual CNN)................................................................................. 202 10.6 膨胀卷积(Dilated Convolution) .................................................................... 203 10.7 可变形卷积(Deformable Convolution) ......................................................... 204 10.8 可分离卷积(Separable Convolution) ............................................................ 206 10.9 亚像素卷积(SubPixel Convolution).............................................................. 207 10.10 本章小结........................................................................................................... 208 第 11 章 循环神经网络................................................................................................ 210 11.1 标准循环神经网络(RNN)............................................................................. 211 11.2 双向循环神经网络(Bi-RNN)........................................................................ 211 11.3 深度循环神经网络(Deep RNN) ................................................................... 212 11.4 长短期记忆神经网络(LSTM)[60] .................................................................. 213 11.5 门控循环单元(GRU)..................................................................................... 215 11.6 ConvLSTM ......................................................................................................... 216 11.7 本章小结............................................................................................................. 217 第 12 章 卷积图神经网络........................................................................................... 218 12.1 谱域图卷积[66] .................................................................................................... 220 12.1.1 拓扑图数据上的卷积操作推导............................................................. 220 12.1.2 切比雪夫多项式卷积............................................................................. 225 12.1.3 图卷积网络(Graph Convolutional Networks,GCN)....................... 226 12.1.4 扩散卷积(Diffusion Convolution)..................................................... 226 12.2 空间域图卷积..................................................................................................... 228 12.2.1 顶点域图卷积特征聚合器的一般性定义 ............................................. 228 12.2.2 GraphSAGE[71]........................................................................................ 229 12.2.3 GAT......................................................................................................... 232 12.3 本章小结............................................................................................................. 235 第 13 章 注意力机制(Attention)......................................................................... 236 13.1 Encoder-Decoder 模型[75-77] ................................................................................ 236 13.2 基于注意力机制的 Encoder-Decoder 模型[78-80] ............................................... 238 13.3 广义注意力机制[81-83] ......................................................................................... 240 13.4 多头注意力机制(Multi-Head Attention)[84-87] ............................................... 241 13.5 自注意力机制(Self-Attention)[88-91] .............................................................. 242 13.6 Encoder-Decoder 架构的变体及训练方法 ........................................................ 245 13.7 本章小结............................................................................................................. 249 第 14 章 Transformer[74,94-97] .................................................................................... 250 14.1 模型介绍............................................................................................................. 251 14.2 本章小结............................................................................................................. 254 第 15 章 深度神经网络训练技巧............................................................................. 255 15.1 Batch Normalization(BN) .............................................................................. 255 15.2 Layer Normalization(LN)[99] .......................................................................... 262 15.3 本章小结............................................................................................................. 263 第 16 章 矩阵分解(Matrix Factorization)[100] ................................................ 264 16.1 理论介绍............................................................................................................. 264 16.2 本章小结............................................................................................................. 267 后记 ....................................................................................................................................... 268 参考文献.............................................................................................................................. 270