
《统计分析与数据挖掘技术》介绍了统计学的常用基本概念及数据收集与处理技术,从传统统计学的角度讲述了数据描述性分析、数据分析理论及方法,详细介绍了多元统计分析的基本统计思想和相关理论,为数据挖掘算法的研究提供了必要的理论支持,为读者查阅基本概念和基本理论提供方便。《统计分析与数据挖掘技术》还考查了数据挖掘的任务、数据流模型与分类及数据流概要描述方法,介绍了数据挖掘的基本理论和常用算法,如分类、聚类及关联规则等数据挖掘算法,为初学者提供了必要的科普知识。
《统计分析与数据挖掘技术》分4篇,第1篇阐述了大数据的相关知识;第2篇阐述了统计基础和数据统计分析相关内容;第3篇阐述了多元统计分析的基本统计思想和相关理论;第4篇阐述了数据挖掘技术的分类、聚类及关联规则的算法。《统计分析与数据挖掘技术》将统计理论与大数据挖掘技术融合起来,让统计理论更好地服务于大数据时代,对统计理论在大数据时代下的可持续发展和研究做了尝试。
《统计分析与数据挖掘技术》可作为普通高等院校大数据相关专业本科生和研究生的参考教材,也可以作为数据统计分析与数据挖掘技术研究人员的自学教材。
PREFACE 前 言
大数据(Big Data)是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。现代社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。早在1980年,著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中将大数据称为“第三次浪潮华彩乐章”。英国维克托·迈尔-舍恩伯格教授编写的被尊为国外大数据研究先河之作《大数据时代》中阐述了所谓大数据就是“所有数据”。进入2012年,“大数据”一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。随着计算机运算速度和存储能力的发展,收集数据变得越来越简单,储存数据的成本越来越低,人们所掌握的数据量越来越大,但我们关心的不是数据本身,真正关心的是在这如此巨大的数据中我们可以得到什么样的信息,可以得到多少有用的信息,这就是数据挖掘理论所要研究的问题。
《统计分析与数据挖掘技术》讲述的是在大数据时代下的统计学理论以及数据挖掘的基本概念和技术。
过去由于技术限制,人们做统计时只能收集有限的数据做样本,其中要考虑随机样本的选择,努力减小因样本问题出现的误差,统计结果往往不能重复使用,造成数据利用率低,而现在则可以做到“样本=总体”。“小数据”时代,一个样本的错误就可以造成对总体估计的失误,而“大数据”时代对精确性的要求不再那么苛刻,数据的数量足以弥补这一缺陷。大数据时代,人们应该从追求“因果关系”的旧思维方式向追求“相关关系”转变,这实际上是通过大数据来透视一种事物的发展趋势。但很多精确学科领域依然需要探寻“因果关系”,解决更有针对性的问题,所以从追求“因果关系”到追求“相关关系”的转变只能局限在特定的领域发生。也就是说,大数据的相关性将人们指向了比探讨因果关系更有前景的领域。
作为多学科领域,数据挖掘包括统计学、机器学习、模式识别、数据库技术、信息检索、网络科学、知识库系统、人工智能、高性能计算和数据可视化等,《统计分析与数据挖掘技术》的写作意图是将统计理论的随机问题融合到大数据技术的研究中,以便使统计理论更好地服务于大数据时代。基于这一初衷,《统计分析与数据挖掘技术》解决了两个问题。第一,对统计学理论进行了较详细的介绍,为数据挖掘算法的研究提供了必要的理论支持,为读者查阅一些基本概念和基本理论提供方便;第二,《统计分析与数据挖掘技术》从介绍大数据的概念入手,通过介绍大数据的特征和价值、大数据的研究现状和发展动态来解释什么样数据才可称其为“大数据”,以便读者对大数据有一个正确认识,同时讲解了数据挖掘一些基本理论,例如介绍了分类、聚类、关联规则及其常用算法等,为读者提供了必要的理论知识,以便读者更系统地学习数据挖掘技术,并对数据挖掘算法有了一定了解。
第1篇简单介绍了大数据,包含第1章内容。
第1章介绍了大数据的特征和价值、研究现状和发展动态、研究存在的主要问题和大数据时代统计学重构的意义。大数据分析离不开统计学,而传统的统计学也无法解决大数据分析的问题,所以数据统计分析的方法不得不随着大数据时代的到来而发生改变。与传统意义上的数据相比,大数据的“大”与“数据”都有了新的含义,绝不仅仅是容积和数量的问题,更重要的是数据的内涵问题。正如维克托·迈尔-舍恩伯格所说:“大数据发展的核心动力就是人类测量、记录和分析世界的渴望。”
第2篇阐述了统计及其分析方法,包含第2章和第3章内容。
第2章介绍了统计学基础概念、数据收集处理与数据描述,以及数据描述性统计分析的相关内容。统计数据是进行统计分析的前提,没有统计数据,统计方法就失去了用武之地。因此,如何取得准确可靠的统计数据是统计研究的重要内容。
第3章首先介绍了抽样推断的两大核心内容,即参数估计和假设检验,同时介绍了假设检验的推广问题,即方差分析,进而介绍单因素方差分析和双因素方差分析的基本原理和方法,最后介绍了相关与回归分析问题的基本思想和原理。
第3篇阐述了多元统计分析的基本统计思想和相关理论,包含第4章内容。
第4章介绍了多元统计分析的基本概念、多元正态分布、主成分分析、层次分析、聚类分析及判别分析等理论。
第4篇讲述了数据挖掘技术的分类、聚类及关联规则等算法,包含第5章到第9章。
第5章研究了数据挖掘的意义、任务与应用、数据流的概念、数据流模及其分类以及数据流概要描述方法。
第6章讲述了分类挖掘算法研究的相关知识,具体介绍了决策树分类算法,包括ID3算法、C4.5算法、信息熵改进算法、SLIQ算法、SPRINT算法,同时介绍了贝叶斯分类算法、支持向量机分类算法等。
第7章研究了数据流聚类算法,主要介绍了目前较为经典的聚类算法,如基于划分方法的K-Means均值聚类算法、K-Medoid中心聚类算法、K-Harmonic Means算法等,基于层次方法的AGNES聚类算法、DIANA聚类算法、BIRCH算法等,同时介绍了几种基于密度和基于网格的聚类法,并对各算法的优势与不足进行了分析。
第8章介绍了关联规则概述及其经典算法。介绍了Apriori算法,以及Apriori的现有改进算法,包括Partition算法、Sampling算法、DHP算法及FP-growth算法等,同时介绍了TDA及其并行关联规则算法及加权关联规则的挖掘问题。
第9章讨论了数据挖掘的发展趋势,就目前数据挖掘的应用领域、数据挖掘中存在的隐私问题、数据挖掘研究的发展方向等问题进行了探讨。
《统计分析与数据挖掘技术》的显著特点就是紧紧围绕着统计学理论来研究大数据问题。统计理论是一个非常严谨、非常成熟的理论,但随着大数据时代的到来,统计理论被颠覆,尤其是抽样理论在大数据研究领域的存在价值被质疑,如何重构统计理论,使其在大数据时代继续承担原有的历史任务,是统计学研究人员所面临的一个挑战,也是历史所赋予的责任。我们坚信统计学理论会不断完善,为大数据领域的研究承担它应有的任务。
参与《统计分析与数据挖掘技术》编写和研究工作的还有韩晓微教授、范立南教授、王竞波教授、万福才教授以及校企合作企业东软集团的赵玲玲、何蕊等数据科学与大数据技术专业共建研究小组的全体成员,在此一并向各位同行表示谢意与敬意。
在编写《统计分析与数据挖掘技术》过程中,编者参阅了大量的相关教材和专著,并汲取了相关成果,在此向有关作者表示衷心的感谢!同时,由于编者能力有限,书中难免存在不足之处,敬祈专家学者及广大读者多提宝贵意见。反馈邮箱:wkservice@vip.163.com。
编 者
2019年8月
CONTENTS 目 录
第1篇 大数据时代
第1章 大数据概述 2
1.1 指数时代 2
1.2 大数据特征和价值 3
1.2.1 大数据特征 3
1.2.2 大数据价值 3
1.3 大数据研究现状和发展动态 5
1.3.1 大数据研究现状 5
1.3.2 大数据研究发展动态 7
1.4 大数据研究存在的主要问题 7
1.4.1 大数据技术存在的问题 7
1.4.2 研究方法问题 9
1.4.3 领域融合问题 9
1.5 大数据时代统计学重构意义 10
1.5.1 对大数据的初步认识 10
1.5.2 统计思维变化 11
1.5.3 大数据时代下统计学重构 14
第2篇 传统统计分析方法
第2章 统计基础 20
2.1 统计学基本概念 20
2.1.1 统计学及统计工作过程 20
2.1.2 总体和样本 23
2.1.3 标志与变量 24
2.1.4 统计指标和指标体系 27
2.2 数据收集处理与数据描述 29
2.2.1 数据来源 29
2.2.2 数据质量 29
2.2.3 数据预处理 30
2.2.4 数据分组 31
2.2.5 频数分布 33
2.2.6 数据显示 36
2.3 数据描述性统计分析 38
2.3.1 数据对比分析 38
2.3.2 集中趋势测量 39
2.3.3 离散趋势测量 49
第3章 数据统计分析 57
3.1 参数估计 57
3.1.1 抽样推断与抽样分布 57
3.1.2 参数估计基本方法 66
3.1.3 总体均值区间估计 68
3.1.4 正态总体方差的区间估计 71
3.1.5 总体成数区间估计 71
3.1.6 样本容量确定 72
3.2 假设检验 73
3.2.1 假设检验基本问题 73
3.2.2 总体平均数检验 77
3.2.3 正态总体方差假设检验 81
3.2.4 总体成数检验 82
3.3 方差分析 83
3.3.1 方差分析概念和意义 83
3.3.2 单因素方差分析 84
3.3.3 无交互作用的双因素方差分析 88
3.4 相关与回归分析 92
3.4.1 相关分析 92
3.4.2 一元线性回归 101
3.4.3 多元线性回归 113
3.4.4 非线性回归 119
第3篇 多元统计分析及其方法
第4章 多元统计分析 124
4.1 多元统计分析基本概念 124
4.1.1 随机向量和随机矩阵数字特征 124
4.1.2 随机向量相互独立性 126
4.1.3 多元样本相关概念 128
4.2 多元正态分布及其推广 129
4.2.1 多元正态分布定义 130
4.2.2 多元正态变量基本性质 130
4.2.3 多元正态分布参数估计 131
4.2.4 多元正态分布变形形式 132
4.2.5 多元正态分布参数假设检验 133
4.3 主成分分析 137
4.3.1 基本思想 138
4.3.2 主成分分析与几何解释 138
4.3.3 主成分分析步骤 143
4.4 层次分析 147
4.4.1 基本思想 147
4.4.2 递阶层次结构建立 148
4.4.3 构造两两比较判断矩阵 149
4.4.4 判断矩阵一致性检验 149
4.4.5 元素对目标层总排序权重 151
4.5 聚类分析 153
4.5.1 基本思想 154
4.5.2 衡量相似性统计量 155
4.5.3 系统聚类方法 158
4.6 判别分析 162
4.6.1 Fisher两类判别 163
4.6.2 Bayes多类判别 167
4.6.3 逐步判别分析 171
第4篇 数据挖掘技术
第5章 数据挖掘导论 180
5.1 数据挖掘 180
5.1.1 数据挖掘意义 180
5.1.2 数据挖掘与数据分析区别 180
5.2 数据挖掘任务与应用 182
5.2.1 数据挖掘主要任务 182
5.2.2 数据挖掘应用 184
5.3 数据流 185
5.3.1 数据流概念 186
5.3.2 数据流模型与分类 186
5.3.3 不确定数据流概念漂移 188
第6章 分类挖掘算法 190
6.1 分类挖掘算法研究概述 190
6.1.1 分类挖掘研究背景及意义 190
6.1.2 分类挖掘含义 191
6.1.3 分类器性能评估标准 191
6.1.4 分类挖掘算法研究现状及应用领域 192
6.1.5 分类挖掘研究面临的问题 193
6.2 分类挖掘算法举例 195
6.2.1 决策树分类算法 195
6.2.2 贝叶斯分类算法 199
6.2.3 支持向量机分类算法 202
第7章 聚类挖掘算法 210
7.1 聚类挖掘算法研究概述 210
7.1.1 聚类挖掘研究背景及意义 210
7.1.2 聚类分析含义 211
7.1.3 聚类挖掘算法性能评估方法 211
7.1.4 聚类挖掘研究发展趋势及应用领域 212
7.1.5 聚类挖掘研究面临的问题 216
7.2 聚类挖掘算法举例 218
7.2.1 划分聚类法 218
7.2.2 层次聚类法 223
7.2.3 基于密度和网格聚类法 229
第8章 关联规则挖掘算法 235
8.1 关联规则挖掘算法研究概述 235
8.1.1 关联规则研究背景及意义 235
8.1.2 关联规则含义 236
8.1.3 关联规则挖掘研究现状及应用领域 238
8.1.4 关联规则挖掘算法分类 239
8.1.5 关联规则挖掘研究面临的问题 240
8.2 关联规则挖掘算法举例 241
8.2.1 Apriori算法 241
8.2.2 Apriori改进算法 243
8.2.3 TDA及其并行式挖掘算法 247
第9章 数据挖掘应用领域和发展趋势 252
9.1 数据挖掘应用领域 252
9.2 数据挖掘中隐私问题 254
9.3 数据挖掘发展趋势 254
9.3.1 数据挖掘与物联网、云计算和大数据 254
9.3.2 数据挖掘研究和应用面临的挑战 255
9.3.3 数据挖掘发展方向 255
参考文献 257
作为多学科领域,数据挖掘包括统计学、机器学习、模式识别、数据库技术、信息检索、网络科学、知识库系统、人工智能、高性能计算和数据可视化等,本书的写作意图是将统计理论的随机问题融合到大数据技术的研究中,以便使统计理论更好地服务于大数据时代。
基于这一初衷,本书解决了两个问题。
第一,对统计学理论进行了较详细的介绍,为数据挖掘算法的研究提供了必要的理论支持,为读者查阅一些基本概念和基本理论提供方便。
第二,第二,本书从介绍大数据的概念入手,通过介绍大数据的特征和价值、大数据的研究现状和发展动态来解释什么样数据才可称其为“大数据”,以便读者对大数据有一个正确认识,同时讲解了数据挖掘一些基本理论,例如介绍了分类、聚类、关联规则及其常用算法等,为读者提供了必要的理论知识,以便读者更系统地学习数据挖掘技术,并对数据挖掘算法有了一定了解。
作为多学科领域,数据挖掘包括统计学、机器学习、模式识别、数据库技术、信息检索、网络科学、知识库系统、人工智能、高性能计算和数据可视化等,本书的写作意图是将统计理论的随机问题融合到大数据技术的研究中,以便使统计理论更好地服务于大数据时代。
基于这一初衷,本书解决了两个问题。
第一,对统计学理论进行了较详细的介绍,为数据挖掘算法的研究提供了必要的理论支持,为读者查阅一些基本概念和基本理论提供方便。
第二,第二,本书从介绍大数据的概念入手,通过介绍大数据的特征和价值、大数据的研究现状和发展动态来解释什么样数据才可称其为“大数据”,以便读者对大数据有一个正确认识,同时讲解了数据挖掘一些基本理论,例如介绍了分类、聚类、关联规则及其常用算法等,为读者提供了必要的理论知识,以便读者更系统地学习数据挖掘技术,并对数据挖掘算法有了一定了解。