科技>计算机>数据库
SPSSModeler+Weka数据挖掘从入门到实战

SPSSModeler+Weka数据挖掘从入门到实战"

作者:经管之家
ISBN:9787121319112
定价:¥69.0
字数:397千字
页数:284
出版时间:2019-05
开本:16开
版次:01-01
装帧:
出版社:电子工业出版社
简介

内 容 简 介本书是一本面向商业数据挖掘建模分析人员的教材,从具体的商业数据分析案例入手,帮助读者掌握数据挖掘的目的、方法、工具与分析步骤。本书所采用的分析工具为目前颇受好评的IBM SPSS Modeler及开源软件Weka。IBM SPSS Modeler有很好的用户接口,也有不错的分析功能,但缺乏比较前沿的分析模块,以及很难与现有的信息系统结合,而Weka恰能弥补其缺憾。同时,这两个软件都不需要编程,适合初学者。本书具体内容由四位活跃在数据挖掘教学和项目开发一线的人员完成,内容侧重软件的实际操作。力图将复杂的技术以浅显的方式进行解释,尽量避免涉及过多的数学内容。

前言

前 言 感谢您选择《SPSS Modeler+Wake 数据挖掘从入门到实战》。本书内容源于李御玺教授的数据挖 掘相关课程讲义,讲义历经多次修改,逐渐适合作为数据挖掘实用教材,并在获得学员们的高度评 价后再被编辑成书。本书的另一位作者常国珍也长期活跃在数据挖掘的项目实施和培训中,2014 年 其与李教授相识,并与李教授对出版本书之事一拍即合。 读者对象 本书的撰写采取了算法与软件实操双向并行的策略。在理论上,本书尽量用例子来说明数据挖 掘算法背后的理论及意义,避免艰涩的数学公式,以求读者能用最简单的方式理解理论的精髓。在 软件实操上,本书以各领域的实用案例为基础,逐步地将软件的功能引出,以求读者能了解软件功 能的使用场景。有了坚实的理论基础及软件操作能力,再辅之以众多的实用案例,本书的读者就能 逐步进入多姿多彩的数据挖掘世界。本书是以读者第一次接触数据挖掘为前提来撰写的。读者若有 数据库、统计及计算机基础,则学习起来会较为轻松。 工具介绍 IBM SPSS Modeler 可谓商业数据挖掘领域的“重型武器”,其功能全面、算法安全可靠、追求执 行效率与操作上的简单易用,并被广泛运用于许多企业中。其缺点是缺乏前沿的分析模块及很难与 现有的信息系统结合,而开源软件Weka 恰能弥补其不足。Weka 简单好用,拥有许多前沿的分析模 块并易于与现有的信息系统整合。其缺点是在数据预处理部分,便利性不如IBM SPSS Modeler 简单、 易用。这两个软件对初入数据分析领域的读者而言是很好的入门工具。 阅读指南 本书分为15 章。第1 章介绍数据挖掘的起源及应用。同时说明如何建立一个SPSS Modeler 及 Weka 的项目。第2 章介绍数据挖掘的方法论CRIPS-DM。同时说明如何将数据汇入SPSS Modeler 及Weka 的项目中,并做初步的数据探索。第3 章介绍基本的数据挖掘技术。同时说明如何利用SPSS Modeler 及Weka 建立KNN 模型并进行分类预测。第4 章介绍数据挖掘的进阶技术、数据挖掘技术 的绩效增益及两个重要的数据挖掘网站。第5 章详细介绍数据预处理技术,同时说明如何利用SPSS Modeler,针对银行的信用风险评估数据,进行数据预处理。第6 章介绍如何有效地挖掘对项目有帮 助的关键变量。同时说明如何利用SPSS Modeler 及Weka,挖掘有效变量。第7 至15 章则为数据挖 掘模型的介绍。这些模型均为热门且应用最为广泛的模型。对于每个模型的介绍,先以实例说明其 理论,随后以实用的案例介绍如何在SPSS Modeler 及Weka 中操作,让每个读者充分了解每个模型 的实际运用效果。 如果时间允许,则读者可以采取通读本书内容并按照示例进行操作的方式,但是这样效率可能 不高。更高效的方法是结合工作中遇到的问题,先集中精力把书上的示例操练好,然后带入工作中 的实际数据实现同样的算法,最后修改部分设置,以满足工作中的特定需求。 本书特点 本书作为市场上为数不多的理论与软件实操相结合并面向商业数据挖掘的书籍,和其他统计软 件图书有很大的不同,本书结构新颖,案例贴近实际,讲解深入透彻。 场景式设置 本书从银行、电信、零售、医疗等行业中精心归纳、提炼出各类数据挖掘案例,方便读者搜寻 与实际工作相似的问题。 启发式描述 本书注重培养读者解决问题的思路,以最朴实的思维方式结合启发式的描述,帮助读者发现规 律、总结规律和运用规律,从而启发读者快速找出问题的解决方法。 售后服务 尽管作者们对书中的案例精益求精,但疏漏之处在所难免,如果发现书中的错误或某个案例有 更好的解决方案,则敬请与本书作者联系,作者邮箱为leeys@mail.mcu.edu.tw。 学习方法 只有对数据分析的流程熟悉了,才能实现从模仿到灵活运用。在产品质量管理方面,对流程的 掌控是成功的关键,在数据挖掘项目中,流程同样是重中之重。数据挖掘是一个先后衔接的过程, 一个步骤的失误会带来完全错误的结果。数据挖掘的流程大致包括抽样、数据清洗、数据转换、建 模和模型评估这几个步骤。如果在抽样中的取数逻辑不正确,就有可能使因果关系倒置,得到完全 相反的结论。数据转换方法如果选择不正确,模型就难以得到预期的结果。而且,数据挖掘是一个 反复试错的过程,每一步都要求有详细的记录和操作说明,否则分析人员很可能迷失方向。 学习数据挖掘最好的方法就是动手做一遍。本书语言通俗,但高度凝练,很少涉及公式,这会 让读者大意,如果读者不动手做一遍,则很难体会到书中表述的思想。本书提供了相应的演练数据, 也同时给出了相关方面的参考资料,供学员学习。 致谢 本丛书从策划到出版,张慧敏主编倾注了大量心血,经管之家的董事长赵坚毅先生提供了多方 面的支持,特在此表示衷心的感谢! 为保证丛书的质量,使其更贴近读者,我们邀请了北京大学的殷子涵进行试读和修改完善。感 谢各位预读员的辛勤、耐心与细致,使得本书能以更加完善的面目与各位读者见面。还要感谢刘莎 莎参与本岀的编写工作。 再次感谢您的支持! 作 者

目录

第1 篇 理论篇 第1 章 数据挖掘简介 ................................................................................... 1 1.1 数据挖掘的起源、定义及目标 ....................................................................................... 2 1.2 数据挖掘的发展历程 ....................................................................................................... 2 1.3 SPSS Modeler 和Weka 基础操作 .................................................................................... 4 1.3.1 SPSS Modeler 软件简介 ....................................................................................... 4 1.3.2 建立一个SPSS Modeler 项目 .............................................................................. 5 1.3.3 Weka 软件环境简介 ............................................................................................. 8 1.3.4 Weka 简单操作实例 ............................................................................................. 9 第2 章 数据挖掘方法论 .............................................................................. 15 2.1 数据挖掘方法论 ............................................................................................................. 16 2.1.1 CRISP-DM .......................................................................................................... 16 2.1.2 SEMMA .............................................................................................................. 16 2.2 数据库中的知识挖掘步骤 ............................................................................................. 17 2.2.1 字段选择 ............................................................................................................. 17 2.2.2 数据清洗 ............................................................................................................. 18 2.2.3 字段扩充 ............................................................................................................. 18 2.2.4 数据编码 ............................................................................................................. 19 2.2.5 数据挖掘 ............................................................................................................. 20 2.2.6 结果呈现 ............................................................................................................. 21 2.3 案例:运用SPSS Modeler 和Weka 做客户的信用风险评分模型 ............................. 22 2.3.1 案例说明 ............................................................................................................. 22 2.3.2 案例实操 ............................................................................................................. 23 2.3.3 运用SPSS Modeler 进行初步的数据挖掘 ........................................................ 28 2.3.4 运用Weka 进行数据汇入 .................................................................................. 34 2.3.5 Weka 自有数据存储格式arff 简介 ................................................................... 36 第3 章 基本的数据挖掘技术 ...................................................................... 38 3.1 描述性统计 ..................................................................................................................... 39 3.1.1 案例:通过数据判断客户是否需要新增电话线路 ......................................... 39 3.1.2 案例:运用描述性统计分析杂志社的客户特征 ............................................. 40 3.2 可视化技术 ..................................................................................................................... 42 3.3 KNN 原理及实例 ........................................................................................................... 44 3.3.1 KNN(K 最近邻)算法 ..................................................................................... 44 3.3.2 使用KNN 算法计算距离 .................................................................................. 45 3.3.3 案例:使用KNN 算法向用户推荐电影 ........................................................... 49 3.4 案例:运用Weka 的KNN 算法对诊断结果进行预测 ..................................................... 52 3.4.1 案例说明 ............................................................................................................. 52 3.4.2 运用Weka 中的IBk 模型进行预测 .................................................................. 53 3.5 案例:运用SPSS Modeler 的KNN 算法预测客户是否接受人寿保险推销 ............. 58 3.5.1 案例说明 ............................................................................................................. 58 3.5.2 案例实操 ............................................................................................................. 59 第4 章 数据挖掘进阶技术 .......................................................................... 68 4.1 数据挖掘的功能分类 ..................................................................................................... 69 4.1.1 描述型数据挖掘(无监督数据挖掘) ............................................................. 69 4.1.2 预测型数据挖掘(有监督数据挖掘) ............................................................. 70 4.2 数据挖掘的绩效增益 ..................................................................................................... 72 4.2.1 数据挖掘模型评估指标:正确率、响应率、查全率、F 值 .......................... 72 4.2.2 数据挖掘模型评估指标:Gain Chart ................................................................ 74 4.2.3 数据挖掘模型评估指标:Lift Chart ................................................................. 75 4.2.4 数据挖掘模型评估指标:Profit Chart .............................................................. 76 4.3 数据挖掘网站 ................................................................................................................. 77 4.3.1 KDnuggets ........................................................................................................... 77 4.3.2 Kaggle ................................................................................................................. 80 4.4 案例:评估新产品的促销活动效果 ............................................................................. 82 4.4.1 案例说明 ............................................................................................................. 83 4.4.2 数据及字段描述 ................................................................................................. 83 4.4.3 效能评估方式 ..................................................................................................... 85 4.4.4 比赛结果排名 ..................................................................................................... 85 第2 篇 准备篇 第5 章 数据预处理 ..................................................................................... 87 5.1 字段选择 ......................................................................................................................... 88 5.1.1 数据整合 ............................................................................................................. 88 5.1.2 数据过滤 ............................................................................................................. 88 5.1.3 案例:运用SPSS Modeler 过滤数据 ................................................................ 89 5.2 数据清洗 ......................................................................................................................... 92 5.2.1 错误值的检测及处理 ......................................................................................... 92 5.2.2 案例:运用SPSS Modeler 进行错误值的检测及处理 .................................... 92 5.2.3 离群值的检测及处理 ......................................................................................... 96 5.2.4 案例:运用SPSS Modeler 进行离群值的检测及处理 .................................... 96 5.2.5 缺失值的检测及处理 ....................................................................................... 100 5.2.6 案例:运用SPSS Modeler 进行缺失值的检测及处理 .................................. 101 5.3 字段扩充 ........................................................................................................................110 5.3.1 案例说明 ............................................................................................................110 5.3.2 案例:运用SPSS Modeler 进行字段扩充及评估对效能的提升 ................... 111 5.4 数据编码 ........................................................................................................................118 5.4.1 数据转换 ............................................................................................................118 5.4.2 数据精简 ........................................................................................................... 128 5.4.3 数据集的切割 ................................................................................................... 129 第6 章 关键变量挖掘技术 ........................................................................ 137 6.1 无效变量 ....................................................................................................................... 138 6.2 统计方式的变量选择 ................................................................................................... 138 6.2.1 卡方检验 ........................................................................................................... 138 6.2.2 方差分析(ANOVA 检验)及t 检验 ............................................................. 138 6.2.3 案例:运用SPSS Modeler 进行关键变量挖掘 .............................................. 139 6.3 模型方式的变量选择 ................................................................................................... 141 6.3.1 决策树 ............................................................................................................... 141 6.3.2 Logistic 回归 ..................................................................................................... 141 第7 章 贝叶斯网络 ................................................................................... 143 7.1 朴素贝叶斯 ................................................................................................................... 144 7.1.1 独立性假设 ....................................................................................................... 145 7.1.2 概率的离散化 ................................................................................................... 147 7.2 什么是贝叶斯网络 ....................................................................................................... 147 第8 章 线性回归 ...................................................................................... 150 8.1 简单线性回归 ............................................................................................................... 151 8.2 多元回归 ....................................................................................................................... 152 8.3 相关系数 ....................................................................................................................... 152 8.4 回归分析案例 ............................................................................................................... 153 8.5 线性回归模型评估 ....................................................................................................... 156 8.5.1 线性回归模型评估指标:MAE、MSE 和RMSE ......................................... 156 8.5.2 线性回归模型评估指标:R2 ........................................................................... 156 8.6 案例:运用SPSS Modeler 建立线性回归模型 .......................................................... 157 8.6.1 案例说明 ........................................................................................................... 157 8.6.2 案例实操 ........................................................................................................... 157 第9 章 决策树 .......................................................................................... 161 9.1 ID3 决策树模型 ............................................................................................................ 162 9.2 ID3 算法........................................................................................................................ 165 9.2.1 ID3 算法的字段选择方式 ................................................................................ 165 9.2.2 使用决策树进行分类 ....................................................................................... 168 9.2.3 决策树与决策规则之间的关系 ....................................................................... 168 9.2.4 ID3 算法的缺点 ................................................................................................ 169 9.3 C5.0 算法 ...................................................................................................................... 170 9.3.1 C5.0 算法的字段选择方式 .............................................................................. 170 9.3.2 C5.0 算法的数值型字段处理方式 .................................................................. 170 9.3.3 C5.0 算法的剪枝方法 ...................................................................................... 172 9.4 CART 算法 ................................................................................................................... 173 9.4.1 分类树与回归树 ............................................................................................... 174 9.4.2 CART 分类树的字段选择方式 ........................................................................ 174 9.4.3 CART 分类树的剪枝作法 ................................................................................ 177 9.5 CHAID 算法 ................................................................................................................. 177 9.6 案例:运用SPSS Modeler 和Weka 建立决策树模型 .................................................. 177 9.6.1 案例说明 ........................................................................................................... 177 9.6.2 案例实操 ........................................................................................................... 178 9.6.3 运用SPSS Modeler 建立交互式分类树模型 .................................................. 179 9.6.4 运用Weka 建立交互式分类树模型 ................................................................ 180 9.7 CART 回归树算法 ....................................................................................................... 186 9.7.1 CART 回归树的字段选择方式 ........................................................................ 186 9.7.2 利用模型树提升CART 回归树的效率 ........................................................... 187 9.8 案例:运用SPSS Modeler 和Weka 建立回归树模型 .................................................. 188 9.8.1 案例说明 ........................................................................................................... 188 9.8.2 案例实操 ........................................................................................................... 188 9.8.3 使用Weka 对比“剪枝”前后的模型 ............................................................ 189 第10 章 神经网络 .................................................................................... 194 10.1 BP 神经网络模型 ....................................................................................................... 195 10.1.1 BP 神经网络模型的概念 ............................................................................. 195 10.1.2 BP 神经网络模型的架构方式 ..................................................................... 195 10.2 神经元的组成 ............................................................................................................. 198 10.3 神经网络模型如何传递信息 ..................................................................................... 199 10.4 修正神经网络模型的权重值及常数项 ..................................................................... 200 10.5 BP 神经网络模型与Logistic 回归、线性回归及非线性回归之间的关系 ............. 201 10.6 案例:运用SPSS Modeler 建立类神经网络模型 .................................................... 202 第11 章 Logistic 回归 ............................................................................... 208 11.1 Logistic 回归与BP 神经网络的关系 ........................................................................ 210 11.2 Logistic 回归的字段选择方式 ....................................................................................211 11.2.1 前向法 ............................................................................................................211 11.2.2 后向法 ........................................................................................................... 212 11.2.3 逐步法 ........................................................................................................... 212 11.3 案例:运用SPSS Modeler 建立Logistic 回归模型 ...................................................... 213 11.3.1 案例说明 ....................................................................................................... 213 11.3.2 案例实操 ....................................................................................................... 213 第12 章 支持向量机 ................................................................................. 215 12.1 数据是线性可分的支持向量机 ................................................................................. 217 12.2 数据是线性不可分的支持向量机 ............................................................................. 219 12.3 案例:运用SPSS Modeler 建立SVM 模型 ............................................................. 221 第3 篇 关系篇 第13 章 聚类分析 .................................................................................... 230 13.1 相似性度量 ................................................................................................................. 232 13.1.1 二元变量的相似性度量 ............................................................................... 232 13.1.2 类别型变量的相似性度量 ........................................................................ 234 13.1.3 数值型变量的相似性度量 ........................................................................... 234 13.2 聚类算法 ..................................................................................................................... 234 13.2.1 互斥聚类与非互斥聚类算法 ....................................................................... 234 13.2.2 分层聚类算法 ............................................................................................... 235 13.2.3 分割式聚类算法 ........................................................................................... 236 13.3 分层聚类算法 ............................................................................................................. 236 13.3.1 单一连接法 ................................................................................................... 236 13.3.2 完全连接法 ................................................................................................... 237 13.3.3 平均连接法 ................................................................................................... 238 13.3.4 中心法 ........................................................................................................... 238 13.3.5 Ward's 法(华德法).................................................................................. 239 13.4 分割式聚类算法 ......................................................................................................... 240 13.4.1 K-Means 算法 ............................................................................................... 240 13.4.2 K-Medoids 算法 ............................................................................................ 243 13.4.3 SOM 算法 ..................................................................................................... 243 13.4.4 两步法 ........................................................................................................... 243 13.5 集群判断 ..................................................................................................................... 244 13.5.1 集群判断方法:R2 ....................................................................................... 244 13.5.2 集群判断方法:半径R2 .............................................................................. 245 13.5.3 集群判断方法:均方根标准差(RMSSTD) ........................................... 245 13.6 案例:运用SPSS Modeler 建立聚类模型 ................................................................ 246 13.6.1 案例说明 ....................................................................................................... 246 13.6.2 案例实操 ....................................................................................................... 246 第14 章 关联规则 .................................................................................... 252 14.1 关联规则的概念 ......................................................................................................... 253 14.2 关联规则的评估指标 ................................................................................................. 253 14.2.1 支持度 ........................................................................................................... 253 14.2.2 置信度 ........................................................................................................... 254 14.3 Apriori 算法 ................................................................................................................ 254 14.3.1 暴力法的问题 ............................................................................................... 254 14.3.2 Apriori 算法的理论基础 .............................................................................. 255 14.4 Apriori 算法实例说明 ................................................................................................ 255 14.4.1 候选项目组合的产生 ................................................................................... 255 14.4.2 候选项目组合的删除 ................................................................................... 256 14.5 再谈评估指标 ............................................................................................................. 256 14.5.1 支持度与置信度的问题 ............................................................................... 256 14.5.2 提升度指标 ................................................................................................... 257 14.6 关联规则的延伸 ......................................................................................................... 257 14.6.1 虚拟商品的加入 ........................................................................................... 257 14.6.2 负向关联规则 ............................................................................................... 257 14.7 案例:运用SPSS Modeler 建立关联规则模型 ........................................................ 258 14.7.1 案例说明 ....................................................................................................... 258 14.7.2 案例实操 ....................................................................................................... 258 第15 章 序列模型 .................................................................................... 263 15.1 序列模型的概念 ......................................................................................................... 264 15.2 案例:运用SPSS Modeler 建立序列模型 ................................................................ 266 15.2.1 案例说明 ....................................................................................................... 266 15.2.2 案例实操 ....................................................................................................... 266

作者简介

编辑推荐

作者寄语

电子资料

www.luweidong.cn

下一个