
本书由认识篇、技术篇和案例篇三部分组成,以商业领域中的问题为背景,主要讲解数据挖掘技术的应用。认识篇介绍数据挖掘的各种技术和数据挖掘建模方法,可使读者了解数据挖掘技术在商业领域中的应用概貌;技术篇介绍数据挖掘中的聚类分析、分类分析、关联规则分析、离群点检测、回归分析等方法;案例篇介绍实际领域应用较多的RFM分析、社会网络分析和文本挖掘,展示数据挖掘在不同领域中的应用案例,使读者理解如何应用数据挖掘技术解决商业领域中的问题。 本书可作为经济、管理类等相关专业学生学习数据挖掘技术的教材或参考书,也可作为计算机相关专业学生学习数据挖掘技术的参考书,还可作为企事业单位管理者、数据分析人员、市场营销人员、研究与开发人员的参考资料。
前言 此次改版充分考虑了技术的发展及在实际领域中有多种数据类型需要处理的情况,增加了一些实际案例,增加了社会网络分析、文本挖掘、数据挖掘在客户关系管理中的应用这3章,删除了数据挖掘在零售业中的应用一章,将原来第9章、第10章的内容拆分到第4章至第8章,将原来的第8章调整为第3章,对第12章的名称进行了修改,并增加了案例。 本书旨在介绍数据挖掘的基本原理、方法及数据挖掘应用流程,通过案例分析使读者能够应用这些方法解决商业领域中的相关问题。 全书分为三篇,共15章。 上篇为认识篇。数据挖掘技术应用广泛,认识篇从整体上分析数据挖掘技术,使读者了解数据挖掘的各种技术,了解数据挖掘技术在商业领域中的应用概貌;熟悉数据挖掘建模方法。第1章介绍数据挖掘的概念及数据挖掘在商业领域中的应用;第2章围绕跨行业数据挖掘过程标准CRISP-DM介绍数据挖掘过程的6个阶段。 中篇为技术篇。从应用的角度看,数据挖掘是一个工具,为了更好地应用数据挖掘,读者需要知道什么时候应该使用何种数据挖掘技术,需要对数据挖掘主流算法有一定程度的了解。此外,读者需要了解模型内部机制,这样才可以有效地准备建模所用的数据集,以及使用不同参数改进模型的输出结果。数据挖掘涉及的学科领域和方法很多,数据挖掘的常用技术有聚类分析、分类、关联规则分析、离群点检测和回归分析,为了有效实施数据挖掘,需要对实际领域的数据进行适当的预处理。本篇详细讲解了这些经典算法,同时对同一类数据挖掘技术的不同算法进行了对比。第3章介绍数据准备,第4章介绍聚类分析,第5章介绍分类分析,第6章介绍关联规则分析,第7章介绍离群点检测,第8章介绍回归分析。 下篇为案例篇。在一个特定的行业中进行数据分析时可能需要应用多种数据挖掘技术,同一种数据挖掘技术在应用到不同行业时也会存在一定的差异。案例篇通过不同行业的案例展示数据挖掘技术在不同行业的应用,所有案例均采用CRISP-DM规范进行描述。第9章介绍RFM分析技术及其应用案例;第10章介绍社会网络分析技术及其在通信行业中的客户细分、贸易数据分析等方面的应用;第11章介绍文本挖掘技术及其在用户画像方面的应用;第12章介绍客户关系管理涉及的主要方面,并通过案例介绍数据挖掘在客户关系管理中的应用;第13章介绍数据挖掘在金融领域的应用,重点介绍数据挖掘在信用风险分析中的应用;第14章介绍数据挖掘在财务风险分析和预警中的应用;第15章介绍数据挖掘在电子商务中的应用。 本书除了介绍数据挖掘的经典方法,还融入了作者的部分研究成果。 本书的改版融汇了许多人的辛勤劳动。全书由蒋盛益策划和统稿,蒋盛益负责第1章、第2章、第4章、第7章、第9章、第10章、第11章、第13章、第14章和第15章的撰写与修订;张钰莎负责第3章、第5章、第6章、第8章和第12章的撰写与修订;黄锡轩参与了第10章、第12章和第15章部分案例数据的处理与撰写,禤镇宇参与了第11章案例数据的处理与撰写。本书自出版以来,得到了众多读者的支持与肯定,改版工作也得到了电子工业出版社的大力支持,还得到了广东外语外贸大学数据挖掘实验室的苗邦、王晓锐、阳垚等校友提供的信息和建议。本书参考了许多学者的研究成果,在此一并表示衷心感谢。 限于作者的学识水平,书中难免存在不足和疏漏之处,敬请读者批评指正。 作 者
目录 上篇 认识篇 第1章 绪论 3 1.1 引例 3 1.2 数据挖掘简介 5 1.2.1 数据挖掘技术的使用背景 5 1.2.2 数据挖掘的概念 7 1.2.3 数据挖掘任务 7 1.2.4 数据挖掘过程 9 1.2.5 数据挖掘技术的前景 9 1.2.6 数据挖掘十大经典算法 11 1.3 数据挖掘在商业领域中的应用 12 1.3.1 客户关系管理 13 1.3.2 市场营销 15 1.3.3 个性化推荐与个性化服务 17 1.3.4 信用评估与欺诈检测 19 1.3.5 供应链库存管理中的需求预测 21 1.3.6 人力资源管理 22 1.4 数据挖掘与隐私保护 23 1.5 数据挖掘工具及其选择 25 本章小结 25 习题1 26 案例分析:聚类城镇 26 第2章 数据挖掘建模方法 28 2.1 数据挖掘建模概述 28 2.2 业务理解 31 2.3 数据理解 31 2.4 数据准备 32 2.5 建模 35 2.5.1 成功建立预测模型的注意事项 35 2.5.2 如何建立有效的预测模型 37 2.6 评估 39 2.7 部署 40 2.8 辛普森悖论 41 本章小结 42 习题2 43 案例分析 43 中篇 技术篇 第3章 数据准备 49 3.1 数据探索 50 3.1.1 描述性统计分析 51 3.1.2 数据可视化 54 3.2 数据清理 55 3.3 数据集成 58 3.4 数据变换 59 3.5 数据归约 64 3.6 Clementine简介 67 3.6.1 Clementine数据流操作 68 3.6.2 输入、输出节点 71 3.6.3 数据可视化节点 78 3.6.4 数据预处理节点 82 3.7 综合案例:电信客户通话模式分析 86 本章小结 92 习题3 92 案例分析 93 第4章 聚类分析 95 4.1 聚类分析概述 95 4.2 相似性度量 96 4.2.1 数据及数据类型 96 4.2.2 属性之间的相似性度量 98 4.2.3 对象之间的相似性度量 99 4.3 k-Means算法及其改进 104 4.3.1 k -Means算法 104 4.3.2 k-Means算法的拓展 106 4.4 DBSCAN聚类算法 112 4.5 一趟聚类算法 115 4.5.1 算法描述 115 4.5.2 聚类阈值的选择策略 115 4.5.3 一趟聚类算法的应用 117 4.6 层次聚类算法 118 4.6.1 概述 118 4.6.2 二分k -Means算法 119 4.6.3 BIRCH算法 119 4.6.4 两步聚类算法 121 4.7 SOM算法 123 4.7.1 SOM算法中网络的拓扑结构 124 4.7.2 SOM算法的聚类原理 125 4.8 聚类算法评价 126 4.8.1 有监督度量 126 4.8.2 无监督度量 127 4.9 Clementine中相关节点的介绍 128 4.9.1 k -Means节点 128 4.9.2 两步节点 130 4.9.3 Kohonen节点 130 4.10 综合案例:超市客户细分 132 本章小结 134 习题4 135 案例分析 135 第5章 分类分析 137 5.1 分类概述 138 5.2 决策树分类方法 138 5.2.1 决策树的基本概念 138 5.2.2 决策树的构建 140 5.2.3 Hunt算法 144 5.2.4 C4.5分类算法 145 5.2.5 CART算法 148 5.2.6 C4.5与CART算法的主要区别 156 5.2.7 决策树分类算法的特点 156 5.3 贝叶斯分类方法 156 5.3.1 贝叶斯定理 156 5.3.2 朴素贝叶斯分类算法 157 5.3.3 零条件概率问题的处理 158 5.3.4 朴素贝叶斯算法的优缺点 159 5.3.5 贝叶斯信念网络 161 5.4 KNN 162 5.4.1 最近邻分类方法的基本概念 163 5.4.2 KNN算法的优缺点 163 5.4.3 KNN算法的扩展 163 5.5 集成分类方法 164 5.5.1 集成分类方法的过程描述 164 5.5.2 构建集成分类器的方法 165 5.5.3 随机森林 166 5.5.4 集成分类方法的优缺点 168 5.6 分类方法评价 168 5.6.1 分类模型性能评价指标 168 5.6.2 分类模型性能评价应注意的点 169 5.6.3 评估分类模型性能的方法 170 5.7 Clementine中相关节点的介绍 171 5.7.1 C5.0节点 171 5.7.2 CRT节点 173 5.7.3 贝叶斯节点 174 5.7.4 集成节点 177 5.7.5 分析节点 177 5.7.6 评估节点 179 5.8 综合案例 183 5.8.1 案例5-1:银行客户信用风险评估 183 5.8.2 案例5-2:离职员工预测 185 本章小结 188 习题5 188 案例分析 190 第6章 关联规则分析 191 6.1 关联规则分析概述 191 6.2 关联规则分析基础 192 6.2.1 基本概念 192 6.2.2 基础分析方法 193 6.3 Apriori算法 195 6.3.1 Apriori性质 195 6.3.2 产生频繁项集 196 6.3.3 频繁项集构造示例 197 6.3.4 产生关联规则 198 6.3.5 规则的评估标准 201 6.3.6 Apriori算法评价 203 6.4 FP-Growth算法 203 6.4.1 FP-Tree表示法 204 6.4.2 构建FP-Tree 204 6.4.3 发现频繁项集 207 6.5 关联规则扩展 208 6.5.1 关联规则分类 208 6.5.2 多层次关联规则 209 6.5.3 多维关联规则 210 6.5.4 定量关联规则 211 6.5.5 基于约束的关联规则 211 6.5.6 序列模式挖掘 211 6.6 Clementine中Apriori节点的介绍 212 6.7 综合案例 213 6.7.1 案例6-1:超市购物篮分析 213 6.7.2 案例6-2:移动业务关联分析 218 本章小结 225 习题6 226 案例分析 227 第7章 离群点检测 229 7.1 离群点概述 229 7.2 基于距离的离群点检测方法 231 7.3 基于相对密度的离群点检测方法 232 7.4 基于聚类的离群点检测方法 237 7.4.1 基于对象的离群因子检测方法 238 7.4.2 基于簇的离群因子检测方法 240 7.4.3 基于聚类的动态数据离群点检测 242 7.5 离群点检测方法的评估 243 7.6 Clementine中的异常节点 243 7.7 综合案例:信用卡欺诈检测 245 本章小结 246 习题7 246 案例分析 247 第8章 回归分析 248 8.1 回归分析概述 248 8.2 线性回归模型 249 8.2.1 多元线性回归模型的表示 249 8.2.2 多元线性回归模型的检验 250 8.3 非线性回归 252 8.4 逻辑回归 255 8.4.1 二元逻辑回归模型 255 8.4.2 逻辑回归模型的系数估计 256 8.4.3 逻辑回归模型系数的解释 257 8.4.4 显著性检验 257 8.4.5 回归方程的拟合优度检验 258 8.5 Clementine中相关节点介绍 263 8.5.1 线性回归节点 263 8.5.2 逻辑回归节点 264 8.6 综合案例:我国私人汽车拥有量的非线性回归 265 本章小结 268 习题8 268 案例分析 270 下篇 案例篇 第9章 RFM分析 275 9.1 RFM分析的基本原理 275 9.2 RFM模型的应用场景 276 9.3 Clementine中相关节点介绍 277 9.3.1 RFM汇总节点 277 9.3.2 RFM分析节点 278 9.4 综合案例 280 9.4.1 案例9-1:识别促销的目标客户 280 9.4.2 案例9-2:Charles读书俱乐部目录销售 285 9.4.3 案例9-3:销售数据分析 290 本章小结 294 第10章 社会网络分析 295 10.1 图论基础 295 10.2 社会网络分析概述 296 10.2.1 社会网络分析相关概念 297 10.2.2 中心性 297 10.2.3 权威性 299 10.2.4 网络密度 299 10.3 社区检测 300 10.3.1 社区检测方法简介 300 10.3.2 社区检测质量评价 301 10.4 社会网络分析软件 302 10.4.1 社会网络分析软件概述 302 10.4.2 Gephi简介 303 10.5 综合案例 306 10.5.1 案例10-1:基于社区检测的通信业客户细分 306 10.5.2 案例10-2:“一带一路”沿线国家间贸易数据分析 311 本章小结 318 第11章 文本挖掘 319 11.1 分词技术 319 11.1.1 分词挑战 319 11.1.2 分词方法 320 11.1.3 常见分词工具 321 11.2 文本向量化 322 11.2.1 向量空间模型 322 11.2.2 文本特征选择 323 11.3 文本聚类 324 11.3.1 文本相似度计算 324 11.3.2 文本聚类过程 325 11.4 文本分类 325 11.4.1 文本分类的概念 325 11.4.2 常用文本分类算法 326 11.4.3 常用基准语料与模型评估标准 327 11.5 文本情感分析 328 11.5.1 文本情感分析的概念 329 11.5.2 文本情感分析技术 329 11.5.3 文本情感分析的应用 330 11.6 相关软件 331 11.6.1 数据采集工具八爪鱼 331 11.6.2 可视化内容挖掘软件ROST CM6 336 11.7 综合案例:基于微博的用户特征识别 337 本章小结 342 第12章 数据挖掘在客户关系管理中的应用 343 12.1 客户关系管理 343 12.1.1 客户关系管理概述 343 12.1.2 客户价值分析 344 12.1.3 客户细分分析 345 12.1.4 市场营销 345 12.1.5 客户关系管理的实施流程 346 12.2 客户生命周期分析 347 12.3 综合案例 350 12.3.1 案例12-1:旅游公司目录销售 350 12.3.2 案例12-2:电信客户细分与流失分析 354 12.3.3 案例12-3:航空公司客户价值分析 359 本章小结 365 第13章 数据挖掘在金融领域的应用 366 13.1 金融科技概述 366 13.2 数据挖掘在银行业中的应用概述 369 13.3 综合案例:信用风险分析 372 本章小结 377 第14章 数据挖掘在财务风险分析和预警中的应用 378 14.1 数据挖掘在财务风险管理中的应用概述 378 14.2 综合案例 380 14.2.1 案例14-1:上市公司财务报表舞弊识别 380 14.2.2 案例14-2:上市公司财务困境预警 382 本章小结 386 第15章 数据挖掘在电子商务中的应用 387 15.1 数据挖掘在电子商务中的应用概述 387 15.2 主要应用领域 388 15.2.1 网络客户关系管理 388 15.2.2 网站设计优化 390 15.2.3 推荐系统 391 15.3 综合案例 396 15.3.1 案例15-1:基于关联分析的淘宝网推荐 396 15.3.2 案例15-2 电商客户流失预警 398 本章小结 403 附录A 数据挖掘常用资源列表 404 参考文献 406
http://www.hxedu.com.cn/hxedu/fg/book/bookinfo.html?code=G0400120