
本书从最基本的概率统计学开始,全面、系统、形象而又深入地描述了数据挖掘的基础概念、应用领域以及常用算法。其中每一种数据挖掘算法都辅以通俗易懂的实例,使读者能够在直观性、趣味性中学习算法的具体流程,明白算法的实现过程。通过本书的学习,读者可以对数据挖掘的概念、应用和算法技术有一个清晰的理解和 认识,并可以熟悉相关统计学的基本原理。
前言 数据挖掘,作为大数据时代的关键技术及核心内容,其应用价值与日俱增。本书希望能够成为一本涵盖最广泛读者受众的科普型数据挖掘入门读物,并传递一种知识图形化的书写理念,以图形化的展现、言简意赅的语言、通俗易懂的实例来描述复杂的概率统计知识和数据挖掘常用算法,使得读者在新颖性、趣味性和直观性中读完本书后,对于数据挖掘的整体架构和关键知识点有所理解和掌握。复杂问题的图形简约化表示是本书的主要特点。 为什么要写作本书 一般来说,学习数据挖掘要求读者已经具备一定的专业水平和相关技能。本书从最基本的概率统计开始,由浅入深,由易到难,由总到分,使得普通读者也能够了解和掌握常规的数据挖掘理论和知识。 管理者:虽不用到一线从事具体的数据分析工作,但也需要一本通俗易懂的数据挖掘基础读物,通过学习能够对下属的工作方向给予指导。 客户经理: 如何开展针对性的营销活动,避免客户流失,这都需要数据挖掘知识。 产品经理: 如何促进产品的用户活跃和业务的有效使用,不仅要靠经验,数据才最有说服力。 工程师:一线的数据挖掘开发人员必然要掌握的。 分析师: 撰写经营分析报告数据挖掘知识必不可少。 教师:数据挖掘的参考书。 学生: 想从事数据分析和挖掘方面的工作,肯定是要学习的。 数据分析爱好者:一本通俗易懂的入门读物。 本书主要内容 本书基本上涵盖了学习数据挖掘需要掌握的大部分核心知识点,分为三境17章。第一境总体介绍数据挖掘概况和应用领域,第二境讲解基本概率统计知识,第三境具体描述了数据挖掘常用的十大算法。 致谢 本书的顺利出版离不开电子工业出版社博文视点编辑老师们的辛勤工作,在此表示最诚挚的感谢! 同时,对于本书的创作形式和书写理念,本书的出版人孙学瑛女士给予了最大的支持和保留,并提供了大量的指导和帮助。衷心感谢孙老师对本书的重视和欣赏,以及为本书出版所做的一切,并将终身难忘! 由于作者水平有限,书中不足及错误之处在所难免,敬请专家和读者给予批评指正。 易向军 2014年3月 读者与作者交流,新浪微博:@易向军-数据. 意见反馈请发邮件至:
第一境 昨夜西风凋碧树。独上高楼,望尽天涯路…… /10 1.1数据挖掘简介 / 11 开篇点题引五问 /12 大数据中求价值 /13 定义概述归特点 /14 知识决策跨领域 /15 架构特征多形式 /17 数据立方展多维 /19 功能挖掘四大类 /22 分类刻画类标识 /23 数据聚类辨亲疏 /24 预测未来训模型 /25 关联源自购物篮 /27 模型过程方法论 /28 十大算法成经典 /32 1.2数据挖掘应用 /33 行业推广多应用 /34 用户为王放心中 /36 指导运营全周期 /37 定位目标寻用户 /38 精准营销成闭环 /39 交叉产品有关联 /40 细分用户刻画像 /41 用户体验模型化 /43 指标评测建体系 /44 流失预警保用户 /45 跟踪评估验效果 /47 第二境 衣带渐宽终不悔,为伊 消得人憔悴…… /48 2.1概率定义 /49 浮生难料尽偶然 /50 一枚硬币抛正反 /51 引出随机小试验 /53 样本空间样本点 /54 事件三分包万象 /55 试验频率需频繁 /58 次数无限值极限 /59 描述概率定特点 /60 古典概型等可能 /61 事件B后A在前 /62 求出概率称条件 /65 独立事件A和B /67 抽签中奖公平性 /71 常用概率两公式 /76 交空并全划样本 /77 综合状态全概率 /78 前因后果贝叶斯 /80 2.2随机变量 /81 随机试验数量化 /82 统计规律双类型 /83 离散变量分布律 /84 硬币抛掷是一零 /85 分布函数连续型 /87 函数求导得密度 /89 高斯分布称正态 /91 标准正态分位点 /95 2.3数字特征 / 98 随机变量有特征 /98 平均取值是期望 /100 方差衡量偏离值 /101 标准开根同量纲 /103 变量关系协方差 /104 相关系数相关度 /105 研究总体要抽样 /108 抽样分布统计量 /109 2.4参数估计 /111 最小二乘估参数 /112 极大似然大概率 /116 区间估计置信度 /119 2.5假设检验 / 123 总体假设来检验 /124 服从正态抽样本 /125 统计量中验假设 /126 弃真取伪两错误 /127 显著检验小概率 /128 小概率中拒绝域 /130 检验流程出决策 /131 已知总体方差值 /132 检验中验均值 /133 第三境 众里寻她千百度,蓦然回首,那人却在,灯火阑珊处。 /134 3.1关联规则 / 135 购物篮中找关联 /136 数据事务若干项 /137 事务空间含项集 /138 置信支持提升度 /142 规则源于频繁项 /145 k项连接和剪枝 /146 生成非空规则集 /148 关联效果来评估 /149 3.2决策树 /155 决策思维成树形 /156 分类预测工作流 /161 原理基于信息熵 /162 信息增益条件熵 /164 节点拆分选特征 /170 3.3贝叶斯 /186 预测分类贝叶斯 /187 类别概率要最大 /188 分类数据新预测 /195 3.4聚类分析 / 196 物以类聚人以群 /197 样本变量定矩阵 /198 R型Q型换空间 /199 距离度量相似度 /200 系数聚类统计量 /202 标准样本选欧氏 /203 层次聚合归大类 /205 3.5神经网络 /209 神经网络神经元 /210 神经元中有加权 /211 输入映射输出层 /213 求出误差调参数 /214 权重偏置学习率 /216 实例分析模型流 /217 3.6线性回归 /222 研究身高引回归 /223 单自变量归一元 /224 最小二乘估回归 /226 数据差异总离差 /228 分为解释和误差 /229 判定系数拟合度 /230 多元回归建方程 /231 回归面中展二元 /233 求得回归系数解 /234 衡量拟合验效果 /236 3.7逻辑回归 /237 因变量中二分类 /238 二项逻辑回归式 /240 极大似然解方程 /242 预测分类符合率 /244 3.8因子分析 /245 相关变量纳因子 /246 因子构造筑模型 /248 因子载荷统计性 /251 衡量信息共同度 /252 方差贡献重要性 /253 因子分析四步曲 /254 构造因子求载荷 /255 旋转因子得命名 /260 因子组合求得分 /265 3.9信度分析 /268 设计问卷来调研 /269 信度检验可靠性 /270 3.10效度分析 /272 结构方程协方差 /273 测量模型内外生 /276 结构模型潜变量 /279 效度分析路径图 /280 提出假设依理论 /281 固定负荷识模型 /282 相关阵中估参数 /283