科技>计算机>计算机科学
数据挖掘(第2版)  

数据挖掘(第2版)  "

作者:王朝霞
ISBN:9787121455025
定价:¥88.0
字数:468千字
页数:308
出版时间:2023-05
开本:16开
版次:01-01
装帧:
出版社:电子工业出版社
简介

本书是《数据挖掘》的第2版,系统地介绍了数据挖掘的理论、方法与应用,包括数据特征分析及预处理、经典数据挖掘算法(分类、回归、聚类、关联规则和集成学习等)、大数据新常态下催生的数据分析方法(推荐系统、链接分析与网页排序、互联网信息抽取、日志挖掘与查询分析等)理论与方法。在此基础上,除第1章外,每章均有基于Python语言的实例应用。

前言

作为高级大数据人才培养丛书之一,本书第1版在电子工业出版社的支持下于2018年3月顺利出版,发行8000余册,被近20所高校选用作为相关专业教材。 在第1版教材使用过程中,我们接到许多有益的反馈;同时,信息技术突飞猛进,数据挖掘新技术层出不穷,广大读者迫切要求新版教材能敏锐捕捉时代技术特征、与时俱进。因此,从2021年下半年开始,我们开始着手第2版教材的编写工作。经过不懈努力,现在《数据挖掘(第2版)》面世了。第2版教材仍遵循第1版教材编写时的指导思想:理论与应用相呼应,基础与发展相配合,局部与全局整体联动。在保留第1版教材特色和风格的基础上,第2版教材还吸收了近年来数据挖掘方面的新知识、新内容。对数据特征分析及预处理、分类、回归、聚类、关联规则和推荐系统等方面的知识进行了扩展,增加了集成学习的知识。同时,进一步强调实践能力,除第1章外,其余章节均给出了大量编程实现案例,编程语言统一为Python。 一些同志参与了第1版教材的编写工作,第2版教材部分地继承了他们的成果,在此感谢他们的贡献。他们是施建强、陈建彪、张卫明、袁晓东等。 第2版教材由王朝霞主编。第1章由王伟嘉编写;第2章由宁亚辉编写;第3章由王振飞编写;第4章由李伦编写;第5章由曹洁编写;第6章、第8章由王朝霞编写;第7章由周钢编写;第9章由杨慧娟编写。王朝霞、宁亚辉和王伟嘉负责统稿工作。 由于作者水平有限,书中难免存在一些不足,敬请读者批评指正。 王朝霞 于陆军勤务学院

目录

第1章 绪论 1 1.1 数据挖掘的基本概念 1 1.1.1 数据挖掘的概念 1 1.1.2 大数据环境下的数据挖掘 2 1.1.3 数据挖掘的特性 3 1.1.4 数据挖掘的任务和功能 3 1.1.5 数据挖掘的对象 4 1.1.6 数据挖掘的过程 5 1.2 数据挖掘的起源及发展 6 1.3 数据挖掘的常用工具 9 1.3.1 商用工具 9 1.3.2 开源工具 10 1.4 数据挖掘的应用 12 习题 15 参考文献 16 第2章 数据特征分析及预处理 17 2.1 数据类型 17 2.1.1 属性与度量 17 2.1.2 数据集的类型 18 2.2 数据特征分析 19 2.2.1 描述数据集中趋势的度量 19 2.2.2 描述数据离散程度的度量 21 2.2.3 数据相关性分析 24 2.3 数据预处理 28 2.3.1 数据清洗 28 2.3.2 数据集成 34 2.3.3 数据规范化 34 2.3.4 数据规约 38 2.3.5 数据离散化 45 2.4 数据的相似性 47 2.4.1 数值属性的相似性度量 47 2.4.2 标称属性的相似性度量 49 2.4.3 组合异种属性的相似性度量 50 2.4.4 文本的相似性度量 52 2.4.5 离散序列的相似性度量 53 习题 55 参考文献 56 第3章 分类 57 3.1 分类概述 58 3.1.1 分类的基本概念 58 3.1.2 分类的过程 58 3.1.3 分类器性能的评估方法 59 3.2 决策树 61 3.2.1 决策树的基本概念 62 3.2.2 决策树的用途和特性 62 3.2.3 决策树的工作原理 63 3.2.4 决策树的构建步骤 64 3.2.5 决策树算法原理 65 3.3 贝叶斯分类 76 3.3.1 贝叶斯定理 76 3.3.2 朴素贝叶斯分类 77 3.3.3 贝叶斯分析 80 3.3.4 贝叶斯决策 80 3.3.5 贝叶斯估计 81 3.4 支持向量机 81 3.4.1 支持向量机的主要思想 82 3.4.2 支持向量机的基础理论 82 3.4.3 支持向量机的原理 87 3.5 实战:Python支持向量机分类 92 习题 95 参考文献 95 第4章 回归 98 4.1 回归的基本概念 99 4.1.1 回归分析的定义 99 4.1.2 回归分析的步骤 99 4.1.3 回归分析要注意的问题 100 4.2 一元回归分析 100 4.2.1 一元回归分析的模型设定 100 4.2.2 回归参数的最小二乘估计 102 4.2.3 基本假设下OLS估计的统计性质 104 4.2.4 误差方差估计 105 4.2.5 回归系数检验(t检验) 106 4.2.6 拟合优度和模型检验(F检验) 107 4.3 多元线性回归分析 108 4.3.1 多元线性回归模型 108 4.3.2 多元线性回归模型的假定 110 4.3.3 多元线性回归模型的参数估计 110 4.3.4 显著性检验 112 4.3.5 回归变量的选择与逐步回归 114 4.4 逻辑回归分析 116 4.4.1 逻辑回归模型 116 4.4.2 logit变换 117 4.4.3 估计回归系数 118 4.4.4 Logistic分布 118 4.4.5 列联表的Logistic回归模型 119 4.5 其他回归分析 120 4.5.1 多项式回归 120 4.5.2 逐步回归 120 4.5.3 岭回归 120 4.5.4 套索回归 121 4.5.5 弹性网络 122 4.6 实战:获得最大有效率时的药物用量 122 习题 127 参考文献 128 第5章 聚类 129 5.1 聚类基本概念 129 5.2 划分聚类方法 131 5.2.1 k-平均算法 132 5.2.2 k-中心点算法 134 5.3 层次聚类方法 137 5.3.1 层次聚类方法的分类 137 5.3.2 BIRCH算法 141 5.4 密度聚类方法 144 5.5 实战:Python聚类分析 147 5.5.1 Python实现k-均值划分聚类 147 5.5.2 Python实现BIRCH层次聚类 150 5.5.3 Python实现DBSCAN密度聚类 152 习题 153 参考文献 154 第6章 关联规则 155 6.1 基本概念 155 6.1.1 啤酒与尿布的经典案例 155 6.1.2 关联规则的概念 155 6.1.3 频繁项集的产生 159 6.2 Apriori算法:通过限制候选产生发现频繁项集 160 6.2.1 Apriori算法的频繁项集产生 160 6.2.2 Apriori算法描述 162 6.3 FP-growth算法 164 6.3.1 构造FP树 165 6.3.2 挖掘FP树 167 6.3.3 FP-growth算法 169 6.4 其他关联规则算法 170 6.4.1 约束性关联规则 170 6.4.2 增量式关联规则 171 6.4.3 多层关联规则 172 6.5 实战:购物篮关联规则挖掘 174 6.5.1 背景与挖掘目标 174 6.5.2 分析方法与过程 174 6.5.3 总结 176 习题 177 参考文献 177 第7章 集成学习 180 7.1 集成学习的概念 180 7.1.1 集成学习的构建 180 7.1.2 集成学习的优势 181 7.2 Bagging算法与随机森林算法 183 7.2.1 Bagging算法基本思想 183 7.2.2 Bagging算法流程 185 7.2.3 随机森林算法 185 7.3 Boosting算法 187 7.3.1 Boosting算法流程 187 7.3.2 Boosting系列算法 188 7.4 结合策略 189 7.4.1 投票方法 189 7.4.2 叠加方法 190 7.5 多样性 190 7.5.1 多样性的概念 190 7.5.2 多样性的作用 191 7.5.3 多样性的度量 192 7.5.4 多样性的构建 195 7.6 实战案例 196 7.6.1 鸢尾花数据集 197 7.6.2 集成学习算法 198 7.6.3 集成学习在鸢尾花数据集上的应用 200 7.7 本章小结 205 习题 205 参考文献 205 第8章 推荐系统 206 8.1 推荐系统概述 206 8.1.1 什么是推荐系统 206 8.1.2 推荐系统评测指标 207 8.1.3 推荐系统中的冷启动 210 8.2 基于内容的推荐 213 8.2.1 物品表示 214 8.2.2 物品相似度 217 8.2.3 用户对物品的评分 218 8.2.4 基于向量空间模型的推荐 218 8.3 协同过滤推荐 222 8.3.1 协同过滤的基本概念 222 8.3.2 基于用户的协同过滤 226 8.3.3 基于物品的协同过滤 228 8.3.4 隐语义模型和矩阵因子分解模型 230 8.4 基于标签的推荐 237 8.4.1 数据标注与关键词提取 238 8.4.2 标签分类 239 8.4.3 基于标签的推荐系统原理 240 8.5 实战:搭建一个电影推荐系统 243 8.5.1 数据准备与导入 243 8.5.2 电影热度值计算 244 8.5.3 电影相似度计算 244 8.5.4 指定标签下的电影统计 248 习题 250 参考文献 250 第9章 互联网数据挖掘 253 9.1 链接分析与网页排序 253 9.1.1 PageRank 253 9.1.2 PageRank的快速计算 259 9.1.3 面向主题的PageRank 260 9.1.4 时间序列分析 260 9.1.5 排序背后的机理探讨 262 9.1.6 重新思考时间序列 263 9.2 互联网信息抽取 264 9.2.1 互联网信息深度挖掘概述 264 9.2.2 典型应用模型构建 264 9.2.3 挖掘、存储与网络技术分析 265 9.2.4 数据信息采集管理 266 9.2.5 信息抽取方法与知识发现 267 9.2.6 智能决策 269 9.2.7 行业案例研究 270 9.3 日志挖掘与查询分析 272 9.3.1 互联网日志分析概述 272 9.3.2 挖掘分析技术方法 274 9.3.3 工具比较 275 9.3.4 海量数据挖掘过程展现与分析 276 9.3.5 行业应用举例 277 9.4 Python实战案例 280 9.4.1 PageRank Python实现 280 9.4.2 跨境电商运营潜在市场选择 282 9.4.3 天池“双11”日志数据挖掘示例 286 习题 290 参考文献 290

作者简介

编辑推荐

作者寄语

电子资料

www.luweidong.cn

下一个