科技>计算机>计算机基础
数据可视化与数据挖掘——基于Tableau和SPSSModeler图形界面

数据可视化与数据挖掘——基于Tableau和SPSSModeler图形界面"

作者:王国平
ISBN:9787121327025
定价:¥69.0
字数:385千字
页数:348
出版时间:2017-10
开本:16开
版次:01-01
装帧:
出版社:电子工业出版社
简介

数据可视化允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释,数据可视化技术在国内市场长期看好,而现阶段国内相关书籍相对较少,本书选择这个方向进行系统基础研究,希望为那些在想此领域有所发展的读者提供学习帮助。在本书中,我们首先介绍数据可视化的一些基本知识,随后重点介绍使用Tableau、SAS及SPSS Modeler的可视化界面进行数据分析与数据挖掘的方法。

前言

序 言 大数据时代正在变革着我们的生活、工作和思维,如何让大数据发挥出最大价值,最重要的手段就是进行数据可视化挖掘。利用可视化数据挖掘工具和技术,分析人员能够从全新的角度快速、轻松地挖掘信息,可视化数据挖掘使数据挖掘变得更简单,建模过程不需要编写代码,非技术出身的业务人员等,可以更好地利用数据做出决策。 本书基于Tableau 10.3和IBM SPSS Modeler 18.0编写,详细介绍了Tableau的数据连接、图形编辑、创建地图、表计算和聚合计算等功能,以及IBM SPSS Modeler的数据连接、CRISP-DM (跨行业数据挖掘标准流程)等功能。通过6个实际案例,重点介绍了可视化数据挖掘技术在电信、电力、医药、银行、电商和房地产等行业中的应用。 本书的内容 第1章介绍数据可视化和可视化数据挖掘的基本理论及其主要软件,前者包括Tableau、QlikView和Power BI,后者包括SPSS Modeler、Intelligent Miner和SAS Enterprise Miner。 第2章介绍Tableau Desktop 10.3的软件概括、数据类型、运算符及优先级、软件的安装与激活和Tableau的文件类型等。 第3章介绍Tableau Desktop可以连接的数据源,包括Excel文件、文本文件、Access、JSON文件、PDF文件、空间文件和统计文件等,还介绍了如何连接各类数据库,如Tableau Server、SQL Server、MySQL、Oracle等。 第4章首先介绍Tableau Desktop的维度和度量、连续和离散的概念和操作,然后介绍了工作区和工作表的等基础操作,最后详细介绍了表计算、创建字段、创建参数和聚合计算等高级操作。 第5章介绍如何使用Tableau 生成一些统计图形,如条形图、饼图、直方图、折线图、散点图、并排图、甘特图等,重点介绍了如何使用Tableau创建地图,包括设置角色、比较地图、添加字段信息、设置地图选项、创建分布图和自定义地图等。 第6章介绍IBM SPSS Modeler的发展历史、软件特点、软件算法、软件功能、安装过程和授权许可等。 第7章介绍使用IBM SPSS Modeler进行数据挖掘的6个基本步骤:业务理解、数据理解、数据准备、建立模型、评估模型和应用模型。 第8章介绍IBM SPSS Modeler的一些基本操作,包括连接到文件和连接到数据库,前者包括Excel文件、SAS文件、SPSS Statistics文件、变量文件和固定文件等,后者包括Oracle、SQL Server、DB2、MySQL等数据库。 第9章介绍IBM SPSS Modeler的数据流操作,包括生成数据流、添加和删除节点、连接数据流、修改连接节点和执行数据流等。 第10章介绍可视化数据挖掘在电信行业中的应用,根据客户流失数据,运用Logistic回归算法,建立了基于客户属性、服务属性和客户消费信息的客户流失预警模型。 第11章介绍可视化数据挖掘在电力行业中的应用,由于用电负荷具有季节性和周期性的特点,因此运用时间序列模型,同时我们选择时间序列中的专家建模器进行建模。 第12章介绍可视化数据挖掘在医药行业中的应用,根据患者的用药数据,应用K-Means聚类算法,建立了基于药物在人体的类胆固醇TC、Na、Ka等因素的药物效果聚类模型。 第13章介绍可视化数据挖掘在银行业中的应用,根据客户流失数据,运用判别分析模型,建立了基于客户的属性数据、信用等级和资产状况等因素的客户类型判别模型。 第14章介绍可视化数据挖掘在电商行业中的应用,根据客户流失数据,运用神经网络模型,建立了基于促销费用、促销前的销售额和促销后的销售额等因素的促销效果评价模型。 第15章介绍可视化数据挖掘在房地产行业中的应用,根据客户流失数据,运用CHAID决策树算法,建立了基于年龄、性别、学历、月薪和家庭人数等因素的购房决策树模型。 本书的特色 (1)内容全面,讲解详细 本书是一本实践性的可视化数据挖掘著作,详细介绍了常用软件,对于初次学习可视化数据挖掘的读者来说帮助较大,书中列出了每一步操作,便于读者的练习实践。 (2)由浅入深、循序渐进 本书从Tableau和IBM SPSS Modeler的简介、连接数据源、基础操作到高级操作,逐步深入,从易到难,由浅入深,循序渐进,适合可视化数据挖掘各个层次的读者阅读。 (3)案例丰富,高效学习 本书在介绍数据可视化和数据挖掘软件后,为了使读者快速提高数据分析的整体能力,结合6个实际案例对可视化数据挖掘的流程及步骤进行了详细全面的介绍。 本书的读者对象 本书的内容和案例适用于互联网、银行证券、电商、医药等行业数据分析用户进行可视化数据挖掘,可供高等院校相关专业学生以及从事可视化数据挖掘的研究者参考使用,也可作为Tableau和IBM SPSS Modeler软件培训和自学的教材。 由于编者水平所限,书中难免存在错误和不妥之处,请广大读者批评指正。 编者 2017年9月

目录

目录 序 言 1 第1部分 11 数据可视化篇 11 1.1 数据可视化 12 1.1.1 Tableau 13 1.1.2 QlikView 15 1.1.3 Power BI 15 1.2 可视化数据挖掘 16 1.2.1 IBM SPSS Modeler 16 1.2.2 Intelligent Miner 17 1.2.3 SAS Enterprise Miner 18 2.1 软件页面简介 20 2.1.1 开始页面 21 2.1.2 数据源页面 23 2.1.3 工作簿页面 24 2.2 数据类型 25 2.2.1 主要数据类型 25 2.2.2 更改数据类型 26 2.3 运算符及优先级 28 2.3.1 算术运算符 28 2.3.2 逻辑运算符 29 2.3.3 比较运算符 29 2.3.4 运算符优先级 29 2.4 软件安装 30 2.4.1软件下载 30 2.4.2安装步骤 31 2.4.3软件激活 35 2.5 文件类型 37 3.1连接到文件 39 3.1.1 Excel文件 39 3.1.2 文本文件 41 3.1.3 Access 43 3.1.4 JSON文件 45 3.1.5 PDF文件 47 3.1.6 空间文件 49 3.1.7 统计文件 51 3.1.8 其他文件 53 3.2连接到数据库 54 3.2.1Tableau Server 54 3.2.2 SQL Server 55 3.2.3 MySQL 56 3.2.4 Oracle 58 3.2.5 Amazon Redshift 59 3.2.6 更多数据库 61 4.1维度和度量 64 4.1.1 维度 64 4.1.2 度量 66 4.2连续和离散 67 4.2.1 连续字段 67 4.2.2 离散字段 68 4.3工作区操作 68 4.3.1“数据”窗格 69 4.3.2“分析”窗格 71 4.3.3工具栏 71 4.3.4状态栏 72 4.3.5卡和功能区 73 4.4工作表操作 74 4.4.1创建工作表 75 4.4.2复制工作表 75 4.4.3导出工作表 77 4.4.4删除工作表 77 4.5Tableau高级应用 78 4.5.1表计算 78 4.5.2创建字段 81 4.5.3创建参数 83 4.5.4聚合计算 90 4.5.5缺失值处理 92 5.1单变量图形 95 5.1.1条形图 95 5.1.2饼图 98 5.1.3直方图 100 5.1.4折线图 101 5.2 多变量图形 103 5.2.1散点图 103 5.2.2甘特图 105 5.3 地图 106 5.3.1设置角色 106 5.3.2标记地图 108 5.3.3添加字段信息 108 5.3.4设置地图选项 109 5.3.5创建分布图 112 5.3.6自定义地图 112 第2部分 114 可视化数据挖掘篇 114 6.1 软件简介 115 6.1.1 软件历史 115 6.1.2 软件界面 117 6.1.3 软件特点 123 6.2 算法及功能 124 6.2.1 软件算法 124 6.2.2 软件功能 125 6.3 软件安装及启动 127 6.3.1 软件安装 127 6.3.2 授权许可 131 6.3.3 启动软件 134 7.1 业务理解 137 7.2 数据理解 138 7.3 数据准备 138 7.4 建立模型 140 7.5 评估模型 140 7.6 应用模型 141 8.1 连接到文件 142 8.1.1 Excel文件 142 8.1.2 变量文件 143 8.1.3 固定文件 145 8.1.4 SAS文件 146 8.1.5 Statistics文件 146 8.2 连接到数据库 147 9.1 数据流操作 151 9.1.1 生成数据流 151 9.1.2 添加和删除节点 151 9.1.3 连接数据流 152 9.1.4 修改连接节点 153 9.1.5 执行数据流 155 9.2 图形制作 155 9.2.1 散点图 155 9.2.2 直方图 157 9.2.3 网络图 158 9.2.4 评估图 160 第3部分 162 案例实战篇 162 10.1 建模思路 164 10.2 Logistic回归 165 10.3 业务理解 167 10.4 数据理解 168 10.5 数据准备 171 10.6 建立模型 173 10.6.1 模型参数设置 173 10.6.2 模型运行结果 183 10.7 模型评估 187 10.7.1 模型精确度 187 10.7.2 模型拟合度 187 10.8 模型应用 189 10.9 小结 192 11.1 建模思路 194 11.2 时间序列模型 195 11.3 业务理解 196 11.4 数据理解 197 11.5 数据准备 198 11.6 建立模型 200 11.6.1模型参数设置 200 11.6.2 模型运行结果 216 11.7 模型评估 218 11.8 模型应用 220 11.9 小结 221 12.1 建模思路 223 12.2 聚类模型 224 12.3 业务理解 225 12.4 数据理解 226 12.5 数据准备 228 12.6 建立模型 230 12.6.1模型参数设置 230 12.6.2 模型运行结果 233 12.7 模型评估 236 12.8 模型应用 239 12.9 小结 241 13.1 建模思路 243 13.2 判别分析 244 13.3 业务理解 245 13.4 数据理解 246 13.5 数据准备 248 13.6 建立模型 249 13.6.1 模型参数设置 249 13.6.2模型运行结果 257 13.7 模型评估 262 13.8 模型应用 263 13.9 小结 265 14.1 建模思路 268 14.2 神经网络模型 269 14.2.1 神经元 270 14.2.2 多层感知器 272 14.2.3 径向基函数 273 14.3 业务理解 275 14.4 数据理解 276 14.5 数据准备 278 14.6 建立模型 280 14.6.1 模型参数设置 280 14.6.2模型运行结果 287 14.7 模型评估 291 14.8 模型应用 292 14.9 小结 294 15.1 建模思路 296 15.2 决策树模型 297 15.3 业务理解 299 15.4 数据理解 300 15.5 数据准备 303 15.6 建立模型 306 15.6.1 模型参数设置 306 15.6.2 模型运行结果 316 15.7 模型评估 318 15.7.1 模型精确度 318 15.7.2 模型拟合度 318 15.8 模型应用 320 15.9 小结 323 附录A 324 配置MySQL ODBC数据源 324 A1 添加数据源管理器 324 A2 选择相应的驱动程序 324 A3 连接数据库服务器 325 附录B 327 Tableau重要函数 327 B1 数字函数 327 B2 字符串函数 329 B3 日期函数 331 B4 类型转换 334 B5 逻辑函数 335 B6 聚合函数 337 B7 直通函数 338 B8 用户函数 340 B9 表计算函数 341 B10 其他函数 346 附录C 349 SPSS Modele函数 349 C1 信息函数 349 C2 转换函数 350 C3 比较函数 351 C4 逻辑函数 352 C5 数值函数 352 C6 三角函数 353 C7 概率函数 354 C8 位元整数运算 354 C9 随机函数 355 C10 字符串函数 356 C11 日期和时间函数 359 C12 序列函数 362 C13 全局函数 365 C14 空值和Null值处理函数 366 C15 特殊函数 366

作者简介

王国平,主要从事大数据分析与研究等工作,研究领域为数据可视化和数据挖掘技术,致力于可视化数据挖掘技术在国内各行业的应用与推广,现已出版《Tableau数据可视化从入门到精通》和《IBM SPSS Modeler数据与文本挖掘实战》两本相关专著。

编辑推荐

作者寄语

电子资料

www.luweidong.cn

下一个