科技>计算机>网络与互联网
数据分析与挖掘——R语言

数据分析与挖掘——R语言"

作者:蔡银英,韦鹏程
ISBN:9787121415388
定价:¥52.0
字数:320千字
页数:200
出版时间:2021-07
开本:16开
版次:01-01
装帧:
出版社:电子工业出版社
简介

本书以R语言简介、数据挖掘基础为开篇,旨在让读者对所用工具及数据挖掘方法有所了解。随后的章节借助实际案例(数据挖掘网站用户行为分析及网页智能推荐、生活服务点评网站客户分群、水冷中央空调系统的优化控制策略、电商评价文本的主题特征词分析、均线投资策略等),从数据预处理、模型选择、算法介绍、R语言实现、结论分析及评价等方面进行详尽的论述,希望读者既可以了解数据分析与挖掘的一般流程及方法,又能对常用的算法及模型有所了解。每个案例分析都是一篇完整的论文,初学者通过它们可以了解数据分析与挖掘的一般流程及方法,有一定基础的读者可以思考算法的优劣与选择。不管是对数据分析与挖掘感兴趣的入门者,还是希望获得实践经验的初学者,都可以从本书中获得支持。

前言

随着移动互联网、物联网、云计算等信息技术产业的快速发展,信息传输、存储、处理能力快速上升,使得可存留数据量呈指数级递增。这些数据具有量大、多样、真实等特点,比传统的实验室数据更具有说服力,更有价值,而要从这些数据中获取信息,必将遇到数据难理解、难处理和难组织等问题,1998年美国科学家约翰·马西(John?Mashey)用“大数据”(Big Data)描述了这些挑战,引发了广泛的关注与思考。 大数据的出现改变了传统数据收集、存储、处理的方式,数据采集方式更加多样化,数据来源更加广泛,数据分析也从发现简单因果关系的传统模式演变为寻找丰富联系的相关关系。要从大数据中发现、挖掘出隐藏的、预先没有设定的、未知的、有潜在价值的关系、模式或趋势,需要解决两个方面的问题:一是处理数据的技术与工具;二是处理数据所需要的方法与模型。 常用的数据分析与挖掘工具有MATLAB、SAS、SPSS、Python、R语言等。MATLAB具有强大的科学与工程计算能力,以矩阵计算为基础,有丰富的可视化功能,但是不能提供专门的数据分析环境。SAS、SPSS都是非常知名的统计分析软件,SAS具有强大的数据管理及绘图功能,但是对程序的编译能力有较高要求;SPSS的界面非常友好,多数操作都可以通过拖曳鼠标、单击按钮来完成,但是稳健性不够。Python、R语言均是近几年知名度较高的开源软件,都具有强大的数据分析及可视化功能,相对来说,R语言能够为使用者提供更灵活的统计分析方法,所以本书选择R语言作为实现数据分析与挖掘的工具。 数据分析与挖掘以统计学为基础,实现描述性、预测性、指导性三个层次的分析目标与应用。常用的实现方法及模型有聚类分析、回归分析、决策树(分类算法)、关联规则分析、人工神经网络、遗传算法、可视化等。本书在第2章中简单介绍了分类与预测的部分模型,力图采用简明扼要的语言使读者能够对模型有所了解。 第3章到第7章,分别采用数据挖掘网站的用户脱敏数据、生活服务点评网站数据、水冷中央空调系统运行数据、电商网站的评价文本、单只股票数据介绍大数据分析与挖掘的一般方法,试着用简单易懂的模型、完整的分析流程、详尽的代码将分析工具R语言与分析模型融合在一起,让读者能够体会数据分析与挖掘的全貌。 本书的每一章节都是独立的,读者可以根据自己的需要选择阅读。第1章介绍R语言的简单用法,第2章对数据挖掘流程及方法进行简单介绍,第3章阐述采用混合推荐算法对网站用户进行网页智能推荐,第4章阐述采用聚类分析对网站客户进行分群,第5章阐述采用回归分析对水冷中央空调系统进行优化,第6章阐述采用LDA主题模型对评价文本进行分析,第7章阐述采用量化投资策略对股票的波段投资进行分析。 为了使分析过程容易理解并能实现分析目的,本书未详细比较与评价分析结果,同时在模型的选择上没有过多考虑适用性,这是本书的缺陷,读者在阅读的过程中如果有这方面的思考或需要相关的数据、完整的源代码,欢迎与我们联系(caiyy@cque.edu.cn)。 著 者

目录

第1章 R语言简介 1 1.1 获取R 1 1.2 R使用入门 4 1.2.1 R操作界面 4 1.2.2 RStudio窗口介绍 5 1.2.3 R的常用操作 6 1.3 R的简单操作 8 1.3.1 基本数学运算 8 1.3.2 变量 8 1.3.3 数据结构 9 1.4 R数据分析包 12 1.5 小结 12 参考文献 13 第2章 数据挖掘基础 14 2.1 数据挖掘的定义 14 2.2 数据探索及预处理 15 2.2.1 脏数据分析 15 2.2.2 数据特征分析 19 2.2.3 数据预处理 23 2.3 模型简介 27 2.3.1 聚类模型 27 2.3.2 回归模型 31 2.3.3 决策树 34 2.3.4 人工神经网络 35 2.3.5 关联规则分析模型 38 2.4 小结 42 参考文献 42 第3章 数据挖掘网站用户行为分析及网页智能推荐 44 3.1 背景与挖掘目标 44 3.2 用户分群 47 3.2.1 用户分群的分析方法 47 3.2.2 数据的抽取 48 3.2.3 数据的预处理与探索分析 49 3.2.4 用户分群结果 57 3.2.5 用户分群的应用 66 3.3 网页智能推荐 66 3.3.1 网页智能推荐的分析方法 66 3.3.2 数据的预处理 67 3.3.3 组合推荐模型 68 3.3.4 组合推荐结果 78 3.4 总结 78 3.4.1 相关结论及应用 78 3.4.2 相关的问题思考 78 参考文献 79 第4章 生活服务点评网站客户分群 80 4.1 背景与挖掘目标 80 4.2 分析方法与过程 81 4.2.1 数据抽取 82 4.2.2 数据探索 82 4.2.3 数据预处理 94 4.2.4 模型构建 102 4.3 小结 113 第5章 水冷中央空调系统的优化控制策略 114 5.1 背景及挖掘目标 114 5.2 分析的方法及流程 115 5.3 数据预处理 118 5.3.1 变量选取 118 5.3.2 数据探索 120 5.3.3 数据变换 130 5.4 优化控制模型 131 5.4.1 总耗电量与可控变量 132 5.4.2 冷却负载与可控变量 140 5.5 模型求解 144 5.5.1 工作日模型求解 144 5.5.2 确定状态值 148 5.6 总结 155 参考文献 156 第6章 电商评价文本的主题特征词分析 157 6.1 背景与挖掘目标 157 6.2 分析的方法及过程 158 6.2.1 评论数据采集 159 6.2.2 文本数据预处理 161 6.2.3 基于LDA主题模型的特征词分析 167 6.3 小结 169 参考文献 169 第7章 均线投资策略 171 7.1 背景及投资策略介绍 171 7.1.1 移动平均线相关理论介绍 172 7.1.2 名词及概念介绍 175 7.2 基于移动平均线的投资策略 176 7.2.1 单均线投资策略 177 7.2.2 双均线投资策略 177 7.3 双均线投资策略实际应用 178 7.3.1 双均线投资策略总体流程 178 7.3.2 数据获取 178 7.3.3 简单的K线图实现 179 7.3.4 均线模型 180 7.3.5 其他双均线策略的收益 188 7.4 主要结论及展望 189 7.4.1 结论 189 7.4.2 后续策略的展望 190 参考文献 191 致谢 192

作者简介

编辑推荐

作者寄语

电子资料

www.luweidong.cn

下一个