
大数据导论是了解和学习大数据的基础,本书系统地讲解了大数据基本概念、大数据的架构、大数
据的采集方式和预处理、数据仓库的构建模式、大数据的存储,数据挖掘的方法及大数据的可视化技术,
从而更好地将大数据技术应用在各行业领域,更深入地开展大数据技术的应用研究。从基础开始,由浅
入深进行学习,逐步理清大数据的核心技术和发展趋势。
本书系统地讲解了大数据基本概念,尽可能希望通过理论与实际案例相结合,寻找合适的切入点,
让读者对理论知识的掌握更直接、更快速。可以作为培养应用型人才的课程教材,也适用于大数据初学
者对大数据基础理论有需求的广大读者。
前 言
数据挖掘是知识发现不可缺少的部分,是将未加工的数据转换为有用信息的过程。为了贯彻国家大数据战略,尽快帮助高职院校学生学习和掌握数据挖掘的基本知识以及基本应用技能,我们以通俗、简明并结合实际应用的方式编写了《数据挖掘基础》教材。
《数据挖掘基础》教材讲述了数据挖掘概念、数据挖掘的常用方法,包括分类方法、聚类方法和关联规则方法。此外,本教材还从实际应用出发,讲解了日志的挖掘与应用方法。
分类是数据挖掘中的一种重要方法,在给定数据基础上构建分类函数或分类模型,该函数或模型能够将数据归类为给定类别中的某一类别,就是分类。一般通过构建分类器实现具体分类,分类器是对样本进行分类方法的统称。本教材将对分类的基本概念及知识,如决策树、分类器、贝叶斯分类器、支持向量机等内容进行讲解和研究。
聚类的过程,就是将相似数据归并到一类的过程,形成同类对象具有共同特征,不同类对象之间有显著区别。聚类的目的是通过数据间的相似性将数据归类,并根据数据的概念描述来制定对应的策略。本教材将对聚类基本概念及常用算法进行讲解,着重研究了聚合分析方法,并介绍了聚类方法应用场景。此外,还详细讲解了聚类方法的实现例子。
关于关联规则,我们从营销界流传的“啤酒与尿布”经典案例入手,介绍关联规则的概念、定义和分类,并分析了关联规则的挖掘过程,包括频繁项集产生、强关联规则和关联规则评价标准,重点介绍了关联规则最为经典的算法—Apriori算法,并分析了关联规则挖掘技术在国内外的应用现状,以及关联规则挖掘实例。
日志分析挖掘的综合实战章节讲述了日志概念、日志处理、日志分析原理及工具、日志挖掘应用,以及日志分析挖掘实例。
我们衷心希望本教材可以帮助读者学习到数据挖掘的基础知识,掌握数据挖掘的基本方法,以及体会到数据挖掘在实际应用中的精妙之处。
感谢编写组的全体老师,他们相互鼓励、相互学习、相互促进,为《数据挖掘基础》教材的编写付出了辛勤的劳动!本书的问世也要感谢清华大学出版社王莉编辑给予的宝贵意见和指导。
《数据挖掘基础》编写组
2018年5月
第1章 大数据的概念及其应用
1.1 大数据的概念
1.2 大数据的来源
1.3 大数据的特征及意义
1.4 大数据的表现形态
1.5 大数据的应用场景
1.5.1大数据在企业中的应用
1.5.2大数据在物联网中的应用
1.5.3大数据在在线社交网络的应用
1.5.4 大数据在健康和医疗中的应用
1.5.5 大数据在群智感知中的应用
1.6 习题
第2章 大数据的架构
2.1云计算
2.1.1 云计算(Cloud Comptuing)的概念
2.1.2 云计算的特点
2.1.3 云计算的服务方式
2.1.4 云计算的应用
2.2 大数据架构介绍
2.2.1 大数据的分类
2.2.2 数据类型
2.2.3 大数据解决方案
2.3 Hadoop体系架构
2.3.1 Hadoop概述
2.3.2 Hadoophe核心组件
2.4 上机与项目实训
2.5习题
第3章 大数据采集及预处理
3.1 大数据采集
3.1.1 概念
3.1.2 采集工具
3.1.3 采集方法
3.2 数据预处理
3.2.1 数据清洗
3.2.2 数据集成
3.2.3 数据转换
3.2.4 数据规约
3.3 常用ETL工具
3.3.1 概念
3.3.2 常用ETL工具比较
3.4 习题
4.1 面临的挑战
4.1.1 系统问题
4.1.2 管理问题
4.1.3 应用问题
4.2 大数据存储方式
4.2.1 分布式系统
4.2.2 NoSQL数据库
4.2.3 云存储
4.3 数据仓库
4.3.1 数据仓库的组成
4.3.2 数据仓库的构建步骤
4.3.3 数据集市
4.4 习题
第5章 大数据分析
5.1 数据分析概念和分类
5.1.1 数据分析的概念和作用
5.1.2 数据分析的类型
5.2 数据分析方法
5.2.1 数据分析方法概述
5.2.2 数据来源
5.2.3 数据分析活动步骤
5.2.4 分析数据
5.3 数据挖掘
5.3.1 基本概念
5.3.2 数据挖掘常用算法
5.3.3 分类
5.3.4 聚类
5.3.5 关联规则
5.3.6 大数据挖掘工具
5.3.7 数据挖掘算法应用
5.4 上机与项目实训
5.5 练习与提高
第6章 大数据可视化
6.1 数据可视化基础
6.1.1 数据可视化的基本特征
6.1.2 数据可视化的作用
6.1.3 数据可视化流程
6.2 大数据可视化方法
6.2.1文本可视化
6.2.2网络(图)可视化
6.2.3多维数据可视化
6.3 大数据可视化软件与工具
6.3.1 Excel
6.3.2 Processing
6.3.3 ECharts
6.4习题 1
第7章 大数据的商业应用
7.1国外大数据应用经典案例
7.1.1 资源数量的重要性
7.1.2 数据之间的相关性
7.1.3 任何数据都存在商机
7.1.4 大数据新价值的挖掘
7.1.5 大数据在医疗行业的应用
7.2国内大数据应用经典案例
7.2.1 智慧城市
7.2.2 保险行业
7.2.3 智慧医疗
7.2.4 交通大数据
7.2.5 环境大数据
7.2.5.1 环境大数据概述
7.2.5.2 环境数据的采集与获取
7.2.5.3 环境数据的存储与处理
7.2.5.4 环境数据的应用
7.2.6农业
7.2.7 零售行业
7.2.8 大数据舆情分析
7.2.9 物流行业
7.2.10 房地产业
7.2.11地震面前,大数据来拯救
7.2.12 暑假出境游大数据分析
7.2.13 互联网大数据
7.3 习题
附录A Hadoop平台搭建
附录B 大数据和人工智能实验环境
参考文献
本书作者为大数据专业一线教师。本书首先详细介绍了大数据相关概念,接着介绍了大数据相关技术及其应用,最后介绍了大数据在各个行业的应用。在了解大数据的相关概念后,对大数据行业需要用到哪些技术有详细的了解,每种技术都给出了相应的运用工具,读者可以使用相应的工具来验证对应的技术;最后介绍的行业运用让读者对大数据在各个各业中起到的作用有深入的了解。本书侧重理论和实践的结合。
付雯,副教授,毕业于武汉大学国际软件学院,现就职与重庆电子工程职业学院软件学院,从事软件技术教育十余年。2017年荣获全国“大数据教育行业实践教学年度人物”。