
本书是学习大数据技术的入门教材,深入浅出地介绍了什么是大数据、大数据的价值及应用、大数据的架构、大数据的采集及预处理、大数据的存储、大数据分析、大数据可视化等,为学生提供在实践中解决大数据相关问题的思路和方法。本书贯彻理论精简的原则,注重科普性,突出实用性,可作为职业院校相关专业的选修课教材,也可供大数据技术初学者及有关技术人员阅读。
计算机信息技术的发展造就了数字媒体,5G时代的到来改变了人、媒体、信息之间的关系。在互联网的普及和影响下,人们的社会生活发生了巨大而深刻的变化。国内互联网三巨头BAT(百度公司、阿里巴巴集团、腾讯公司)的崛起和壮大,让我们的生活更安全、更便利,人们收发邮件、拍照、录像、撰写文稿、计算机绘图、编程、购物、交易、聊天等,每天都在源源不断地产生大量的数据。随着数据规模的急剧增长,大数据时代已悄然来临。近年来,大数据在政府决策部门、行业、企业、研究机构、医疗、教育等机构和领域得到了广泛的应用,并实际创造了价值。 数据作为人类活动的痕迹,就像金矿等待发掘。但是首先你得明确自己的业务需求,数据才可能为你所用。大数据真正重要的是新用途和新见解,而非数据本身。大数据的核心目标是数据驱动的智能化,是要解决具体的问题(可以是科学研究问题,也可以是商业决策问题,还可以是政府管理问题)。正如党的十九大报告中所提出的,要“推动互联网、大数据、人工智能和实体经济深度融合”。 世界上的一些大数据应用的成功案例,给我们最大的启示是让我们对数据有完全不同于以往的观点,特別是对数据的认知主动性。在此基础上,逐步培养我们的数据调用能力,包括数据获取能力、数据存储能力、数据预处理能力、数据呈现能力和数据决策能力。学生若具备了这些方面的能力与素养,并且能够较熟练地运用计算机进行大数据分析与处理,将来在工作中必定会如虎添翼,为基于具体业务场景下的数据分析提供支撑。 本书旨在为“数据科学与大数据技术专业”之外的其他专业的学生打开一扇了解大数据的窗户,深入浅出地介绍了什么是大数据、大数据的价值及应用、大数据的架构、大数据的采集及预处理、大数据的存储、大数据分析、大数据可视化等内容,为同学们提供在实践中解决大数据问题的思路和方法。 本书贯彻理论精简的原则,注重科普性,突出实用性,适合职业院校不同专业的学生学习。 本书由余战秋、蔡政策、钱春阳担任主编,由赵小龙、王嫱、张平担任副主编,朱晓彦、刘云、陈静、凌勇参与了编写。 限于编者的学识和水平,加之时间仓促,书中难免有所疏漏甚至错误,敬请各位专家学者及读者批评指正,提出宝贵意见! 编 者
第1章 大数据概述 1 1.1 大数据是什么 1 1.1.1 大数据是怎么来的 1 1.1.2 大数据的定义与特征 4 1.1.3 大数据与云计算、物联网、互联网之间的关系 5 1.2 大数据的意义及挑战 7 1.2.1 研究大数据的意义 7 1.2.2 大数据的异构性和不完备性 10 1.2.3 数据处理的时效性 10 1.2.4 数据安全与隐私保护 11 1.2.5 大数据的能耗 12 1.2.6 大数据管理易用性 12 1.3 大数据技术及应用 13 1.3.1 大数据技术框架 13 1.3.2 大数据处理工具和技术发展趋势 17 1.3.3 大数据的应用 19 【思考题】 25 第2章 大数据的架构 26 2.1 大数据平台架构简介 26 2.1.1 传统计算方式的数据瓶颈 26 2.1.2 大数据处理平台的技术架构 27 2.1.3 主流大数据架构 32 2.2 Hadoop体系架构 37 2.2.1 Hadoop体系架构简介 37 2.2.2 Hadoop的应用 48 2.2.3 Hadoop MapReduce的应用 50 2.2.4 Hadoop MapReduce应用实例 58 【思考题】 74 第3章 大数据的采集及预处理 75 3.1 大数据采集 75 3.1.1 大数据采集简介 75 3.1.2 常用大数据采集工具 81 3.1.3 常用的数据采集方法 88 3.1.4 Kafka概述 91 3.1.5 Kafka安装及使用 94 3.2 数据预处理 100 3.2.1 数据清洗 100 3.2.2 数据集成 104 3.2.3 数据变换 106 3.3 ETL技术及其工具 108 3.3.1 数据仓库技术ETL 108 3.3.2 常用ETL工具 111 3.3.3 Kettle 113 【思考题】 120 第4章 大数据的存储 121 4.1 大数据的存储方式 121 4.1.1 大数据存储综述 121 4.1.2 数据的存储方法 125 4.1.3 大数据的基础设施 128 4.1.4 大数据文件存储方式 136 4.1.5 大数据存储的特点及技术路线 142 4.2 数据仓库及开发模型 144 4.2.1 数据仓库简介 144 4.2.2 数据仓库模型设计 149 【思考题】 161 第5章 大数据分析 163 5.1 大数据分析概述 163 5.1.1 数据分析的概念和分类 164 5.1.2 大数据存在模式与结构大数据 167 5.1.3 大数据分析与数据分析的区别 169 5.1.4 大数据分析的背景及挑战 170 5.2 大数据分析工具及方法 170 5.2.1 大数据分析工具及手段 170 5.2.2 大数据分析方法 175 5.3 数据挖掘 192 5.3.1 数据挖掘概述 192 5.3.2 数据挖掘工具 194 【思考题】 199 第6章 大数据可视化 200 6.1 数据可视化概述 200 6.2 大数据可视化的实现 204 6.2.1 数据可视化方式 204 6.2.2 大数据可视化模式及应用 210 6.2.3 大数据可视化方法 210 6.2.4 大数据可视化的设计 217 6.3 主流大数据可视化工具及应用 220 6.3.1 Excel及应用 220 6.3.2 Processing及应用 221 6.3.3 NodeXL及应用 235 【思考题】 240 参考文献 241
http://www.hxedu.com.cn/hxedu/fg/book/bookinfo.html?code=G0367310