教育>高职高专>计算机类
大数据分析及应用项目教程(Spark SQL)  

大数据分析及应用项目教程(Spark SQL)  "

作者:许慧
ISBN:9787121463631
定价:¥55.0
字数:341千字
页数:224
出版时间:2023-09
开本:16开
版次:01-01
装帧:
出版社:电子工业出版社
简介

本书以项目任务为载体串联知识与技能,介绍基于 Spark SQL 技术的大数据分析方法,培养 学习者使用 Spark SQL 技术解决实际数据分析问题的能力,主要内容有大数据分析概述、实践环 境准备、学生信息处理分析、房产大数据分析与探索、电商大数据分析与探索、Zepplin 数据可视 化。在实现任务的过程中详细阐述了 Scala 语言基础、Spark SQL 编程分析、Spark SQL 数据分 析与探索、数据可视化等知识。本书适合作为高等职业院校计算机、大数据、人工智能及相关专业的教材或参考书,也可以 作为数据分析人员的参考书。

前言

当前“大数据”已经渗透到人们生活、生产、学习等领域的各个角落中,数据量呈现爆发式增长。“数据不是黄金,数据指引黄金”,数据中蕴含的价值被广泛关注, 大数据分析越来越流 行。Spark SQL 作为 Spark 的核心技术之 一,提供了一个名为 DataFrame 的编程抽象,可以充当分布式 SQL 查询引擎,为大规模数据处理分析提供技术支持。 本书以项目任务为载体串联知识与技能,并对其进行讲解与实践操作,共分为 6 章。第 1 章通过“关于大数据分析”和“认识 Spark SQL”两个任务介绍大数据分析的 相关概念及 Spark SQL 的基础知识,使学习者对本书的内容有大致的了解。第 2 章通过 “Hadoop 集群环境搭建”、“Spark 集群部署与使用”和“安装 Scala”任务,为全书实践 环境及后续的数据分析做准备。第 3 章通过“班级基本情况分析”和“学生基本情况分 析”两个任务对 Scala 语言在数据分析中的应用展开讲解,为之后的数据分析编程打基 础。第 4 章通过“某房产公司销售人员业绩分析”和“某城市近年房产销售状况分析” 两个任务讲解 Spark SQL 各种操作和各个算子在数据分析中的使用方法。第 5 章通过“‘女 装电子商务评论’数据分析”和“‘在线销售订单’数据分析”两个任务讲解数据准备、 清洗、转换、分析、输出、查询过程中用到的 DataFrame 操作方法。第 6 章通过对第 5 章两个任务的数据可视化,介绍基于 Web 的 Notebook 数据可视化工具——Zepplin。对 于没有大数据技术基础或者基础薄弱的学习者,可以通过本书快速掌握大数据相关集群 环境的搭建部署和利用 Spark SQL 进行数据分析。 本书设计了课程资源(视频资源、PPT、源码、习题及答案、软件安装包,搭建好 的 Hadoop 集群、Spark 集群虚拟机镜像文件等)、课堂任务驱动设计、课后实验实训的 实施体系,为学习者提供了完整的学习路线。 本书可以作为大数据等相关专业的教材,授课内容和学时安排如下表所示。其中“第2 章 实践环境准备”内容可以拓展为“大数据集群环境搭建实训”的内容。 授课内容与学时安排 序 号 内 容 建 议 学 时 1 第 1 章 大数据分析概述 4 2 第 2 章 实践环境准备 6 3 第 3 章 学生信息处理分析 16 4 第 4 章 房产大数据分析与探索 16 续表 序 号 内 容 建 议 学 时 5 第 5 章 电商大数据分析与探索 14 6 第 6 章 Zepplin 数据可视化 8 合计 64 本书注重思政育人,深入学习贯彻党的二十大精神,挖掘并融入素质元素,每个项目任务的开篇位置都有“素质目标”栏目,体现思政与素质教学目标。 此外,本书所有章节均先进行“情景导入”,提出“学习目标和要求”,再进行任务分析、讲解,编程实践操作,脑图小结巩固,章节练习提升。同时,本书提供大量翔实 的源代码和操作步骤的图文,提高学习者对大数据分析相关技术的学习效率。 本书由衢州职业技术学院信息工程学院大数据技术专业教师编写,由许慧担任主编, 由王张夫、杨琳担任副主编。其中,第 1 章由杨琳编写,第 2、3、4、5 章由许慧编写, 第 6 章由王张夫编写,全书由许慧统稿。本书的编写得到了 2022 年浙江省“课程思政” 示范课程项目(项目序号:646)的资助。 为方便学习者使用数字资源,本书中嵌套了对应数字资源的二维码,可扫描书中相 应章节的二维码浏览学习。 为了方便教师教学,本书配有教学课件、课程大纲、授课计划、教案等相关资源, 请有此需要的教师登录华信教育资源网注册后免费下载,如有问题可在网站留言板留言 或与电子工业出版社联系(E-mail:hxedu@phei.com.cn)。 教材建设是一项系统工程,需要在实践中不断加以完善及改进,由于时间仓促、编 者水平有限,书中难免存在疏漏和不足之处,敬请广大读者给予批评和指正。 编者

目录

第 1 章 大数据分析概述 ..........................................................................................1 任务 1.1 关于大数据分析............................................................................................. 1 情境导入 ........................................................................................................ 1 学习目标和要求 ............................................................................................ 1 1.1.1 什么是大数据分析 ............................................................................ 2 1.1.2 大数据分析工具 ................................................................................ 5 1.1.3 大数据分析可视化 ............................................................................ 8 任务 1.2 认识 Spark SQL ............................................................................................. 8 情境导入 ........................................................................................................ 8 学习目标和要求 ............................................................................................ 8 1.2.1 Spark SQL 的背景简介 ..................................................................... 9 1.2.2 Spark SQL 的运行原理 ................................................................... 10 脑图小结......................................................................................................................... 14 章节练习......................................................................................................................... 16 第 2 章 实践环境准备 ...........................................................................................17 任务 2.1 Hadoop 集群环境搭建 ................................................................................. 17 情境导入 ...................................................................................................... 17 学习目标和要求 .......................................................................................... 18 2.1.1 环境准备 .......................................................................................... 18 2.1.2 安装 Hadoop..................................................................................... 35 2.1.3 启动 Hadoop 集群............................................................................ 45 2.1.4 运行经典案例 wordcount ................................................................ 48 任务 2.2 Spark 集群部署与使用 ................................................................................ 50 情境导入 ...................................................................................................... 50 学习目标和要求 .......................................................................................... 50 2.2.1 安装 Spark ........................................................................................ 50 2.2.2 启动 Spark ........................................................................................ 54 2.2.3 Spark 集群测试 ................................................................................ 56 任务 2.3 安装 Scala ..................................................................................................... 60 情境导入 ...................................................................................................... 60 学习目标和要求 .......................................................................................... 60 2.3.1 下载 Scala 安装包............................................................................ 61 2.3.2 Scala 安装配置................................................................................. 61 脑图小结......................................................................................................................... 62 章节练习......................................................................................................................... 63 第 3 章 学生信息处理分析 ....................................................................................65 任务 3.1 班级基本情况分析....................................................................................... 66 情境导入 ...................................................................................................... 66 学习目标和要求 .......................................................................................... 66 3.1.1 学生所属班级和男女生数量 .......................................................... 67 3.1.2 以班级为单位整理学生信息 .......................................................... 84 任务 3.2 学生基本情况分析....................................................................................... 96 情境导入 ...................................................................................................... 96 学习目标和要求 .......................................................................................... 96 3.2.1 学生特长情况分析 .......................................................................... 96 3.2.2 学生成绩情况分析 ........................................................................ 102 脑图小结....................................................................................................................... 105 章节练习....................................................................................................................... 106 第 4 章 房产大数据分析与探索 ...........................................................................108 任务 4.1 某房产公司销售人员业绩分析............................................................... 108 情境导入 .................................................................................................... 108 学习目标和要求 ........................................................................................ 110 4.1.1 数据集处理 .................................................................................... 110 4.1.2 数据操作分析 ................................................................................ 116 任务 4.2 某城市近年房产销售状况分析................................................................. 131 情境导入 .................................................................................................... 131 学习目标和要求 ........................................................................................ 132 4.2.1 数据准备 ........................................................................................ 132 4.2.2 数据探索与分析 ............................................................................ 134 4.2.3 总结分析 ........................................................................................ 139 脑图小结....................................................................................................................... 139 章节练习....................................................................................................................... 140 第 5 章 电商大数据分析与探索 ...........................................................................141 任务 5.1 “女装电子商务评论”数据分析........................................................ 141 情境导入 .................................................................................................... 141 学习目标和要求 ........................................................................................ 142 5.1.1 数据准备 ..................................................................................... 142 5.1.2 数据清洗 ..................................................................................... 152 5.1.3 数据转换 ..................................................................................... 157 5.1.4 数据分析 ........................................................................................ 162 5.1.5 数据输出 ........................................................................................ 171 任务 5.2 “在线销售订单”数据分析..................................................................... 173 情境导入 .................................................................................................... 173 学习目标和要求 ........................................................................................ 174 5.2.1 数据查询操作 ................................................................................ 174 5.2.2 数据分析探索 ................................................................................ 184 脑图小结....................................................................................................................... 191 章节练习....................................................................................................................... 192 第 6 章 Zeppelin 数据可视化 ............................................................................193 任务 6.1 Zeppelin 安装与部署.................................................................................. 193 情境导入 .................................................................................................... 193 学习目标和要求 ........................................................................................ 193 6.1.1 下载安装包 .................................................................................... 194 6.1.2 安装配置 ........................................................................................ 195 6.1.3 测试运行 Zeppelin ......................................................................... 199 任务 6.2 “女装电子商务评论”数据可视化......................................................... 203 情境导入 .................................................................................................... 203 学习目标和要求 ........................................................................................ 204 6.2.1 加载数据注册视图 ........................................................................ 204 6.2.2 执行 SQL 数据可视化................................................................... 208 任务 6.3 “在线销售订单”数据可视化................................................................. 212 情境导入 .................................................................................................... 212 学习目标和要求 ........................................................................................ 213 执行 Spark SQL 数据可视化 .................................................................... 213 脑图小结....................................................................................................................... 216 章节练习....................................................................................................................... 216

作者简介

编辑推荐

作者寄语

电子资料

www.luweidong.cn

下一个