大数据项目实战

大数据项目实战"

作者:黑马程序员
ISBN:9787302550938
定价:¥39
字数:千字
页数:
出版时间:2020.03.01
开本:
版次:1-6
装帧:
出版社:清华大学出版社
简介

本书通过一个招聘网站岗位分析的案例,完整的呈现了大数据开发的过程。其中第1章对实训项目进行概述,让大家了解项目功能、明确实训项目的需求和目标;第2章带领大家搭建了大数据环境;第3章讲解了如何使用爬虫的方式采集数据;第4章讲解了数据预处理操作;第5章对处理后的数据进行分析;第6章通过一个web项目对数据分析结果可视化呈现。本书适合作为高等院校计算机相关专业的实训教程,也可作为广大编程爱好者的实践图书。

前言

目录

第1章项目概述1

1.1项目需求和目标1

1.2预备知识2

1.3项目架构设计及技术选取2

1.4开发环境和开发工具介绍3

1.5项目开发流程3

小结5

第2章搭建大数据集群环境6

2.1安装准备6

2.1.1虚拟机安装与克隆6

2.1.2虚拟机网络配置19

2.1.3SSH服务配置26

2.2Hadoop集群搭建31

2.2.1JDK安装31

2.2.2Hadoop安装33

2.2.3Hadoop集群配置35

2.2.4Hadoop集群测试39

2.2.5通过UI界面查看Hadoop

运行状态43

2.3Hive安装44

2.3.1Hive的安装模式44

2.3.2Hive的安装45

2.4Sqoop安装49

小结52

第3章数据采集53

3.1知识概要53

3.1.1数据源分类53

3.1.2HTTP请求过程54

3.1.3认识HttpClient57

3.2分析与准备57

3.2.1分析网页数据结构57

3.2.2数据采集环境准备59

3.3采集网页数据62

3.3.1创建响应结果JavaBean类62

3.3.2封装HTTP请求的工具类63

3.3.3封装存储在HDFS的工具类68

3.3.4实现网页数据采集70

小结72

大数据项目实战第4章数据预处理73

4.1分析预处理数据73

4.2设计数据预处理方案75

4.3实现数据的预处理76

4.3.1数据预处理环境准备76

4.3.2创建数据转换类77

4.3.3创建实现Map任务的Mapper类81

4.3.4创建并执行MapReduce程序83

4.4将数据预处理程序提交到集群中运行84

小结91

第5章数据分析92

5.1数据分析概述92

5.2Hive数据仓库92

5.2.1什么是Hive92

5.2.2设计Hive数据仓库93

5.2.3实现数据仓库95

5.3分析数据99

5.3.1职位区域分析99

5.3.2职位薪资分析100

5.3.3公司福利分析104

5.3.4职位技能要求分析105

小结106

第6章数据可视化107

6.1平台概述107

6.1.1系统介绍107

6.1.2系统架构107

6.2数据迁移108

6.2.1创建关系型数据库108

6.2.2通过Sqoop实现数据迁移110

6.3平台环境搭建112

6.3.1新建Maven项目112

6.3.2配置pom.xml文件114

6.3.3项目组织结构117

6.3.4编辑配置文件117

6.4实现图形化展示功能123

6.4.1实现职位区域分布展示124

6.4.2实现薪资分布展示128

6.4.3实现福利标签词云图132

6.4.4实现技能标签词云图137

6.4.5平台可视化展示141

小结142

作者简介

编辑推荐

本书通过一个对招聘网站岗位分析的案例,完整地呈现了大数据项目开发的过程。其中第1章对实训项目进行概述,让大家了解项目功能、明确实训项目的需求和目标;第2章带领大家搭建了大数据环境;第3章讲解了如何使用爬虫的方式采集数据;第4章讲解了数据预处理操作;第5章对处理后的数据进行分析;第6章通过一个Web项目对数据分析结果可视化呈现。

本书除了制作精美的教材外,还提供丰富的数字资源、在线咨询服务.

本书适合作为高等院校计算机相关专业的实训教程,也可作为广大编程爱好者的实践图书。

作者寄语

江苏传智播客教育科技股份有限公司(简称传智播客)是一家致力于培养高素质软件开发人才的科技公司,“黑马程序员”是传智播客旗下高端IT教育品牌。

电子资料

www.luweidong.cn

下一个