教育>本科研究生>计算机类
大数据导论  

大数据导论  "

作者:方建文,杨彩云
ISBN:9787121436116
定价:¥39.0
字数:243千字
页数:148
出版时间:2022-07
开本:16开
版次:01-01
装帧:
出版社:电子工业出版社
简介

本书从概念、思维、存储和处理、分析与应用等方面系统介绍了大数据的相关知识,主要内容包括:大数据的基本概念,大数据思维,大数据采集与获取技术,大数据批处理、流式处理和交互式处理框架,Hadoop?项目结构与技术分布,分布式并行编程MapReduce?模型,Spark?技术架构和基本流程,数据特征工程及数据可视化等内容,通过大数据与人工智能技术助力新冠疫情防控、非法集资预警、大型活动安全预警、智慧法院数据融合分析与集成应用等案例,再现场景、数据、数据分析特征选择及分析技术应用的过程,有助于读者对大数据技术、分析及应用有更深刻的体会和了解。本书可作为高等院校计算机、大数据等相关专业的大数据课程导论教材,也可供相关技术人员参考。

前言

数据分析在经济学、社会学、生物学、医学等领域有着悠久的历史,大数据的发展和应用也渗透到方方面面,让我们看到越来越多的数据驱动、数据使用、数据共享。应用型的大数据人才需求持续增长,需要对数据科学与大数据技术的相关专业开展跨学科、多层次、多类型的综合型数据人才培养体系建设。人工智能、物联网、大数据专业的互相融合,促成了跨学科综合性发展。为了尽早让学生对大数据、数据存储、管理、处理、思维、分析、应用等有全面的概要了解,对专业和学科的知识体系、数据工程项目的技术、工具有一个清晰的脉胳式了解,尽快进入大数据领域的学习,特编写了本书。 全书共?9?章分?4?个内容来设计:大数据基础,数据采集、存储与管理,大数据处理与分析,大数据安全与应用。第?1?章介绍大数据的基本概念、发展历程,我国大数据的基本情况等。第?2?章介绍大数据思维的模式特征,以及这些思维模式在科学研究、产品开发、社会治理及创新思维等方面的应用;第?3?章介绍大数据项目中的数据采集与获取技术;第?4?章主要讲述数据存储介质及模式、分布式文件系统及主流技术?HDFS、非关系型数据库、云数据库等;第?5?章主要讲述大数据处理框架的分类、Hadoop?集群项目上?MapReduce?和?Spark?两个代表性的分布式计算架构;第?6?章主要讲述大数据分析的基本方法、数据特征工程和可视化方法,重点介绍回归分析、决策树和深度学习及其应用;第?7?章主要讲述大数据所存在的安全隐患,介绍大数据安全、大数据隐私保护、大数据在安全领域的应用、我国大数据的法律法规等;第?8?章介绍大数据与云计算、物联网、人工智能及其相关关系;第?9?章通过一些典型案例分析讲述大数据技术在各行业中的应用。 本书由方建文教授撰写第?1、2、3、4、7、8、9?章,杨彩云撰写第?5、6?章。本书在编写过程中参考了很多优秀的教材、专著和网上资料,在此对所有被引用文献的作者表示衷心的感谢。 作为一本导论教材,本书的读者对象是地方应用型高校开设的“大数据”有关课程的本科生及相关技术人员。本书编写力求理论联系实际,在结合了一系列的数据理念、技术、应用的学习中,融入了数据应用的领域介绍,以加深对大数据技术和应用的兴趣、认识和理解。数据科学及应用广泛与工程、生产、商业等领域融合发展,以数据科学为突破口,将数据分析、数据计算应用于各个行业及领域是大趋势。数据科学工程应用主要由算法、数据、场景决定。通过本书了解数据在影响决策、进行预测、表达洞见中的关键作用,数据处理技术及工具后,可作为读者在数据科学与大数据技术领域进行更深入的挖掘和学习的引子。 最后,特别要感谢电子工业出版社的鼎力支持,以及本书编辑的辛勤工作。由于编者水平和能力有限,书中难免有不当之处,希望读者朋友不吝赐教。 编 者 2021?年?08?月

目录

第1章 大数据概述 1 1.1 数据 1 1.1.1 数据的概念 1 1.1.2 大数据的概念 1 1.2 大数据发展的技术背景 2 1.2.1 互联网技术的发展 2 1.2.2 存储技术的发展 2 1.2.3 计算能力的发展 2 1.3 大数据的主要来源 3 1.3.1 互联网大数据 3 1.3.2 传统行业大数据 3 1.3.3 音频、视频和数据 4 1.3.4 移动设备的实时记录与跟踪 4 1.4 大数据的特征 5 1.4.1 规模性 5 1.4.2 多样性 6 1.4.3 高速性 6 1.4.4 价值密度低 6 1.5 大数据的应用 6 1.5.1 大数据的应用环境 6 1.5.2 大数据的应用领域 7 1.6 中国的大数据产业链 7 1.7 我国大数据的发展态势 10 1.8 大数据与数字经济 12 第2章 大数据思维 14 2.1 大数据的思维特点 14 2.1.1 大数据的总体思维 14 2.1.2 大数据的非精确思维 15 2.1.3 大数据的非因果性思维 15 2.1.4 以数据为中心 16 2.1.5 大数据的运营思维 16 2.1.6 数据的收集 16 2.1.7 数据的分类 16 2.2 大数据的应用思维 17 2.3 大数据的价值思维 19 2.3.1 识别与串联价值 19 2.3.2 描述价值 19 2.3.3 时间价值 19 2.3.4 组合价值 19 2.3.5 预测价值 20 2.4 大数据的分析思维 20 2.5 大数据分析的特点 21 第3章 大数据采集与获取技术 25 3.1 数据源分布 25 3.2 内部数据 26 3.2.1 政府内部数据 26 3.2.2 各利益主体自营数据 26 3.2.3 物联网数据 27 3.2.4 互联网数据 27 3.3 内部数据获取方法 28 3.3.1 内部数据的ETL技术 28 3.3.2 常用ETL工具说明 30 3.4 外部数据及获取方法 32 3.4.1 网络数据源的特性与价值 32 3.4.2 网络爬虫 33 3.4.3 网络爬虫应用注意事项 34 3.5 深网的数据及获取的方法 35 3.5.1 深网的含义 35 3.5.2 深网数据的特点 36 3.5.3 深网数据的获取方法 36 第4章 大数据存储与管理技术 38 4.1 数据存储的基本概念 38 4.1.1 存储容量 38 4.1.2 存储性能 38 4.1.3 存储可靠性和可用性 39 4.1.4 存储成本 40 4.2 常用的数据存储介质 40 4.2.1 机械硬盘 40 4.2.2 固态硬盘 41 4.2.3 可记录光盘 42 4.2.4 U盘 42 4.2.5 闪存卡 43 4.2.6 数据存储介质的选择原则 43 4.3 数据存储模式 43 4.3.1 DAS 44 4.3.2 NAS 45 4.3.3 SAN 46 4.3.4 存储模型选择 47 4.4 大数据管理技术 47 4.1.1 文件系统 47 4.4.2 分布式文件系统 48 4.4.3 数据库 51 4.4.4 键-值数据库 52 4.4.5 分布式数据库 53 4.4.6 关系型数据库 54 4.4.7 数据仓库 55 4.4.8 文档数据库 56 4.4.9 图形数据库 57 4.4.10 云存储 58 第5章 大数据处理技术 61 5.1 大数据处理框架分类 61 5.1.1 批处理框架 61 5.1.2 流式处理框架 62 5.1.3 交互式处理框架 63 5.2 Hadoop 63 5.2.1 Hadoop?项目结构及技术分布 64 5.2.2 MapReduce?模型 65 5.3 Spark 67 5.3.1 技术架构 68 5.3.2 基本流程 68 5.3.3 Spark?程序运行流程 69 第6章 大数据分析技术 71 6.1 大数据分析的概念 71 6.2 大数据的处理流程 71 6.3 大数据分析的方法 72 6.4 数据特征工程 73 6.4.1 特征构建 74 6.4.2 特征选择 75 6.4.3 特征提取 76 6.5 大数据分析的主要技术 76 6.5.1 深度学习 76 6.5.2 知识计算 80 6.6 数据可视化 89 6.6.1 数据可视化分析方法 90 6.6.2 可视化分析的常用工具 92 6.6.3 数据可视化的应用举例 93 第7章 大数据安全 94 7.1 大数据安全概述 94 7.1.1 大数据安全的意义 95 7.1.2 大数据安全面临的问题 95 7.2 大数据隐私保护 97 7.2.1 数据保护与保密 98 7.2.2 国内隐私保护相关政策法规 98 7.3 典型案例 100 7.3.1 棱镜门事件 100 7.3.2 维基解密 101 7.3.3 Facebook?数据滥用事件 101 7.3.4 手机应用软件过度采集个人信息 102 7.3.5 12306?数据泄露 103 7.3.6 免费Wi-Fi?窃取用户信息 103 7.3.7 收集个人隐私信息的“探针盒子” 104 第8章 大数据与云计算、物联网、人工智能 105 8.1 云计算 105 8.1.1 云计算的概念 105 8.1.2 云计算的特点 105 8.1.3 云计算的分类 106 8.1.4 云计算的服务模式 107 8.1.5 主流的云计算厂商 108 8.2 物联网 111 8.2.1 物联网的概念 111 8.2.2 物联网的核心技术 111 8.2.3 物联网的特点 112 8.3 人工智能 113 8.3.1 人工智能的概念 113 8.3.2 人工智能的关键技术 114 8.4 大数据与云计算、物联网和人工智能的关系 116 第9章 大数据应用 118 9.1 大数据与人工智能技术在新冠疫情防控中的应用 118 9.1.1 助力新型冠状病毒疫情防控的进展 118 9.1.2 助力新型冠状病毒智能医疗诊断服务 119 9.1.3 助力新型冠状病毒疫苗研发和药物筛选 120 9.1.4 助力抗疫资源的生产组织与调度 120 9.1.5 助力新型冠状病毒疫情溯源与监测预警 121 9.2 大数据用于非法集资预警 122 9.2.1 挑战 123 9.2.2 实施过程/解决方案 123 9.2.3 效果总结 126 9.3 大数据在大型活动安全预警中的应用 126 9.3.1 问题分析 127 9.3.2 总体架构 127 9.3.3 核心技术 129 9.3.4 实际应用 130 9.4 ?“智慧法院”数据融合分析与集成应用 130 9.4.1 应用背景 130 9.4.2 ?“智慧法院”数据融合分析及集成应用示范平台架构 131 9.4.3 共性关键技术 133 9.4.4 应用案例 135 参考文献 138

作者简介

编辑推荐

作者寄语

电子资料

www.luweidong.cn

下一个