教育>本科研究生>计算机类
样本数据处理  

样本数据处理  "

作者:许桂秋,朱婷婷,李春平
ISBN:9787121435737
定价:¥69.8
字数:538千字
页数:336
出版时间:2022-06
开本:16开
版次:01-01
装帧:
出版社:电子工业出版社
简介

本书从实用的角度出发,采用理论与实践相结合的方式,介绍样本数据处理的基础知识,力求培养读者使用Python语言及Kettle软件进行数据处理的能力。全书内容分别为数据预处理概述、Kettle工具的初步使用、数据的导入与导出、数据清洗、数据标注、Kettle作业设计、基于Kettle构建数据仓库、基于Python的数据导入与导出、基于Python的数据整理。 本书作为人工智能学科相关的样本数据处理技术的入门教材,目的不在于是覆盖样本数据处理技术的所有知识点,而是介绍样本数据处理的主要应用,使读者了解样本数据处理的基本构成,以及如何应对不同数据类型的数据预处理工作。为了增强实践效果,本书中引入了多个基础技术案例及综合实践案例,以帮助读者了解样本数据处理涉及的基本技术的知识和技能。 本书可作为高等院校数据科学与大数据技术、计算机、信息管理等相关专业课程的教材,也可供对样本数据处理技术感兴趣的读者阅读。

前言

数据预处理是数据挖掘前的准备工作,也是数据挖掘中关键的一步。数据预处理一方面保证数据挖掘的正确性和有效性;另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。 本书是由广东白云学院曙光大数据产业学院牵头,联合数据中国“百校工程”项目中的高校,以及广东白云学院白云宏产业学院老师共同编写的校企双元教材。 本书采用理论与实践相结合的方式,主要讲解如何通过Kettle和Python进行数据预处理,以及数据标注的一些知识。Kettle是一款国外开源的ETL工具,完全用Java编写,可以直接在已安装Java的Windows、Linux、UNIX上运行,数据抽取及处理高效、稳定。本书选择Python作为数据预处理的另一个手段,最主要的原因是一些工具不能处理的数据,需要通过编程来实现预处理。同时,随着人工智能技术的快速发展,新生代工具Python被人们广泛应用。Python它是极其适合初学者入门的编程语言,同时是万能的“胶水”语言,可以胜任很多领域的工作,是人工智能和大数据时代的“明星”。 全书共9章,。第1章为数据预处理概述;第2章~第7章介绍如何使用Kettle工具进行数据预处理;第8章、第9章介绍如何使用Python语言进行数据预处理。各章具体内容如下。 第1章介绍数据预处理的背景与、目的及工具,并详细阐述数据预处理的流程。 第 2 章介绍如何下载和安装Kettle,并通过一个数据转换案例讲解如何使用Kettle。 第 3 章详细介绍Kettle中输入与输出组件的使用,并结合案例讲解如何使用这些组件进行数据的导入与导出。 第 4 章侧重于导出数据的清理,除介绍选择过滤、分组、连接、排序这些常用的功能外,还介绍在Kettle中使用Java表达式、正则表达式、Java脚本等进行数据处理的功能。 第5章讲解数据标注的简介、分类和质量检验,并对图像数据标注实战和文本标注实战进行介绍。 第 6 章讲解如何进行Kettle作业的设计,包括作业的概念及组成、作业的执行方式、作业的创建及常用作业项、常量、监控、命令行启动、作业实验。 第7章为Kettle综合应用,介绍如何利用Kettle通过数据抽取、转换、加载等流程构建一个面向分析主题的数据仓库。 第8章主要介绍如何在Python中导入与导出各种类型的数据。 第9章介绍如何调用NumPy、Pandas这些库,并通过编程完成数据的清理工作。 本书高度重视实践能力的培养,章节中的每个知识点都有相应的实操案例,并配有截图,为读者展示了真实的、详尽的数据预处理场景,方便读者自学。 本书可作为高等院校数据科学与大数据技术、计算机、信息管理等相关专业课程的教材,参考课时为64学时。 本书在编写过程中得到了许多同行的指导,在此表示衷心感谢。由于编写水平有限,书中难免存在一些疏漏和不足之处,敬请广大读者批评指正。 编 者

目录

第1章 数据预处理概述 1 1.1 数据预处理的背景与目的 1 1.1.1 数据预处理的背景:数据质量 1 1.1.2 数据预处理的目的 3 1.2 数据预处理的流程 3 1.2.1 数据清洗 3 1.2.2 数据集成 5 1.2.3 数据变换 6 1.2.4 数据归约 9 1.2.5 数据预处理的注意事项 14 1.3 数据预处理的工具 14 本章习题 15 第2章 Kettle工具的初步使用 16 2.1 Kettle的安装 16 2.1.1 Java的安装 16 2.1.2 Kettle的下载安装与Spoon的启动 20 2.2 Kettle的使用 21 2.2.1 转换的基本概念 21 2.2.2 第一个转换案例 23 本章习题 42 第3章 数据的导入与导出 43 3.1 基于文件的数据导入与导出 43 3.1.1 文本文件的导入与导出 43 3.1.2 文本文件的导入与导出案例 45 3.1.3 Excel文件的导入与导出 51 3.1.4 Excel文件的导入与导出案例 51 3.1.5 XML文件的导入与导出 59 3.1.6 XML文件的导入与导出案例 59 3.1.7 JSON文件的导入与导出 64 3.1.8 JSON文件的导入与导出案例 65 3.2 基于数据库的数据导入与导出 69 3.2.1 关系数据库的数据导入与导出 69 3.2.2 MySQL数据库的数据导入与导出案例 71 3.3 基于Web的数据导入与导出 78 3.3.1 HTML数据的导入与导出 78 3.3.2 HTML数据的导入与导出案例 79 3.3.3 基于HTTP GET请求的导入与导出 83 3.3.4 基于HTTP GET请求的导入与导出案例 83 3.4 基于CDC变更数据的导入与导出 86 3.4.1 基于源数据的CDC 86 3.4.2 基于源数据的CDC案例 87 3.4.3 基于触发器的CDC 98 3.4.4 基于触发器的CDC案例 99 3.4.5 基于快照的CDC 109 3.4.6 基于快照的CDC案例 109 3.4.7 基于日志的CDC 113 3.4.8 基于日志的CDC案例 113 本章习题 116 第4章 数据清洗 117 4.1 数据清洗概述 117 4.1.1 Kettle常用的数据清洗步骤 117 4.1.2 字符串清理 119 4.1.3 字段清理 123 4.1.4 使用参照表清理数据 130 4.1.5 数据校验 136 4.2 数据排重 141 4.2.1 如何识别重复数据 141 4.2.2 去除完全重复数据 142 4.2.3 去除不完全重复数据 144 4.3 使用脚本组件进行数据清洗 147 4.3.1 使用JavaScript代码组件清理数据 147 4.3.2 使用正则表达式组件清理数据 149 4.3.3 使用其他脚本组件清理数据 152 本章习题 156 第5章 数据标注 157 5.1 数据标注简介 157 5.1.1 数据标注是什么 157 5.1.2 数据标注分类简介 158 5.1.3 数据标注流程简介 159 5.2 数据标注分类 160 5.2.1 图像标注 161 5.2.2 文本标注 164 5.2.3 语音标注 166 5.3 数据标注质量检验 167 5.3.1 数据标注质量的影响 167 5.3.2 数据标注的质量标准 169 5.3.3 数据标注质量检验方法 172 5.4 图像数据标注实战 175 5.4.1 车辆车牌标注 175 5.4.2 遥感影像标注 180 5.4.3 医疗影像标注 184 5.4.4 行人数据标注 188 5.4.5 基于行人标注数据集的行人检测 192 5.5 文本标注实战 198 本章习题 207 第6章 Kettle作业设计 208 6.1 作业的概念及组成 209 6.1.1 作业项 209 6.1.2 跳 210 6.1.3 注释 210 6.2 作业的执行方式 210 6.2.1 回溯 210 6.2.2 多路径和回溯 211 6.2.3 并行执行 211 6.3 作业的创建及常用作业项 212 6.3.1 创建作业 213 6.3.2 “START”作业项 213 6.3.3 “作业”作业项 213 6.3.4 “转换”作业项 215 6.4 变量 216 6.4.1 定义变量 216 6.4.2 使用变量 218 6.5 监控 218 6.5.1 日志 219 6.5.2 邮件通知 220 6.6 命令行启动 221 6.7 作业实验 223 本章习题 252 第7章 基于Kettle构建数据仓库 253 7.1 数据仓库的介绍 253 7.1.1 数据仓库的起因 253 7.1.2 数据仓库的发展 254 7.1.3 数据仓库的定义 255 7.1.4 数据仓库的特点 255 7.1.5 数据仓库的结构 255 7.1.6 数据仓库建模 256 7.1.7 数据仓库与ETL的关系 257 7.2 构建维度表 258 7.2.1 管理各种键 258 7.2.2 维度表的加载 262 7.2.3 缓慢变化维度 263 7.3 构建事实表 268 7.3.1 批量加载 268 7.3.2 查找维度 271 7.3.3 事实表的处理 271 本章习题 280 第8章 基于Python的数据导入与导出 281 8.1 Pandas 281 8.1.1 Series 282 8.1.2 DataFrame 284 8.2 文本文件的导入与导出 286 8.2.1 导入CSV文件 286 8.2.2 导出CSV文件 290 8.2.3 JSON格式数据的导入与导出 291 8.3 Excel文件的导入与导出 292 8.4 数据库的导入与导出 292 8.4.1 关系数据库的导入与导出 293 8.4.2 非关系数据库的导入与导出 294 本章习题 297 第9章 基于Python的数据整理 298 9.1 合并多个数据集 298 9.1.1 使用键进行DataFrame合并 298 9.1.2 使用index进行DataFrame合并 302 9.1.3 沿着横轴或纵轴串接 303 9.2 数据重塑 305 9.2.1 多级索引数据的重塑 305 9.2.2 应用pivot方法重塑数据 307 9.3 数据转换 310 9.3.1 移除重复数据 310 9.3.2 利用函数或映射进行数据转换 312 9.3.3 值转换 312 9.3.4 重命名轴索引 313 9.3.5 离散化和面元划分 314 9.3.6 检测或过滤异常值 317 9.3.7 排列和随机采样 318 9.3.8 计算指标/哑变量 319 本章习题 322

作者简介

编辑推荐

作者寄语

电子资料

www.luweidong.cn

下一个