Python深度学习应用"

作者：（加）亚历克斯·盖利（AlexGalea）、（古）路易斯·卡佩罗（LuisCapelo）、高凯、吴林芳、李娇娥、朱玉

ISBN:9787302541967

定价:￥59

字数:千字

页数:

出版时间:2020.07.01

开本:

版次:1-1

装帧:

出版社:清华大学出版社

简介

本书介绍Jupyter、数据清洗、高级机器学习、网页爬虫、交互式可视化、神经网络、深度学习、模型构建、模型评估与优化、产品化处理等有关深度学习应用方面的内容。本书理论与实践并重、体系完整、内容新颖、条理清晰、组织合理、强调实践，包括使用scikitlearn、TensorFlow和Keras创建智能系统和机器学习解决方案，并将论述的重点放在实现和实践上，以便让读者更好地了解Python深度学习应用的实现细节。

本书适合所有对Python深度学习感兴趣的人士阅读。

前言

译者序在人工智能和大数据时代，学习机器学习的相关算法，探索深度学习的实现与应用，实现对大数据的分析和挖掘是十分重要的。本书以机器学习算法、神经网络与深度学习为基础，以Python为研发环境，以scikitlearn、TensorFlow和Keras等为主要工具，介绍如何有效地构建智能系统和机器学习的解决方案，并给出工程实践。书中由浅入深地介绍有关Python与Jupyter等基础知识，介绍数据清洗和高级机器学习技术(如监督学习、无监督学习、分类和回归等)，讨论Pandas、BeautifulSoup等机器学习与数据处理工具的使用，介绍数据采集和交互可视化方法。本书在对神经网络和深度学习进行介绍的基础上，给出基于scikitlearn、TensorFlow和Keras构建智能机器学习系统的解决方案，通过实例介绍构建智能系统的模型体系结构，通过对模型的性能评估和参数调优，向读者展示如何评估一个智能系统的性能。最后，通过深度学习模型的使用，创建智能应用系统。

原著作者Alex Galea和Luis Capelo均有多年从事Python数据分析、机器学习等相关智能系统工作的经验，是开源社区上的活跃人物，拥有scikitlearn、TensorFlow和Keras应用的丰富经验。由他们二人合作完成的这部著作，从实践角度出发，比较全面地介绍了基于scikitlearn、TensorFlow和Keras构建智能系统和机器学习的解决方案，并结合一些项目实例介绍了部分关键技术，原著的审校团队也拥有数据分析领域的丰富经验。我们认为，无论是对初学者还是有经验的开发人员来说，本书都是很有参考价值的，它不仅内容全面、强调实践，而且表达方式通俗易懂，且实践指导性较强。

本译著由高凯、吴林芳、李娇娥、朱玉合作翻译，最后由高凯完成了全书审校工作。在本译著的写作过程中，我们对部分相关概念进行了注释和说明，增加了对图注、表注的说明，并且对部分核心代码进行了标注。为忠实原著及方便排版，本书未对原文代码中的换行与缩进标记等进行改变，在上机运行示例中的代码时，请遵守Python语法及缩进规则。完整的可执行Jupyter Notebook文档可以从清华大学出版社官方网站中搜索本书后获取。运行代码时，应注意按Python语法与缩进规定书写。在本译著的写作过程中也得到了其他多方面的支持与帮助，高莘、杨铠成、徐倩、杨凯、江跃华、谢宇翔、李明奇、侯雪飞、杨聪聪等均提供了协助。在本译著的出版过程中，清华大学出版社的郭赛、焦虹等也给予了大力支持与协助，在此一并表示衷心感谢。

“信、达、雅”是我们翻译此书所追求的目标。尽管我们竭尽全力，但毕竟水平有限，译文中难免有不足和有待商榷之处，敬请读者批评指正。

译者2020年2月本书采用循序渐进的方法教您如何入门数据科学、机器学习和深度学习领域。本书的每个章节模块都建立在前一章学习的基础上，包含多个程序演示，使用真实的业务场景。借助这些高度相关的内容，您可以实践和应用所学习到的新技能。

在本书的第1～3章，您将学习入门级的数据科学方法，即Anaconda中的常用库，并借助真实数据集探索机器学习模型，这样可提高您的应用技巧和探索现实应用的能力。

从本书的第4章开始，您将学习神经网络和深度学习的相关知识。从现实Web应用的角度出发，您将学习如何训练、评估和部署TensorFlow和Keras模型。当您完成阅读时，您将掌握在深度学习环境中构建应用程序的知识，并创建精细的数据可视化和预测模型。

1. 谁适合阅读本书

如果您是一个即将迈入数据科学领域的Python程序员，那么这本书正适合您从头学习；如果您是一名有经验的软件开发人员、分析师或者从事数据处理的科研工作者，并想基于TensorFlow和Keras进行数据分析，那么这本书也是一本理想的参考书。在此，我们假设您已经熟悉Python、Web应用程序开发，Docker命令以及线性代数、概率论和统计学的相关概念。

2. 这本书包含哪些内容

第1章，Jupyter基础。本章涵盖Jupyter环境下数据分析的基础知识。本章将从Jupyter的使用和功能特征说明(例如Jupyter的魔术函数指令和标签)开始介绍，然后过渡到数据科学的具体内容。本章将在生动的Jupyter Notebook环境中探索数据分析，使用散点图(scatter plots)、直方图(histograms)和小提琴图(violin plots)等视觉辅助工具加深您对数据的理解。本章还将介绍构建简单的预测模型的方法。

第2章，数据清理和高级机器学习。本章将介绍如何在Jupyter Notebook环境中训练预测模型，如何构建基于机器学习的策略，有关机器学习的一些术语，如监督学习、无监督学习、分类和回归，以及使用scikitlearn译者注: scikitlearn是一个基于Python的开源机器学习库，可实现回归、分类、聚类、支持向量机、随机森林等算法，也可与Python的数值和科学库NumPy和SciPy等互操作。和Pandas译者注: Pandas是一个高性能的数据分析库，可用于数据的预处理和结构化等操作。进行数据预处理的方法。

第3章，网页信息采集和交互式可视化。本章将介绍如何采集网页、表单等数据，并使用交互式可视化方式研究数据。会首先讲解HTTP请求是如何工作的，重点关注GET请求以及请求响应状态码，然后将在Jupyter Notebook环境下基于Python使用Requests库构建HTTP请求。本章将介绍Jupyter Notebook如何渲染并呈现HTML，以及它和实际网页之间的互动操作。在提出网页请求后，您将看到如何使用BeautifulSoup译者注: BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。等工具解析HTML中的文本，并使用此库采集相关表单中的数据。

第4章，神经网络与深度学习简介。本章将帮助您构建和配置深度学习的环境，并介绍一些有特色的模型和案例。本章还将讨论神经网络及其起源思想，进一步探索神经网络的强大功能。

第5章，模型体系结构。本章将展示如何使用深度学习模型预测比特币的价格。

第6章，模型评估和优化。本章将展示如何评估一个神经网络模型，讲解如何调整网络的超参数以改善其性能。

第7章，产品化。本章将介绍如何通过一个深度学习模型创建可用的应用程序。将把第6章中的比特币预测模型部署为应用程序，使之能够通过创建新模型处理新数据。

3. 如何更好地使用本书

本书适用于对数据感兴趣、希望学习有关TensorFlow和Keras的知识以及开发应用程序的专业人士和学生。为了获得最佳的学习体验，您应该具备编程基础知识，并具有一定的Python应用经验。特别地，您应该对一些Python库(如Pandas、Matplotlib译者注: Matplotlib是一个在Python中绘制图形的库。和scikitlearn等)有所了解，这对您的学习非常有帮助。

4. 如何下载样例代码文件

读者可以通过访问清华大学出版社官方网站下载本书的程序样例代码。

可以按照以下步骤下载代码文件。

(1) 访问清华大学出版社官方网站。

(2) 在网页右上方的搜索框中输入书名并搜索，在本书的详情页面中单击“课件下载”图标。

(3) 文件下载完毕后，请使用以下工具解压文件。

 WinRAR/7Zip for Windows。

 Zipeg/iZip/UnRarX for Mac。

 7Zip/PeaZip for Linux。

本书的配套代码及相关资源可以通过扫描下方的二维码获取下载地址。

5. 书中的习惯用法与记号说明

本书采用如下习惯用法，记号说明如下。

代码段: 表明代码、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟URL、用户输入和Twitter句柄。下面示例中的NotebookApp就是这种类型的表示。

一个代码段被记成如下格式。fig, ax = plt.subplots(1, 2)

sns.regplot('RM', 'MEDV', df, ax=ax［0］,

scatter_kws={'alpha': 0.4}))

sns.regplot('LSTAT', 'MEDV', df, ax=ax［1］,

scatter_kws={'alpha': 0.4}))当需要着重表示某个特定代码段以引起您的注意时，相关代码行和项目用粗体标识。　　cat chapter-1/requirements.txt

　　matplotlib==2.0.2

　　numpy==1.13.1

　　pandas==0.20.3

　　requests==2.18.4命令行的输入或输出被表述为如下格式。　　pip install version_information

　　pip install ipython-sql粗体: 表示一个新术语、一个重要的词或您在屏幕上看到的词，例如出现在文本中的菜单或对话框中的词。例如“请注意write dress(白色礼服)的价格是如何用来填充missing values(缺失值)的。”

表示警告或重要的信息。

提示或小技巧。

6. 关于本书作者

Alex Galea: 拥有加拿大圭尔夫大学物理学硕士学位，毕业后一直从事职业数据分析工作，在攻读硕士学位、研究量子气体的工作时，他对Python产生了浓厚的兴趣。Alex目前正在进行Web数据分析的工作，而Python在他的分析工作中发挥了关键的作用，他经常在博客上撰写以数据为中心的项目，主要涉及Python和Jupyter Notebook等内容。

Luis Capelo: 一位接受过哈佛教育的分析师和程序员，在美国纽约专门从事数据科学产品的设计和开发，是福布斯(Forbes)数据产品团队的负责人。该团队负责调研新技术，以优化论文中提到的方法和性能，研发有关内容分发的相关技术。此前，他在Flowminder基金会领导了一支世界级的科学家团队，开发了预测模型，助力人文社区的建设。在此之前，他曾是联合国人文数据交换团队的成员，也是人文数据中心的创始人。作为一名古巴哈瓦那人，他是一家小型咨询公司的创始人和所有人，他的公司也致力于为新成立的古巴私营部门提供支持。

7. 关于本书审校人

Elie Kawerk: 他使用数据科学过程(包括统计方法和机器学习)从数据中生成观点，完成知识发现，喜欢用多年积累的数据分析技巧解决问题。

他接受过计算物理学的正规训练，曾经使用古老的FORTRAN语言在超级计算机的帮助下模拟原子和分子的物理现象，这个分析过程涉及很多线性代数和量子物理方程方面的知识。

Manoj Pandey: 一名Python程序员，也是PyData Delhi的创始人和组织者，经常从事研究和开发工作，目前正在与RaRe Technologies合作开展他们的孵化器计划(这是一个有关计算线性代数的项目)。在此之前，他曾与印度的初创公司和小型设计或开发机构合作过，并向很多业内人士教授有关Python和JavaScript的课程。

特步女鞋休闲鞋子秋冬季新款运动鞋官方旗舰店冬季女士轻便跑步鞋

优惠券：10元券

锐天运动专营店

券后价：109.00元

伯希和户外抓绒冲锋衣女三合一秋冬防风防水进藏旅游登山服男外套

优惠券：80元券

热卖尖货可

券后价：419.00元

第1章Jupyter基础/ 1

1.1基本功能与特征/ 2

1.1.1Jupyter Notebook是什么，为什么它如此有用/ 2

1.1.2Jupyter Notebook概览/ 4

1.1.3Jupyter特色/ 8

1.1.4Python库/ 14

1.2第一个数据分析实例——基于波士顿住房数据集/ 17

1.2.1使用Pandas DataFrame载入数据集/ 17

1.2.2数据集/ 22

1.2.3基于Jupyter Notebook的预测分析简介/ 26

1.2.4实践: 构建一个基于三阶多项式的模型/ 30

1.2.5使用分类特征完成对数据集的分段分析/ 35

1.3本章小结/ 41第2章数据清洗和高级机器学习/ 42

2.1准备训练预测模型/ 43

2.1.1确定预测分析计划/ 43

2.1.2机器学习的数据预处理/ 45

2.1.3实践: 准备训练“员工去留问题”的预测模型/ 55

2.2训练分类模型/ 64

2.2.1分类算法简介/ 64

2.2.2使用k折交叉验证和验证曲线评估模型/ 79

2.2.3降维技术/ 84

2.2.4训练员工去留问题的预测模型/ 85

2.3本章小结/ 93第3章网页信息采集和交互式可视化/ 94

3.1采集网页信息/ 95

3.1.1HTTP请求简介/ 95

3.1.2在Jupyter Notebook中实现HTTP请求/ 96

3.1.3在Jupyter Notebook中解析HTML/ 101

3.1.4实践: 在Jupyter Notebook中实现网页信息采集/ 107

3.2交互可视化/ 111

3.2.1构建DataFrame以存储和组织数据/ 111

3.2.2Bokeh简介/ 117

3.2.3实例: 使用交互式可视化探索数据/ 121

3.3本章小结/ 130第4章神经网络与深度学习概述/ 132

4.1什么是神经网络/ 132

4.1.1成功的应用案例/ 133

4.1.2为什么神经网络能够表现得如此出色/ 134

4.1.3深度学习的局限性/ 136

4.1.4神经网络的一般构成和操作/ 137

4.2配置深度学习环境/ 139

4.2.1用于深度学习的软件组件/ 139

4.2.2实例: 验证软件组件/ 141

4.2.3探索一个训练好的神经网络/ 143

4.2.4实例: 探索一个训练好的神经网络/ 148

4.3本章小结/ 150第5章模型体系结构/ 151

5.1选择合适的模型体系结构/ 151

5.1.1常见的体系结构/ 151

5.1.2数据标准化/ 156

5.1.3构建您的问题/ 157

5.1.4实例: 探索比特币数据集，为模型准备数据/ 159

5.2使用Keras作为TensorFlow接口/ 165

5.2.1模型组件/ 165

5.2.2实例: 使用Keras创建TensorFlow模型/ 167

5.2.3从数据准备到建模/ 168

5.2.4训练神经网络/ 169

5.2.5调整时间序列数据维度/ 169

5.2.6预测数据/ 172

5.2.7实例: 组建深度学习系统/ 173

5.3本章小结/ 176第6章模型评估和优化/ 177

6.1模型评估/ 177

6.1.1问题类别/ 177

6.1.2损失函数、准确率和错误率/ 178

6.1.3使用TensorBoard进行可视化/ 180

6.1.4实现模型评估的测度/ 182

6.1.5实践: 创建一个训练环境/ 187

6.2超参数优化/ 192

6.2.1针对神经层和神经元——添加更多的神经层/ 192

6.2.2迭代步数/ 194

6.2.3激活函数/ 195

6.2.4激活函数的实现/ 197

6.2.5正则化策略/ 198

6.2.6结果优化/ 199

6.2.7实践: 优化神经网络模型/ 200

6.3本章小结/ 202第7章产品化/ 203

7.1处理新数据/ 203

7.1.1分离数据和模型/ 203

7.1.2处理新数据/ 205

7.1.3实例: 处理新数据/ 208

7.2将模型部署为Web应用程序/ 210

7.2.1应用架构和技术/ 210

7.2.2部署和使用cryptonic/ 211

7.2.3实例: 部署深度学习应用程序/ 214

7.3本章小结/ 216

作者简介

编辑推荐

本书理论与实践并重，体系完整，内容新颖，条理清晰，组织合理，强调实践。它涵盖了使用Scikit-learn、TensorFlow和Keras创建智能系统和机器学习解决方案，并将论述的重点放在了实现和实践上，以便让读者更好地了解到基于Python的应用深度学习实现细节。

作者寄语

高凯汉族，教授，博士毕业于上海交通大学计算机应用技术专业，河北省省级重点学科“计算机软件与理论”中“信息检索与云计算”方向学术带头人，研究生导师，中国计算机学会高级会员，中国计算机学会CCF计算机应用专委常委，中国计算机学会CCF中文信息技术专委委员，河北省科技咨询业协会第六届理事会常务理事，英国学术期刊International Journal of Computer Applications in Technology副主编，国际学术会议International Conference on Modelling, Identification and Control程序委员会委员；主要研究方向为人工智能、大数据搜索与挖掘、网络信息检索、自然语言处理、社会计算等；多年主讲研究生课程《人工智能》、本科生课程《数据库原理与应用》，系河北科技大学教学名师；近年出版了《信息检索与智能处理》、《大数据搜索与挖掘》、《网络信息检索技术及搜索引擎系统开发》、《大数据搜索与挖掘及可视化管理方案》等学术专著；在电子工业出版社、清华大学出版社、国防工业出版社等出版了高等学校计算机规划教材《数据库原理与应用》、高等院校信息技

电子资料