
书采用图形化的方法讲解人工智能和机器学习的知识与技术,并且借用图形化软件KNIME采用拖、拉、拽等“傻瓜式”的操作完成从简单到复杂的机器学习项目。全书分为三个部分,分别是人工智能技术入门、传统机器学习和深度学习。本书具有图说图解、自上而下、够用即止、实战掌握的特点,适合于作为人工智能入门者、人工智能技术应用者及高职高专院校理工科、本科院校非理工科专业学生的教材。
前 言 PREFACE 1. 创作经历 本书作者团队大部分成员就职于深圳信息职业技术学院(以下简称信息学院)。作者们初入职信息学院时,感觉凭借自己高学历教专科生简直是杀鸡用牛刀,但是往往几节课后就深感到拳头打在棉花上,甚至是如履薄冰。几乎任何一个公式都能让学生们面面相觑,几乎任何一个算法都能让学生们变成大眼瞪小眼。学生经常单刀直入地提问题,简单粗暴:“老师,我学了这个能干什么”,而鲜有学生会问:“这个问题怎么做”“这个问题哪里出错了”“我这样做行不行”。但是一旦“能干什么”的问题明确了,随之而来会源源不断地问“怎样做”。各种“惨痛”的经历告诉我们,不解决目标问题,大多数学生没有兴趣;不解决复杂度问题,大多数学生无法掌握。 本书大多数作者都有较高的学历和较多的研究经历,深知学习的艰难和痛苦,更对“知识就是力量”有深切的体会。在作者们的学习阶段,往往发现找到一本合适的入门书是那么得难,开始就啃业界大牛的著作往往是一个从入门到放弃的过程,或者因为很多书公式过多而影响了核心理念的掌握,导致入门如登天。结合在信息学院的授课经验,我们总结出“图说图解、自上而下、够用即止、实战掌握”的教学方法,希望带给大家一本不一样的入门书。 借用凯撒的一句名言,希望大家“我来,我见,我征服”。 2. 创作背景 我们如何才能迈向新时代呢?答案就是拥抱新动能,而人工智能是新动能中最有代表性的一个。虽然人工智能和机器学习作为热门词汇早已进入了人们的视野,但是它们究竟是什么,可能社会上绝大多数人还是不知道,更别说知道它们能干什么了。但是在国家顶层,早就预见到了其力量,“十九大”报告指出:“加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合”。在这个大时代,为了让更多的人搭上新时代的电梯,我们精心设计所有内容,确保能学、会用、可进阶。 3. 知识体系 全书分为三个部分,分别是人工智能技术入门、传统机器学习和深度学习。 人工智能技术入门:这部分包括第1章及第2章,第1章主要从历史发展角度讲述人工智能,第2章在技术层面上为今后的学习打下“够用”的数学基础和KNIME操作基础。 传统机器学习:这部分是本书的主要部分,包括第3章到第9章,分别介绍线性回归、模型优化、逻辑回归、支持向量机、决策树、深入理解决策树和贝叶斯模型。在这部分中,我们会逐步掌握KNIME的使用,更重要的是逐步掌握机器学习的流程、数据的处理、模型的使用等技术。其中第5章模型优化和第8章深入理解决策树不是入门必备知识,可以作为选修内容。 深度学习:这部分内容只包括第10章,仅仅简单介绍深度学习的入门知识和应用技术。 4. 特色 本书的特色可以概括为“图说图解,自上而下,够用即止,实战掌握”。 “图说图解”是本书最显而易见的特色。本书将所有深奥难懂的机器学习原理图形化地展现及讲解,让读者能够从直觉上理解而不是从概念或者公式上理解。配合图形化的机器学习工具KNIME,使读者能够更方便快速地入门机器学习,免去了编程这个令初学者望而却步的前提条件。为了保证这一点,我们制作了大量的原创图片用于讲解,精挑细选了开源、免费、影响力大并且功能无限制的KNIME作为工具。 “自上而下”是本书的核心特色。本书从内容上以机器学习模型为明线,在这条明线外还有两条按照“自上而下”的教学理念设计的暗线。第一条暗线就是使用KNIME工具,从大致流程的掌握到细节的掌握,保证读者能够从大局上知道自己在干什么,进而知道细节上应该怎样设置。第二条暗线就是机器学习知识和技术由宏观理解到具体技能掌握,保证读者能够从宏观上理解一个机器学习项目的流程,接着再去理解具体技术的细节。为保证这一点,本书从简单模型入手逐步深入到复杂模型,从使用“干净”数据逐步扩展到使用“脏”数据。 “够用即止”是本书降低读者入门门槛和学习负担的保障。本书省略了大量的理论推导和公式计算,仅通过图形化方法从概念上让读者理解算法的原理,具体操作时直接使用KNIME工具即可完成。而且对于机器学习应用者来说,大多数人也没有必要理解背后的理论及公式,即使之后不用KNIME而使用Python,也是编写几句代码就可以解决的,没有必要去深究理论。为了保证这一点,我们删除了大量的公式,增加了大量的图解。 “实战掌握”是验证本书是否成功的关键。纸上谈兵毕竟不是真本事,本书采用Kaggle机器学习平台的真实竞赛为实战项目,从入门项目泰坦尼克号到复杂项目银行客户分类,在实战中使读者逐步掌握机器学习的流程、模型的设置、数据清洗、非平衡数据的处理等问题。 5. 本书是什么 本书是一本机器学习的入门书。 本书是一本关于机器学习应用的书。 本书的目标是使一个高中水平的读者通过本书能够入门机器学习,并掌握足够的进一步提升的能力。 本书也可以看成是机器学习图解的KNIME软件教程。 6. 本书不是什么 本书不研究任何机器学习公式、理论。 本书不覆盖任何机器学习模型。 本书字不多。 7. 如何使用本书 对于具有理工科背景的同学来说,建议从头至尾学习每章内容以了解每个模型的原理及其应用。对于非理工科背景或者仅仅关心模型应用的同学,可以直接阅读模型使用部分,而将模型原理部分当作手册参考即可。 每章的最后都有课后练习部分,请大家仔细思考。所有答案、模型源文件和数据都可以扫描下面的二维码索取。 关注公众号查看本书所有答案、模型源文件和数据 更多反馈可以加作者微信进入图说图解机器学习交流群交流。 作者微信 8. 编写分工 耿煜:主笔,主要负责全书的组织设计、案例分析和整体结构。 李钦:案例搜集整理与筛选。 杨耿:深度学习案例与应用。 邱婉:图解设计及绘图。 9. 致谢 感谢深圳信息职业技术学院各位老师和同学的帮助,感谢深圳兆阳信息技术研究院各位工程师的协助,感谢我们的家人、朋友。没有你们的帮助就没有这本书的问世。
目 录 CONTENT ▲ 第1章 人工智能及机器学习概述...................................1 1.1 人工智能概述 ............................................................................1 1.1.1.人工智能简史...............................................................2 1.1.2.人工智能是什么...........................................................4 1.1.3.人工智能的能力...........................................................5 1.2 机器学习概述 ............................................................................5 1.2.1.机器学习是什么...........................................................5 1.2.2.以监督学习为例...........................................................6 1.2.3.学习任务......................................................................7 1.2.4.机器学习要解决的基本问题.......................................7 1.2.5.机器学习如何优化模型...............................................7 1.2.6.机器学习工作流程.......................................................7 1.2.7.机器学习的各大流派...................................................8 1.2.8.机器学习算法选择.......................................................8 1.2.9.需要的知识...................................................................9 1.3 深度学习概述 ............................................................................9 1.4 机器学习与统计学 ....................................................................9 1.5 课后练习 ..................................................................................10 ▲ 第2章 机器学习基础知识...........................................11 2.1 数学基础 ..................................................................................11 2.1.1.数据的分类.................................................................12 2.1.2.基本统计学术语.........................................................12 2.1.3.回归............................................................................14 2.1.4.最小二乘法.................................................................14 2.1.5.判断拟合好坏.............................................................15 2.1.6.小结............................................................................17 2.2 读图 ..........................................................................................17 2.2.1.数值数据的分布.........................................................17 2.2.2.分类数据的分布.........................................................18 2.3 KNIME .....................................................................................21 2.3.1.KNIME简介..............................................................21 2.3.2.下载和安装.................................................................21 2.3.3.KNIME基本使用.......................................................21 2.3.4.小结............................................................................28 2.4 课后练习 ..................................................................................28 ▲ 第3章 线性回归.........................................................29 3.1 简单线性回归 ..........................................................................30 3.1.1.场景说明....................................................................30 3.1.2.KNIME建立工作流...................................................30 3.1.3.数据获取....................................................................30 3.1.4.观察数据....................................................................31 3.1.5.数据划分....................................................................33 3.1.6.模型训练....................................................................34 3.1.7.模型测试....................................................................37 3.1.8.损失函数....................................................................37 3.2 多元线性回归初步 ..................................................................38 3.2.1.任务及数据说明.........................................................38 3.2.2.建立基本的工作流.....................................................38 3.2.3.读取并观察数据.........................................................39 3.2.4.整合界面....................................................................49 3.3 多元线性回归进阶 ..................................................................51 3.3.1.优化模型....................................................................51 3.3.2.正向选择节点.............................................................55 3.3.3.反向消除....................................................................58 3.3.4.模型解释....................................................................58 3.3.5.特征归一化.................................................................59 3.3.6.使用KNIME具体实现归一化..................................59 3.3.7.相关系数....................................................................60 3.4 课后练习 ..................................................................................61 ▲ 第4章 逻辑回归.........................................................63 4.1 逻辑回归基本概念 ..................................................................63 4.1.1.分类问题....................................................................63 4.1.2.从线性回归到逻辑回归.............................................65 4.1.3.判定边界....................................................................66 4.1.4.KNIME工作流..........................................................66 4.1.5.读取数据....................................................................67 4.1.6.数据处理....................................................................67 4.1.7.模型训练及测试.........................................................68 4.1.8.模型评价....................................................................69 4.2 逻辑回归实战 ..........................................................................71 4.2.1.泰坦尼克号生存问题背景介绍..................................71 4.2.2.读取数据....................................................................72 4.2.3.数据处理....................................................................73 4.2.4.数据可视化及删除无关列.........................................75 4.2.5.模型训练和测试.........................................................82 4.2.6.模型评价....................................................................83 4.2.7.提交结果....................................................................85 4.2.8.模型解释....................................................................89 4.3 课后练习 ..................................................................................90 ▲ 第5章 模型优化.........................................................91 5.1 梯度下降 ..................................................................................91 5.1.1.损失函数....................................................................92 5.1.2.使用KNIME优化模型..............................................96 5.2 正则化 ......................................................................................98 5.2.1.准确性和健壮性.........................................................98 5.2.2.复杂的模型.................................................................98 5.2.3.欠拟合和过拟合.........................................................98 5.2.4.正则化防止过拟合...................................................100 5.2.5.使用KNIME设置正则化........................................100 5.3 模型评价 ................................................................................101 5.3.1.混淆矩阵..................................................................101 5.3.2.F1..............................................................................103 5.3.3.ROC曲线和AUC...................................................104 5.4 课后练习 ................................................................................106 ▲ 第6章 支持向量机....................................................107 6.1 支持向量机基本概念 ............................................................107 6.1.1.支持向量机是什么...................................................107 6.1.2.支持向量是什么.......................................................108 6.1.3.逻辑回归与支持向量机的比较................................108 6.1.4.核..............................................................................110 6.1.5.线性核模型调参.......................................................111 6.1.6.非线性核模型调参...................................................113 6.1.7.C与 γ...........................................................................114 6.2 SVM初战 ..............................................................................114 6.2.1..问题说明..................................................................114 6.2.2.建立工作流...............................................................114 6.2.3.数据观察..................................................................115 6.2.4.模型训练与测试.......................................................117 6.2.5.观察结果..................................................................118 6.3 支持向量机解决泰坦尼克号问题 ........................................119 6.3.1.归一化......................................................................119 6.3.2.核函数......................................................................120 6.3.3.新建工作流...............................................................120 6.3.4.C参数.......................................................................123 6.4 一个重要的问题 ....................................................................124 6.5 课后练习 ................................................................................124 ▲ 第7章 决策树...........................................................125 7.1 决策树简介 ............................................................................125 7.1.1.决策树的优点...........................................................125 7.1.2.决策树的缺点...........................................................126 7.1.3.防止过拟合...............................................................126 7.1.4.问题解析..................................................................126 7.1.5.奥卡姆剃刀...............................................................128 7.1.6.提前结束..................................................................128 7.1.7.剪枝..........................................................................130 7.1.8.组合算法..................................................................131 7.1.9.Adaboosting...............................................................133 7.2 使用决策树解决泰坦尼克号生存问题 ................................135 7.3 决策树高级应用实战——特征工程 ....................................137 7.3.1.数据探寻..................................................................137 7.3.2.特征工程..................................................................143 7.3.3.异常数据处理...........................................................146 7.4 决策树高级应用实战——模型建立与比较 ........................149 7.4.1.决策树......................................................................149 7.4.2.袋装..........................................................................153 7.4.3.随机森林..................................................................157 7.4.4.提升..........................................................................159 7.5 课后练习 ................................................................................160 ▲ 第8章 深入理解决策树.............................................161 8.1 决策树进阶 ............................................................................161 8.1.1.如何构建决策树.......................................................161 8.1.2.ID3算法决定什么是最好的....................................162 8.1.3.CART算法决定什么是最好的...............................164 8.1.4.KNIME设置............................................................165 8.2 数据不平衡问题优化 ............................................................165 8.2.1.多数数据降采样.......................................................166 8.2.2.少数数据过采样.......................................................168 8.2.3.SMOTE算法............................................................170 8.3 课后练习 ................................................................................172 ▲ 第9章 贝叶斯分析....................................................173 9.1 贝叶斯定理 ............................................................................173 9.1.1.基本术语..................................................................173 9.1.2.条件概率..................................................................174 9.1.3.全概率和贝叶斯.......................................................176 9.1.4.贝叶斯定理...............................................................176 9.1.5.贝叶斯定理在机器学习中的应用............................177 9.2 贝叶斯算法解决银行客户分类问题 ....................................178 9.2.1.工作流......................................................................178 9.2.2.贝叶斯算法的学习器节点.......................................178 9.3 情感分析案例 ........................................................................179 9.3.1.安装插件..................................................................179 9.3.2.建立工作流...............................................................180 9.4 课后练习 ................................................................................183 ▲ 第10章 深度学习.......................................................185 10.1 深度学习简介 ......................................................................185 10.1.1.深度学习的关键.....................................................186 10.1.2.我们的目标.............................................................186 10.1.3.深度学习图像识别原理概述..................................187 10.1.4.图像识别探析.........................................................187 10.2 卷积神经网络(CNN) .....................................................189 10.2.1.CNN基本原理......................................................189 10.2.2.常用CNN模型......................................................193 10.3 KNIME实现卷积神经网络 ................................................195 10.3.1.环境构建.................................................................195 10.3.2.安装所需的工具.....................................................195 10.3.3.步骤分析.................................................................198 10.4 深度学习开源应用举例 ......................................................199 10.5 深度学习工商业应用举例 ..................................................201 10.6 课后练习 ..............................................................................205 ▲ 参考文献.......................................................................206
http://www.hxedu.com.cn/hxedu/fg/book/bookinfo.html?code=G0368260