
大数据时代的机器学习和数据挖掘技术的作用日渐重要,受到了广泛的关注。本书立足于工程应用,将免疫智能计算方法引入机器学习领域,致力于研究基于生物免疫原理的机器学习软计算方法,以免疫计算智能的基本原理为线索,对其研究状况加以系统性的论述,从理论、算法构建及工程应用等方面对免疫机器学习进行介绍和分析。针对关联规则挖掘、数据分类、数据聚类、属性约简等机器学习及生物信息大数据挖掘等具体问题,提出一系列新方法,并结合深度学习和张量计算探讨了机器学习软计算方法的最新发展动态和方向。
前言 近些年,随着信息技术的飞速发展,以博客、社交网络、基于位置(LBS)服务为代表的新型信息发布方式的不断涌现,以及云计算、物联网等技术的兴起,在商务贸易和政府事务电子化、大规模工业生产过程中的智能监控和诊断、医疗领域的计算机诊断管理及科学计算等应用领域,产生了不断增长的海量数据源。数据正以前所未有的速度增长和累积,人类收集数据、存储数据的能力得到了极大提高,如何实现数据的智能化处理,从而充分利用数据中蕴含的知识与价值,已成为当前学术界与产业界的共识。在这样的大趋势下,人工智能、机器学习作为一种主流的智能数据处理技术,其作用日渐重要并受到了广泛关注。 机器学习是人工智能的核心研究领域之一。人工智能的根本在于智能——如何为机器赋予智能,而机器学习则是部署支持人工智能的计算方法。人工智能是科学,机器学习是让机器变得更加智能的算法。也就是说,机器学习成就了人工智能。基于人工智能所发展的仿生计算智能又为机器学习实践提供了强有力的工具。一般而言,经验对应于历史数据(如互联网数据、科学实验数据等),系统对应于数据模型(如决策树、支持向量机等),而性能则是模型对新数据的处理能力(如分类和预测性能等)。因此,机器学习的根本任务是信息和数据的智能分析与建模。 智能信息处理就是模拟人或自然界其他生物处理信息的行为,建立处理复杂系统信息的理论、算法和系统的方法和技术。其中,基于生物免疫机制发展而来的免疫计算智能信息处理技术是一门新兴的交叉学科。它与人工智能、人工生命科学、自动控制、运筹学、计算机科学、信息论、应用数学、仿生学、脑科学等有着密切的关系,是相关学科相互结合与渗透的产物。其主要面对的是不确定性系统和不确定性现象的信息处理问题,在机器学习、模式识别、复杂系统建模、分析和决策、系统控制、系统优化等领域具有广阔的应用前景。生物免疫系统是生命系统的主系统之一,免疫系统通过从不同种类的抗体结构中构造自己-非己非线性自适应网络,在处理动态变化环境中起着重要作用;同时它又具有高度自适应、分布、自组织等特性,蕴含着丰富的信息处理机理。免疫计算智能正是借鉴生物免疫系统信息处理机制而发展起来的智能信息处理技术。它具有噪声忍耐、无监督学习、模式识别、清晰的知识表达和学习记忆等进化学习机理,同时它吸取了传统进化计算、分类器、神经网络等的优点,从而提供了一种解决复杂机器学习问题的新选择。从工程上讲,它具有结合先验知识和免疫系统的适应能力;从信息科学讲,它具有强壮的鲁棒性和预处理能力。应当指出的是,基于免疫计算的机器学习和信息处理机制具有的多样性及其遗传机理,不仅可以用于全局进化的探索,改善已有进化算法中对局部探索不太有效的情况,而且在避免早熟及处理多准则和约束问题方面显示出良好的潜力。因而可能弥补神经网络等 “黑箱”式学习模型难以表达学习知识的缺陷,有助于人们对问题的论证,同时将免疫信息处理与其他计算智能方法的集成可用于解决其他智能系统等难以解决的复杂问题。 因此,为读者提供人工智能领域的基于免疫计算的机器学习相关算法、技术和问题解决过程中的实践经验,是本书撰写的宗旨。本书以各类免疫机器学习方法和算法为核心,在概括了人工智能与机器学习、机器学习与免疫计算等概念的基础上,对现代机器学习技术和发展进行了简要介绍。重点介绍了免疫计算的生物学机制,以及各类免疫机器学习方法在数据分类、数据聚类、关联挖掘、数据降维、规则约简及生物大数据中的具体应用。 全书分为七章,内容包括:第1 章绪论部分的人工智能、机器学习及免疫计算概念;第2 章主流机器学习技术与方法;第3 章免疫计算的基础原理;第4 章免疫关联规则挖掘方法;第5 章小生境免疫粗糙集属性约简方法;第6 章免疫阴性选择数据分类器;第7 章免疫网络在生物大数据中的应用。最后,还探讨了大数据背景下机器学习技术的发展方向,以及进一步研究的方向和面临的问题。 本书得到了国家留学基金项目、国家社科基金项目(14BJY066)、教育部人文社科青年项目(12YJCZH233)、湖南省自然科学基金项目(2016JJ2069)、国防科学技术大学博士后基金,以及广西跨境电商智能信息处理重点实验室培育基地等多方面的资助。同时,作者在科研和本书的撰写过程中得到了美国布兰迪斯大学Professor Hong、美国麻省理工大学Professor Yue 的支持和帮助,在此谨致以最诚挚的感谢。同时感谢国防科学技术大学张维明教授、广西财经学院王四春教授的指导和帮助。书中给出了主要算法实现机制和相应标准测试问题,便于读者使用和研究。另外,本书还参考和引用了一些论文和资料,在此也一并表示衷心的感谢。 感谢作者家人的大力支持和理解,将此书献给小女Penny,在美国访学一年中,是你陪伴着我完成了本书。最后感谢电子工业出版社的朱雨萌老师在本书出版过程中给予的大力帮助。 由于免疫计算及机器学习技术是一门新兴交叉学科,很多理论方法与应用技术问题还有待进一步深入探索和发展,加上作者学识所限,写作时间又十分仓促,因而书中难免存在不足之处,敬请专家和读者们批评指正。 作者 2017 年3 月 于美国 波士顿
目录 第1 章 诸论...............................................................................................1 1.1 引言............................................................................................................. 2 1.2 人工智能与机器学习................................................................................. 3 1.3 数据挖掘与机器学习................................................................................. 7 1.4 仿生计算智能与机器学习....................................................................... 12 1.5 免疫计算与机器学习............................................................................... 16 1.6 本书的内容及结构................................................................................... 20 参考文献........................................................................................................... 22 第2 章机器学习主流技术与方法............................................................. 29 2.1 机器学习的发展....................................................................................... 30 2.2 机器学习中的统计分析方法................................................................... 34 2.2.1 线性回归分析............................................................................... 38 2.2.2 非线性回归分析........................................................................... 40 2.2.3 多元线性回归分析....................................................................... 42 2.3 机器学习中的现代技术方法................................................................... 44 2.3.1 粗糙集........................................................................................... 45 2.3.2 遗传算法....................................................................................... 50? 2.3.3 神经网络....................................................................................... 54 2.3.4 深度学习....................................................................................... 60 2.3.5 支持向量机................................................................................... 62 2.3.6 强化学习....................................................................................... 72 2.3.7 度量学习....................................................................................... 75 2.3.8 多核学习....................................................................................... 77 2.3.9 集成学习....................................................................................... 78 2.3.10 主动学习..................................................................................... 80 2.3.11 迁移学习..................................................................................... 83 参考文献........................................................................................................... 85 第3 章免疫计算的基础原理.................................................................... 95 3.1 免疫计算生物学基础............................................................................... 96 3.1.1 免疫学基本概念........................................................................... 96 3.1.2 生物免疫系统的结构及组成....................................................... 97 3.1.3 免疫系统功能及机制................................................................. 102 3.2 人工免疫基本原理..................................................................................113 3.2.1 人工免疫系统基本概念..............................................................115 3.2.2 人工免疫系统基本原理及机制..................................................116 3.3 免疫计算学习及优化方法..................................................................... 120 参考文献......................................................................................................... 123 第4 章基于免疫聚类竞争的关联规则挖掘方法..................................... 127 4.1 基本概念及问题描述............................................................................. 128 4.2 数据表达及初始化................................................................................. 131 4.3 免疫关联规则挖掘................................................................................. 132 4.3.1 抗体聚类与竞争克隆................................................................. 132 4.3.2 抗体编码及初始化..................................................................... 135 4.3.3 抗体亲和力定义......................................................................... 138 4.3.4 抗体操作..................................................................................... 138 4.4 免疫关联规则挖掘方法及分析............................................................. 140 4.5 仿真实验及应用..................................................................................... 143 4.5.1 UCI 数据集仿真实验................................................................. 143 4.5.2 教学质量规则挖掘与分析......................................................... 145 参考文献......................................................................................................... 147 第5 章基于小生境免疫粗糙集属性约简方法......................................... 153 5.1 问题描述................................................................................................. 154 5.2 基本概念及理论..................................................................................... 155 5.3 属性信息编码及小生境免疫优化......................................................... 156 5.3.1 疫苗提取及初始抗体种群......................................................... 156 5.3.2 抗体编码及接种疫苗................................................................. 159 5.4 小生境免疫共享机制及免疫算子操作................................................. 160 5.5 算法执行过程......................................................................................... 163 5.6 试验仿真及应用..................................................................................... 165 5.6.1 实验1.......................................................................................... 165 5.6.2 实验2.......................................................................................... 168 5.6.3 实验3.......................................................................................... 170 参考文献......................................................................................................... 172 第6 章基于免疫阴性选择的数据分类器................................................ 178 6.1 问题描述................................................................................................. 179 6.2 基本概念及原理..................................................................................... 180 6.3 文本分类规则编码................................................................................. 182 6.3.1 个体编码..................................................................................... 182 6.3.2 亲和力定义................................................................................. 183 6.3.3 免疫优化..................................................................................... 184 6.4 掩码匹配的否定选择分类器................................................................. 184 6.5 免疫进化分类实现................................................................................. 186 6.6 仿真实验及应用..................................................................................... 187 6.6.1 实验一......................................................................................... 187 6.6.2 实验二......................................................................................... 188 参考文献......................................................................................................... 194 第7 章免疫网络在生物信息学中的应用................................................ 198 7.1 基本概念及问题描述............................................................................. 199 7.2 人工免疫网络理论................................................................................. 201 7.2.1 aiNet............................................................................................ 201 7.2.2 AIRS ........................................................................................... 203 7.3 基于免疫进化网络理论的分类器......................................................... 205 7.4 仿真实验及应用..................................................................................... 208 7.4.1 数据准备与处理......................................................................... 208 7.4.2 仿真结果..................................................................................... 210 7.5 免疫进化网络分类器改进及应用......................................................... 213 7.5.1 基本概念..................................................................................... 213 7.5.2 免疫离散增量分类器设计......................................................... 214 7.5.3 分类器在模式生物识别中的应用............................................. 216 参考文献......................................................................................................... 219 总结及展望............................................................................................... 223
徐雪松副教授,湖南大学控制科学与工程专业博士,国防科学技术大学管理科学与工程专业博士后。美国布兰迪斯大学Volan National Center for Complex Systems访问学者、美国哈佛大学 Data Science Center 研究员、国家高级项目管理师、数据分析师。湖南省青年骨干教师培养对象,湖南商学院麓山青年学者。现为湖南省区域战略与规划研究基地—低碳技术经济研究中心副主任、湖南省物联网协会理事成员、IEEE Member、ACM Member及计算机学会会员。__eol__主要从事机器学习、复杂系统智能决策和方法研究工作。主持国家、教育部及省级课题11项,出版学术专著2部,主编省十二五规划教材1部。在国际SCI源刊及国内《电子学报》、《仪器仪表学报》、《应用数学学报》、《情报学报》、《统计研究》、《系统工程理论与实践》、《控制与决策》等刊物发表论文40余篇。担任国际SCI期刊Asian Journal of Control、Applied Mathematics & Information Sciences及《自动化学报》等知名期刊审稿人。授权国家发明专利2项、实用新型专利2项和国家软件著作权5项。__eol__