
如何在保证本地训练数据不公开的前提下,实现多个数据拥有者协同训练一个共享的机器学习模型?传统的机器学习方法需要将所有的数据集中到一个地方(例如,数据中心),然后进行机器学习模型的训练。但这种基于集中数据的做法无疑会严重侵害用户隐私和数据安全。如今,世界上越来越多的人开始强烈要求科技公司必须根据用户隐私法律法规妥善地处理用户的数据,欧盟的《通用数据保护条例》是一个很好的例子。在本书中,我们将描述联邦学习(亦称联邦机器学习)如何将分布式机器学习、密码学、基于金融规则的激励机制和博弈论结合起来,以解决分散数据的使用问题。我们会介绍不同种类的面向隐私保护的机器学习解决方案以及技术背景,并描述一些典型的实际问题解决案例。我们还会进一步论述联邦学习将成为下一代机器学习的基础,可以满足技术和社会需求并促进面向安全的人工智能的开发和应用。
序言 人工智能安全 21 世纪初,人工智能(Artificial Intelligence,AI)进入以深度学习为主导的大数据时代,基于大数据的机器学习既推动了AI 的蓬勃发展,也带来一系列安全隐患。这些隐患来源于深度学习本身的学习机制,无论是在它的模型建造(训练)阶段,还是在模型推理和使用阶段。这些安全隐患如果被有意或无意地滥用,后果将十分严重。当前AI 安全已引起人们普遍的关注,各项的治理措施也因此积极开展。AI 治理有以下几个不同的维度,即技术、法律、经济和文化等。“联邦学习”(Federated Learning)正是在这个背景下提出和发展起来的,它主要从技术维度出发,重点研究其中的隐私保护 和数据安全问题。那么联邦学习是如何保护隐私和数据安全的?它包括两个过程,分别是模型训练和模型推理。在模型训练阶段,模型相关的信息可以在各方之间交换,但数据不能交换,因此各个站点上的数据将受到保护。在模型推理阶段,训练好的联邦学习模型可以置于联邦学习系统的各参与方,也可以供多方共享。这是联邦学习的具体过程,也就是它的定义。 本书是关于联邦学习的介绍,共11 章,内容丰富。从广度上看,书中讨论了四种联邦学习的基本类型,即横向联邦学习、纵向联邦学习、联邦迁移学习和联邦强化学习,还讨论了相关的联邦学习激励机制和分布式机器学习。从深度上看,书中包括原理、算法、平台和应用实例。本书作者杨强等均来自微众银行,他们都参与了联邦智能使能器(Federated AI Technology Enabler,FATE)的联邦学习平台的开发。本书的许多思想来源于这个实践,因此具有实用性。本书可以作为计算机科学、人工智能和机器学习专业的学生,以及大数据和人工智能应用程序开发人员的入门参考书,也可供本科高年级学生或者研究生、大学的教员和研究机构的研究人员阅读。 张钹 中国科学院院士,清华大学人工智能研究院院长
序言Ⅲ 前言Ⅳ 作者简介Ⅷ 第1 章 引言/1 1.1 人工智能面临的挑战/2 1.2 联邦学习概述/4 1.2.1 联邦学习的定义/5 1.2.2 联邦学习的分类/8 1.3 联邦学习的发展/11 1.3.1 联邦学习的研究/11 1.3.2 开源平台/13 1.3.3 联邦学习标准化进展/14 1.3.4 联邦人工智能生态系统/15 第2 章 隐私、安全及机器学习/17 2.1 面向隐私保护的机器学习/18 2.2 面向隐私保护的机器学习与安全机器学习/18 2.3 威胁与安全模型/19 2.3.1 隐私威胁模型/19 2.3.2 攻击者和安全模型/21 2.4 隐私保护技术/22 2.4.1 安全多方计算/22 2.4.2 同态加密/27 2.4.3 差分隐私/30 第3 章 分布式机器学习/35 3.1 分布式机器学习介绍/36 3.1.1 分布式机器学习的定义/36 3.1.2 分布式机器学习平台/37 3.2 面向扩展性的DML /39 3.2.1 大规模机器学习/39 3.2.2 面向扩展性的DML 方法/40 3.3 面向隐私保护的DML /43 3.3.1 隐私保护决策树/43 3.3.2 隐私保护方法/45 3.3.3 面向隐私保护的DML 方案/45 3.4 面向隐私保护的梯度下降方法/48 3.4.1 朴素联邦学习/49 3.4.2 隐私保护方法/49 3.5 挑战与展望/51 第4 章 横向联邦学习/53 4.1 横向联邦学习的定义/54 4.2 横向联邦学习架构/55 4.2.1 客户-服务器架构/55 4.2.2 对等网络架构/58 4.2.3 全局模型评估/59 4.3 联邦平均算法介绍/60 4.3.1 联邦优化/60 4.3.2 联邦平均算法/63 4.3.3 安全的联邦平均算法/65 4.4 联邦平均算法的改进/68 4.4.1 通信效率提升/68 4.4.2 参与方选择/69 4.5 相关工作/69 4.6 挑战与展望/71 第5 章 纵向联邦学习/73 5.1 纵向联邦学习的定义/74 5.2 纵向联邦学习的架构/75 5.3 纵向联邦学习算法/77 5.3.1 安全联邦线性回归/77 5.3.2 安全联邦提升树/80 5.4 挑战与展望/85 第6 章 联邦迁移学习/87 6.1 异构联邦学习/88 6.2 联邦迁移学习的分类与定义/88 6.3 联邦迁移学习框架/90 6.3.1 加法同态加密/93 6.3.2 联邦迁移学习的训练过程/94 6.3.3 联邦迁移学习的预测过程/95 6.3.4 安全性分析/95 6.3.5 基于秘密共享的联邦迁移学习/96 6.4 挑战与展望/97 第7 章 联邦学习激励机制/99 7.1 贡献的收益/100 7.1.1 收益分享博弈/100 7.1.2 反向拍卖/102 7.2 注重公平的收益分享框架/103 7.2.1 建模贡献/103 7.2.2 建模代价/104 7.2.3 建模期望损失/105 7.2.4 建模时间期望损失/105 7.2.5 策略协调/106 7.2.6 计算收益评估比重/108 7.3 挑战与展望/109 第8 章 联邦学习与计算机视觉、自然语言处理及推荐系统/111 8.1 联邦学习与计算机视觉/112 8.1.1 联邦计算机视觉/112 8.1.2 业内研究进展/114 8.1.3 挑战与展望/115 8.2 联邦学习与自然语言处理/116 8.2.1 联邦自然语言处理/116 8.2.2 业界研究进展/118 8.2.3 挑战与展望/118 8.3 联邦学习与推荐系统/119 8.3.1 推荐模型/120 8.3.2 联邦推荐系统/121 8.3.3 业界研究进展/123 8.3.4 挑战与展望/123 第9 章 联邦强化学习/125 9.1 强化学习介绍/126 9.1.1 策略/127 9.1.2 奖励/127 9.1.3 价值函数/127 9.1.4 环境模型/127 9.1.5 强化学习应用举例/127 9.2 强化学习算法/128 9.3 分布式强化学习/130 9.3.1 异步分布式强化学习/130 9.3.2 同步分布式强化学习/131 9.4 联邦强化学习/131 9.4.1 联邦强化学习背景/131 9.4.2 横向联邦强化学习/132 9.4.3 纵向联邦强化学习/134 9.5 挑战与展望/136 第10 章 应用前景/139 10.1 金融/140 10.2 医疗/141 10.3 教育/142 10.4 城市计算和智慧城市/144 10.5 边缘计算和物联网/146 10.6 区块链/147 10.7 第五代移动网路/148 第11 章 总结与展望/149 附录A 数据保护法律和法规/151 A.1 欧盟的数据保护法规/152 A.1.1 GDPR 中的术语/153 A.1.2 GDPR 重点条款/154 A.1.3 GDPR 的影响/156 A.2 美国的数据保护法规/157 A.3 中国的数据保护法规/158 参考文献/161