
机器学习是计算机科学和人工智能中非常重要的一个研究领域。近年来,机器学习不仅在计算机科学的众多领域中大显身手,还成为一些交叉学科的重要支持技术。本书邀请国内外相关领域的专家撰文,以综述的形式分别介绍机器学习不同分支及相关领域的研究进展。全书共分8章,内容分别涉及稀疏话题表示学习、基于向量场的流形学习和排序、秩极小化、实值多变量维数约简等技术,知识挖掘与用户建模、异质人脸图像合成等应用,以及对多视图在利用未标记数据学习中的效用、面向高维多视图数据的广义相关分析的探讨。
本书可供高校、科研院所计算机、自动化及相关专业的师生、科技工作者和相关企业的工程技术人员阅读参考。
机器学习致力于“利用经验来改善系统自身的性能”。在计算机系统中,“经验”通常是以数据的形式存在的,要利用经验就不可避免地要对数据进行分析,因此,机器学习已逐渐成为计算机数据分析技术的源泉之一。随着人类收集和存储数据能力的不断增长以及计算机运算能力的飞速发展,利用计算机来分析数据的要求越来越广泛,越来越迫切,从而使得机器学习的重要性越来越显著。机器学习不仅是人工智能的核心研究领域之一,目前还成为计算机科学中最活跃、最受关注的领域之一。
2002年,陆汝钤院士在复旦大学智能信息处理实验室发起组织了“智能信息处理系列研讨会”,并将“机器学习及其应用”列为当年支持的研讨会之一。2002年11月,研讨会成功举行,并确定了会议不征文、不收费、报告人由组织者邀请,以及“学术至上,其他从简”的办会宗旨。2004年11月,在复旦大学举行了第二届“机器学习及其应用”研讨会,两天半的会议一直有100余人旁听。2005年起,研讨会由南京大学软件新技术国家重点实验室举办。2005年11月举办的第三届研讨会吸引了来自全国近10个省市的250余人旁听;2006年11月、2007年11月分别由南京航空航天大学信息科学与技术学院、南京师范大学数学与计算机学院协办第四届和第五届研讨会,两次均吸引了来自全国10余个省市的约300人旁听;2008年11月举行的第六届研讨会,适逢南京大学计算机学科建立50周年,吸引了来自全国10余个省市的380余人旁听;此后在2009年11月和2010年11月在南京大学分别举行了第七、八届研讨会,均有约400人旁听。2011年11月和2012年11月由清华大学自动化系、智能科学与系统国家重点实验室、清华大学信息科学与技术国家实验室(筹)举办第九届和第十届研讨会,这两次会议均有500多人旁听。
清华大学出版社对推介信息科学技术领域的研究进展一直抱有极大的热情。早在“第二届机器学习及其应用研讨会”举行时清华大学出版社就参与其中,并为该研讨会专门出版了文集,即2006年的《机器学习及其应用》。2005年第三届研讨会期间,出版社和与会专家商定,以后每两届研讨会的部分内容将汇编结集,以《机器学习及其应用+出版年》的形式冠名。第三至八届研讨会的部分内容已在《机器学习及其应用2007》、《机器学习及其应用2009》以及《机器学习及其应用2011》中出版面世。
本书是清华大学出版社邀请第九届和第十届“机器学习及其应用研讨会”的部分专家将报告内容总结而形成的文集。书中每篇文章讨论一个方面的问题,以综述形式介绍这个方面的研究工作,包括自己的研究工作。 本书收录的8篇文章, 每一位作者都投入了大量的时间和精力,深入浅出地介绍了一个领域的来龙去脉,并讨论其发展趋势。本书的出版得到了陆汝钤院士、王珏老师的支持和指导,并得到清华大学出版社计算机专著出版基金的资助,在此一并表示衷心的感谢。
编者
2013年8月
Learning Sparse Topical RepresentationsJun ZhuAonan ZhangEric P. Xing1
1Introduction1
2Related Work4
2.1Probabilistic LDA5
2.2Non\|negative Matrix Factorization6
3Sparse Topical Coding7
3.1A Probabilistic Generative Process8
3.2STC for MAP Estimation9
3.3Optimization with Coordinate Descent12
4Extensions14
4.1Collapsed STC14
4.2Supervised Sparse Topical Coding15
5Experiments16
5.1Sparse Word Code17
5.2Prediction Accuracy19
5.3Time Efficiency21
6Conclusion22
References23
多视图在利用未标记数据学习中的效用王魏周志华27
1引言27
2多视图在半监督学习中的效用29
3多视图在主动学习中的效用34
4多视图在主动半监督学习中的效用37
5视图分割38
6结束语39
参考文献40
知识挖掘与用户建模王海峰赵世奇向 伟徐 倩田 浩吴 甜47
1引言47
2技术综述49
3本体知识体系构建51
3.1知识挖掘52
3.2知识加工54
3.3语义计算55
3.4实验结果57
3.5基于本体知识的需求主题体系构建60
4跨产品用户日志挖掘61
4.1技术框架61
4.2跨产品用户数据session分割62
4.3跨产品用户数据关注点挖掘63
5用户建模64
5.1用户属性建模64
5.2用户兴趣建模67
5.3用户状态建模68
5.4多维度用户行为分析模型73
5.5用户兴趣模型的地域性关联分析76
6结语76
参考文献77机器学习及其应用2013
异质人脸图像合成高新波王楠楠79
1引言79
2基于子空间学习的图像合成方法80
2.1基于线性子空间学习的方法80
2.2基于流形学习的方法82
3基于贝叶斯推理的合成方法82
3.1基于嵌入式隐马尔科夫模型的方法82
3.2基于马尔科夫随机场的方法85
4基于人脸幻像思想的合成方法86
5实验结果89
6结束语91
参考文献92面向高维多视图数据的广义相关分析陈晓红陈松灿95
1引言95
1.1多视图数据95
1.2数据降维的意义与方法97
2基于相关分析的降维方法所面临的问题与解决方案99
2.1忽视多视图数据的监督信息99
2.2要求不同视图间的数据全配对101
2.3现有解决方案101
3我们的研究工作103
3.1半配对局部相关分析103
3.2半监督半配对广义相关分析110
3.3邻域相关分析121
4小结127
参考文献128基于向量场的流形学习和排序何晓飞133
1引言133
2平行向量场和线性函数134
2.1流形上半监督学习问题134
2.2平行向量场和线性函数135
2.3目标函数136
3离散化和优化137
3.1切空间和向量场离散化137
3.2梯度场计算137
3.3平行向量场计算138
3.4离散形式的目标函数139
3.5目标函数优化140
4基于平行向量场正则化的排序141
4.1向量场正则化142
4.2R1和R2的离散化143
4.3目标函数离散化143
4.4目标函数优化144
4.5实验145
5结束语与展望146
参考文献146秩极小化:理论、算法与应用林宙辰149
1引言149
2主要数学模型151
3理论分析152
4算法153
4.1加速近邻梯度法及其推广154
4.2交错方向法及其线性化157
4.3奇异值分解的计算159
5应用160
5.1背景建模160
5.2图像批量对齐160
5.3变换不变低秩纹理161
5.4运动分割163
5.5图像分割164
5.6图像显著区域检测164
6结束语166
参考文献166实值多变量维数约简单洪明张军平夏威171
1引言171
2实值多变量维数约简172
2.1切片逆回归法173
2.2切片逆回归的推广175
2.3主Hessian方向175
2.4子空间简介176
2.5稀疏充分维数约简180
2.6核维数约简181
2.7最小平方维数约简185
3树形结构的核维数约简186
3.1动机186
3.2树形算法的介绍187
3.3(残差)树形核维数约简187
3.4实验部分189
3.5结论195
4核维数约简在人群计数中的应用196
4.1核维数约简196
4.2多核学习197
5结论199
参考文献201