
本书揭示了云计算环境下的信息资源的形成与演化规律,设计云计算环境下的信息资源集成和服务的顶层框架,提出对应的集成方法和服务模式,突破其中的若干关键技术,并通过验证性应用本课题研究成果的推广应用提供最佳实践。
本书是国家社科基金重大项目“云计算环境下的信息资源集成与服务研究”(项目编号: 12&ZD220)的代表性成果之一。自2012年12月立项以来,课题组在全国哲学社会科学规划办公室和中国人民大学的领导和支持下,圆满完成了全部拟定任务,并在云计算环境下信息资源的系统架构、存储策略、组织方法、集成方法和服务模式等方面展开了一系列开创性的研究工作。本书介绍了课题组的部分研究工作,尤其是云计算环境下的信息资源集成方法和服务模式方面的较为系统性的研究发现。
本书由课题首席专家杜小勇和卢小宾共同策划与设计,杜小勇、卢小宾、朝乐门、何军、郭晶以及课题组全体成员共同完成具体研究工作,最终由朝乐门、杜小勇和卢小宾负责完成了全书的统稿和审校工作。全书分为8章,各章的主要内容及创新性工作如下:
第1章为相关工作。根据国家社科基金重大项目“云计算环境下的信息资源集成与服务研究”的研究设计,对国内外相关研究进行了较为系统的调查分析,并提出了现阶段的研究进展和主要挑战。本章的研究工作主要从以下3个方面开展: ①信息资源集成,尤其是云计算环境下的信息资源集成相关研究的主要进展; ②信息资源服务,尤其是云计算环境下的信息资源服务相关研究的主要进展; ③云计算环境下的信息资源集成与服务相关研究所面临的主要挑战。本章的主要执笔人为朝乐门、王建亚、杨灿军、刘岩和王雨晴。
第2章为顶层设计。在梳理主流的云计算技术的发展现状与趋势的基础上,深入探讨了云计算环境下的信息资源集成与服务基础平台的设计需求,并深入探讨了其设计目的、基本流程、总体框架和关键技术。本章提出的云计算环境下的信息资源集成与服务基础平台的主要创新点在于: ①定义了信息资源的碎片化利用及碎片信息资源的集成与服务的基本流程; ②提出了一种面向云计算环境下信息资源的弹性集成与服务的数据模型——iRDD(Information Resource Resilient Distributed Datasets); ③给出了一种云计算环境下信息资源集成与服务的统一的顶层框架体系; ④采用广义信息资源的概念,引入了人机协同的信息处理模式; ⑤提出了面向云计算环境下信息资源管理的数据连续性保障方法; ⑥提出了碎片信息资源的数据对象的语义建模方法。本章的主要执笔人是杜小勇和朝乐门。
第3章为集成方法。在梳理国内外相关研究的基础上,结合课题研究目标,提出了云计算环境下的信息资源的集成方法,并探讨了其基本特征、主要类型及关键技术。本章提出的云计算环境下的信息资源集成方法的主要创新点在于: ①从资源、碎片、标签等3个不同层次提出了云计算环境下的信息资源集成方法; ②本章提出的集成方法具有弹性集成和惰性计算的特点,不仅避免了中间iRDD的数据的I/O成本,而且确保了信息资源集成活动中的数据一致性; ③提出了一种数据驱动型信息资源的集成方法,改变了传统的目标驱动和模型驱动的信息资源集成方法; ④提出了信息资源集成与服务中的结果呈现方法——数据可视化和故事化描述。本章的主要执笔人为朝乐门和杜小勇。
第4章为集成技术。在深入分析云计算环境下的信息资源集成的底层技术的基础上,探讨了面向云计算环境的信息资源集成的形式化表示技术,并提出了一种碎片信息资源的集成方法。此外,本章还提出了针对云计算环境下信息资源集成的参考框架体系,并探讨了其中的若干关键性技术问题,如故障/慢节点的处理、存储级别的选择等。本章的主要创新性工作如下: ①提出了一种面向碎片化信息资源的数据模型——iRDD的形式化表示方法; ②提出了一种将碎片信息资源iRDD集成为数据对象的算法,并探讨了碎片的集成策略、选择最佳目标信息资源个数的方法及同一个信息单元中的碎片对象的排序方法; ③提出了一种基于Spark的信息资源碎片化利用和集成的技术参考模型,并分别从流程、计算、存储和服务4个层面探讨了其实现细节。本章的主要执笔人为朝乐门、杜小勇和杨灿军。
第5章为服务模式。以用户信息行为理论、信息技术采纳理论、创新扩散理论以及可信计算理论为基础,重点探讨了政务网络可信云服务管理模式、商业数据分析模式与科研知识挖掘模型等云计算环境下信息资源服务模式的核心问题,提出了相应的解决方案。本章的主要创新性工作如下: ①探讨了用户信息行为、信息技术采纳、创新扩散以及可信计算等云计算环境下信息资源服务模式构建的理论问题; ②论述了云服务背景下政务网络生态失衡的成因、表现特征,提出了云计算环境下构建政务网络信息生态服务管理模式的3个维度: 业务质量、数据管理和权益保障; ③分析了云计算环境下商业数据分析模式的3个主要技术层次: 数据存储、数据处理和数据组织与管理,从理论角度提出了Google三大云计算技术——GFS、MapReduce和Bigtable对于海量商业数据的分析模式; ④从需求分析、资源建设、人员培养、技术选择和制度建设等方面研究了云计算环境下科研知识挖掘的影响要素,构建了科研知识挖掘要素关系框架模型。本章的主要执笔人为王涛、卢小宾、官思发、霍亮和童楠楠。
第6章为服务采纳。在深入探讨个人用户和企业用户云服务采纳行为理论的基础上,系统分析了个人用户和企业用户云服务采纳行为的影响因素,构建了云计算环境下个人用户和企业用户的信息资源服务采纳模型。本章的主要创新性工作如下: ①以信念态度行为理论、技术接受模型、网络外部性理论、信任理论、创新扩散理论为理论基础,分析了个人云存储采纳行为的影响因素,构建了个人云存储的采纳模型; ②以传统技术采纳理论背景下企业信息化阶段发展特征为基础,结合云服务采纳的技术特殊性,提出了云服务采纳背景下企业信息化阶段发展特征; ③以企业资源观、企业信息化阶段理论、组织技术采纳理论为理论基础,从采纳主体、客体、环境和中介4个方面梳理了企业云服务采纳的影响因素,构建了企业云服务采纳模式。本章的主要执笔人为卢小宾、王涛和王建亚。
第7章为典型系统。主要介绍了两种典型的云计算环境下的信息资源集成与服务平台——新闻热点事件的发现与跟踪系统和法学学科资源服务平台。在平台构建的过程中,课题组针对云计算环境下信息资源集成与服务所面临的诸多问题提出了多种解决方案,相关的研究成果已分别发表在高水平的国际期刊Decision Support Systems、Information Systems上,获得WISE2013国际会议Best Challenge Paper Award,并申请了多项国家发明专利。本章的主要创新性工作如下: ①结合两种典型系统的研发需要,分别讨论了云计算环境下信息资源集成和服务的关键技术; ②提出了一种云计算环境下的信息资源集成和服务平台的通用架构; ③研发新闻热点事件的发现与跟踪系统,并给出了其关键技术和新闻正文自动化抽取算法流程; ④研发法学学科资源服务平台,并提出了其信息资源集成策略和服务类型。本章的主要执笔人为何军。
第8章为示范应用。以上海交通大学图书馆思源探索资源发现系统为例,分析并剖析图书馆的这种新型服务模式,可实现个性化、可定制、主动服务的目标,以示范应用为基础,为云计算环境下的信息资源集成服务给出一套完整的应用评价体系和应用模式推荐。本章的主要执笔人为郭晶和陈嘉懿。
考虑到整体性及篇幅,本书并未涵盖课题组的全部创新性工作。课题研究是一项系统性工作,本书虽然尽可能列举了其主要贡献者,但也有可能间接涉及课题组中的其他成员的部分工作,在此感谢课题组的每个成员的创新性研究。同时,本书在编写过程中参考和引用了大量国内外文献资料,虽尽可能地标注了出处,但也难免有遗漏,在此向有关作者表示衷心的感谢。由于我们的水平有限,撰写时间较为仓促,疏漏、不足乃至错误之处在所难免,敬请各位专家批评指正。
杜小勇卢小宾
2019年10月
第1章相关工作1
1.1文献调研1
1.2信息资源集成6
1.3信息资源服务13
1.4云计算环境下的信息资源集成15
1.5云计算环境下的信息资源服务19
1.6主要挑战23
第2章顶层设计24
2.1设计基础24
2.1.1MapReduce 1.0及其局限性24
2.1.2MapReduce 2.0的优化25
2.1.3NoSQL与关系云的出现26
2.1.4发展趋势30
2.2设计目的33
2.2.1碎片化阅读与传播33
2.2.2人机协同35
2.2.3分层实现35
2.2.4资源与碎片的统一管理36
2.2.5弹性集成与服务36
2.2.6较强的容错能力36
2.3基本流程37
2.3.1资源加载37
2.3.2资源语义标注37
2.3.3碎片化处理39
2.3.4碎片生命期管理42
2.3.5碎片集成及新资源的定义43
2.3.6资源的序列化43
2.3.7资源的检索和洞见43
2.3.8资源的可视化利用43
2.4总体框架45
2.4.1存储层45
2.4.2资源管理与调度层46
2.4.3集成层47
2.4.4服务层48
2.5关键技术48
2.5.1数据流与控制流48
2.5.2数据模型49
2.5.3语义模型53
2.5.4人机协同61
2.5.5性能提升61
2.5.6容错机制62
2.5.7其他技术63
第3章集成方法65
3.1集成特征65
3.1.1惰性集成65
3.1.2分层实现66
3.1.3人机协同66
3.1.4弹性集成66
3.1.5个性化集成67
3.1.6数据驱动67
3.2集成模式67
3.2.1碎片层的集成68
3.2.2标签层的集成68
3.2.3资源层的集成69
3.3集成活动70
3.4集成算法72
3.4.1碎片的集成过程73
3.4.2选择最佳目标信息资源的个数73
3.4.3同一个信息单元中的碎片的遍历方法75
3.5数据驱动75
3.6可视化表示77
3.7故事化描述78
第4章集成技术80
4.1相关技术80
4.1.1Hadoop MapReduce及其局限性80
4.1.2Spark的兴起82
4.1.3发展趋势86
4.2形式化表示86
4.2.1结构定义86
4.2.2标签选择87
4.2.3属性设置87
4.3参考模型91
4.3.1流程层98
4.3.2计算层102
4.3.3存储层105
4.3.4服务层106
4.4故障/慢节点的处理108
4.5存储级别的选择109
第5章服务模式110
5.1理论基础110
5.1.1用户信息行为理论114
5.1.2信息技术采纳理论信息技术采纳理论116
5.1.3创新扩散理论创新扩散理论117
5.1.4可信计算119
5.2政务网络信息生态的服务管理模式120
5.2.1分析框架121
5.2.2业务质量123
5.2.3数据管理125
5.2.4权益保障127
5.3商业数据分析的服务实践模式128
5.3.1数据存储129
5.3.2数据处理131
5.3.3数据组织与管理132
5.4大数据信息分析的服务保障模式137
5.4.1大数据信息分析的研究现状137
5.4.2大数据信息分析面临的关键问题138
5.4.3大数据信息分析的四大挑战140
5.4.4大数据信息分析的服务保障模式建议142
5.5科研知识挖掘的服务应用模式146
5.5.1要素分析147
5.5.2模型构建151
第6章服务采纳154
6.1个人用户的服务采纳理论154
6.1.1信念态度行为理论156
6.1.2技术接受模型157
6.1.3网络外部性理论158
6.1.4信任理论信任理论159
6.1.5创新扩散理论159
6.2个人用户的服务采纳模型构建160
6.2.1影响因素160
6.2.2模型构建165
6.3企业用户的采纳现状及理论168
6.3.1企业资源观企业资源观168
6.3.2企业信息化阶段理论企业信息化阶段理论169
6.3.3组织技术采纳理论组织技术采纳理论171
6.4企业用户的采纳模式构建176
6.4.1云服务采纳背景下企业信息化阶段发展特征176
6.4.2采纳主体分析179
6.4.3采纳客体分析185
6.4.4环境分析188
6.4.5中介分析190
6.4.6企业云服务采纳模式190
第7章典型系统193
7.1主要技术193
7.1.1信息资源集成技术194
7.1.2信息资源服务技术201
7.1.3云计算环境下的信息资源集成与服务平台204
7.2新闻热点事件发现与跟踪系统206
7.2.1热点事件与话题207
7.2.2系统框架与关键技术207
7.2.3系统功能与服务216
7.3法学学科资源服务平台219
7.3.1学科资源219
7.3.2关键技术与系统框架设计220
7.3.3系统功能与服务225
第8章示范应用228
8.1应用场景228
8.1.1图书馆信息资源特征228
8.1.2需求分析230
8.1.3资源的集成融汇232
8.2系统部署235
8.2.1建设需求与特征235
8.2.2环境部署与数据准备236
8.2.3系统构建237
8.3对比分析243
8.3.1与本地检索系统对比243
8.3.2与其他图书馆云平台对比247
8.4运行现状252
8.4.1系统使用与访问情况252
8.4.2存在的问题256
8.5应用评价258
8.5.1评价指标258
8.5.2读者评价263
8.5.3馆员评价269
参考文献274
索引294
本书是国家社科基金重大项目《云计算环境下的信息资源集成与服务研究》(项目编号:12&ZD220)的研究成果之一,是国内外第一本系统讨论云计算环境下的信息资源管理问题的专著。本书综合运用信息资源管理、软件工程、数据工程与知识工程等学科的相关理论,系统研究云计算环境下的信息资源管理顶层架构、集成方法和服务模式,并突破其中的若干关键问题,对于数据科学、信息资源管理、信息学、情报学、计算机科学与技术等多个学科理论研究及提升学科应用价值及和核心竞争力具有重要意义。本书的实践意义具体表现在以下4个方面:1)提供安全可靠的数据存储中心,能有效降低信息资源共享安全风险;2)有效减少信息资源共享实现成本;3)提供不同服务器间数据共享环境,能有效扩大信息资源共享范围;4)提供全方位的高效交互平台,能有效满足信息资源的个性化需求。
朝乐门:中国人民大学副教授、博士生导师、全国高校人工智能与大数据创新联盟专家委员会副主任; 杜小勇:中国人民大学教授、博士生导师、CCF数据库专委会主任; 卢小宾:中国人民大学教授、博士生导师、长江学者。