
我国在大数据“共建、共享、共治”新发展格局的基础上,要求加快数据要素新发展,激发数字经济新动能,促动人工智能新态势。时代赋予了统计学发展壮大的机会,也要求我们深入研究大数据的统计技术方法、开辟大数据的统计应用领域。在此,我们整合了近年来大数据研究中在统计理论和应用方面的核心成果,系统地形成了大数据的统计技术知识体系。本书共 6章,内容包括大数据发展的新态势、统计学的未来发展动态、数据准备技术、大数据的统计技术体系,及其在计算社会经济学、计算社会医学、企业数字化转型等方面的应用。 本书内容新颖,体系清晰,案例充实,重点反映统计学对大数据发展的影响,注重学科交叉,并突出六大特点:①树立数据要素地位;②体现学科交叉融合;③思考统计未来发展;④改进统计研究方式;⑤形成统计技术体系;⑥扩展统计应用领域,主要体现统计理论方法的融合、统计技术体系的整合和统计应用领域的拓展。 本书对从事大数据挖掘、机器学习、人工智能和数据分析的科研人员具有重要的参考价值,也可以用作统计学、计算机技术、人工智能、大数据管理及工商管理等专业或研究方向硕士生、博士生的教材。
前 言 我国在大数据“共建、共享、共治”新发展格局的基础上,要求加快数据要素新发展,激发数字经济新动能,促动人工智能新态势。时代赋予了统计学发展壮大的机会,也要求我们澄清大数据的概念,明确大数据的统计特征,深入研究大数据的统计技术方法,开辟大数据的统计应用新领域。在此,我们整合了近年来在大数据研究中的统计理论和应用方面的核心成果,系统地形成了大数据的统计技术知识体系,完成了本书。 新的时代不仅会带给人类自然科学技术和人文社会科学的发展变革,还会给人们的生活和工作方式带来焕然一新的变化。统计学是一门古老的学科,已经有三百多年的历史,在自然科学和人文社会科学的发展中起着举足轻重的作用。同时,统计学的发展被赋予新的内涵,机会与挑战并存,这就给本书的撰写提出了更高的要求。为了反映统计学对大数据发展的影响,本书注重学科交叉,并突显六大特点:①树立数据要素地位;②体现学科交叉融合;③思考统计未来发展;④改进统计研究方式;⑤形成统计技术体系;⑥扩展统计应用领域。本书主要体现统计理论方法的融合、统计技术体系的整合和统计应用领域的拓展。 第1章概论,介绍了大数据发展的新格局、大数据概念的创新剖析、数据要素推动大数据发展的新态势、数据要素对社会经济发展的推动作用、怎样发挥统计学在人工智能技术中的新动能、交叉学科对统计学发展的促进和统计学的未来发展动态七部分。第一,回顾了全球大数据的发展历史,尤其是大数据在我国近几年的快速发展历程,并探讨了大数据“共建、共享、共治”的新发展格局。第二,在新时代下,以创新思维,从大数据时代、大数据内涵和大数据技术三个层面深刻认识大数据的概念。第三,大数据相关理论技术的发展日新月异,而数据要素作为一种新型的生产要素,必将推动大数据的发展,在此探讨了当前大数据发展的十个新态势。第四,探究了数据要素对社会经济发展的推动作用,并从宏观、中观、微观三个层面,深入阐述了数据要素激发经济增长新动能、数据要素推动产业结构优化升级、数据要素激发企业商业模式创新。第五,大数据时代和人工智能的迅猛发展,带给传统统计学变革的机遇,同时赋予了统计学新的思想理念,在此探讨了如何发挥统计学在人工智能技术中的新动能。第六,随着越来越多交叉 学科的出现,交叉学科在科学领域中的生命力得到了充分的证实,在此回顾了我国交叉学科的发展历史、学科分类、学科设置与建设,并通过论文引用状况研究了“统计学 +”交叉学科对统计学发展的影响。第七,为了更清楚地阐述统计学应用研究及未来发展动态,本书从十个方面展示了统计学研究的重要领域及方向。 第2章数据准备,围绕大数据分析的数据准备环境展开,从七个方面介绍数据准备工作的内涵和外延,进一步强化要求源数据的规范性和标准性。第一,数据的准备从定向资料的收集入手,以网络爬虫技术为例介绍定向资料收集的原理、流程及应用。第二,收集的数据受各种客观或主观因素影响,导致不正确属性值出现,需要进行数据去噪处理,在此介绍数据平整、Bin方法、聚类方法、计算机与人工检查结合的方法、回归分析方法、样条方法在数据去噪过程中的应用。第三, 重点介绍缺失值的填充,从基于 MCAR缺失值替代、时间序列缺失值填充及股价日交易缺失数据填充三个视角深入剖析不同情境下的缺失值填充问题。第四,随着数据源的不断拓宽,数据不平衡问题更加突出,在此从数据、算法和模型三个层面介绍对不平衡数据问题的处理方法,并利用多项指标对数据不平衡情况 进行评估,如基于混淆矩阵的单评价指标、ROC曲线和 PR曲线等。第五,经数据去噪及缺失值处理过的数据往往还须进行数据变换,这也是数据分析的一项前驱性工作,在此介绍数据标准化、数据维数的消减、时序数据变换等。第六,针对聚类分析而言,由于聚类分析的研究工作已经涉及大型数据库,为澄清聚类分析的方法研究思路,在此介绍对原生数据进行算法加工、计算、聚合,生成新的数据类型,即衍生数据。第七,得到的多样化、结构复杂化、信息冗余化的数据须进一步进行整合,在此从整合分析的模型方法出发,将剖析多源数据整合方法,即基 于统计模型的方法、基于矩阵分解的方法和基于机器学习的方法。 第3章社会经济统计的大数据技术方法,从交叉学科的角度,主要梳理了大数据的统计技术体系,介绍了指标体系和智能画像、社会网络、粗糙集、文本挖掘、深度神经网络、集成算法、正则化模型、贝叶斯方法与深度学习、函数型数据分析和关联规则的提升十大技术体系的基本理论、方法、应用领域与应用方向。第一,指标体系和智能画像,重点分析了研究对象在不同层面上的优劣,进一步体现了评价的基础在于构建对象分析的指标体系。第二,明确了社会网络的本质是一种由个体或组织之间的社会关系所构成的复杂网络结构,重点介绍用数学分析、图论等定量方法研究网络关系的内容。第三,深入剖析了粗糙集的基本特性,探讨了粗糙集的理论、方法在海量数据挖掘中的作用,进一步强化了粗糙集的应用领域。第四,在文本挖掘技术方面,主要介绍文本分类、文本聚类、主题模型、情感分析与观点挖掘等,并依靠相关文字处理技术,分析大量的非结构化文本数据。第五,深度学习是从机器学习中发展出来的一类方法的总称,在此介绍多层神经网络的深度学习模型,其特点在于对输入模型的特征的多次变换。第六,集成算法的学习器可以预测实数值类标签、概率、排名、聚类或任何其他数值,在此重点介绍基于树模型的集成学习方法。第七,正则化模型是一种为了减少结构风险而常用的大数据技术方法,常用于系数的压缩估计,在此介绍最常用的正则化方法———岭回归、LASSO及基于 VAR(P)的 LASSO方法。第八,贝叶斯分析在后验推断、参数估计、隐概率模型等机器学习方面发挥了重大作用,并成功用于人工智能、自然语言处理等领域,在此介绍贝叶斯网络、贝叶斯分类及回归树、非参数贝叶斯、贝叶斯深度学习等技术,同时探讨贝叶斯模型的估计方法。第九,对函数型数据进行建模和统计推断的关键是对函数变量进行降维,在此介绍函数型数据分析的基本概念以及在函数型主成分、聚类分析等方面的应用技术。第十,关联规则是大数据挖掘中的重要技术之一,在此针对关联性的属性集分类问题,利用独立性检验和相应分析等理论方法,对关联规则技术进行提升研究。 第4章计算社会经济学应用研究,体现了社会科学与计算机科学理念和方法的深度融合。随着智能化技术的飞速发展,人类活动的行为数据、经济社会发展的过程数据,被越来越多的数据采集终端和传感设备记录下来。本章通过新冠肺炎疫情新闻对原油期货价格波动率的预测研究、金融系统性风险分析、新战略背景下城市经济发展状况测度研究、基于公共服务单位分布的均衡化研究、基于粗糙集的游戏核心竞争要素与购买模式挖掘、基于函数型数据分析方法的高频资产价格波动率测度研究六个案例,深入阐述统计学方法在社会、经济发展相关问题中的应用研究。 第5章计算社会医学应用研究,重点突出健康医学和生物卫生的大数据应用,其研究方向是社会化医学和个性化医学,即以医疗大数据为基础引导政务、教育、商业等各个领域的变革;以健康大数据为基础为患者量身设计出最佳方案,以期达到治疗效果最大化和副作用最小化的定制医疗模式等,可以把这一领域的研究问题界定为计算社会医学。本章通过健康服务资源均衡指数、器官移植舆情分析、健康中国舆情分析、基于我国医疗卫生应急管理全过程的综合评价、通过可解释的机器学习方法自动鉴别克罗恩病和肠结核、我国医疗卫生服务体系演化路径分析、线上就医行为分析七个案例,深刻剖析统计理论和方法在计算社会医学领域的应用研究。 第6章企业数字化转型应用研究,从数字化转型的工作开展角度,涉及战略调整、能力建设、技术创新、管理变革、模式转变等一系列转型创新,是一项复杂的系统工程。每个数字化转型的环节都应围绕价值效益展开战略调整,其根本目的是推动价值体系优化、创新,加强深层次的管理变革,不断创造新价值,打造以数字化为基础的运营模式。在数字化转型过程中,最迫切需要提升的是应对挑战、抢抓机遇的新型能力。因此本章通过信贷风险分析、先进制造业、南方经济及电力景气指数构建与分析、基于深度迁移学习的食材图像识别算法研究、租赁房资源禀赋研究五个案例,进一步说明统计理论和方法在数字化转型中的应用研究。 全书由陈宇晟、冯冲、符羽彤、梁振杰、秦磊、苏萌、孙俊歌、唐鑫寅、王玮玮、王玉莹、翁福添、吴淇、吴小龙、谢邦昌、叶玲珑、于洋、张志远、郑陈璐、朱建平、朱淼、庄穆妮(按照拼音顺序排列)共同撰写。朱建平负责全书框架设计、总纂和定稿。冯冲、翁福添、王玮玮、唐鑫寅、马茂淇、王琳惠、王萃英在总纂和定稿过程中做了大量的辅助工作。 写到这里,我想提及一下厦门大学数据挖掘研究中心,该中心组建于 2006年,于 2010年 7月由厦门大学校长工作会议决议通过并正式成立,经过多年的努力,该团队于 2014年获得第五届“中国侨界贡献奖”,2015年荣获第十二届“福建青年五四奖章”集体称号,2015年 6月获得福建省高等学校人文社会科学研究基地,2018年与厦门国际银行股份有限公司合作共建“数创金融”联合实验室,2019年 7月首批获得厦门大学管理学院“科研创新团队”称号。现在中心已构建起一支专门从事数据挖掘研究,而且具有核心竞争力的学术创新团队,该团队在加强交叉学科建设的基础上,形成了大数据挖掘技术、金融信用风险评估、计算社会医学和计算社会经济学四个研究方向。本书针对这些研究领域大数据的统计技术和应用成果,科学、系统、完整地形成知识体系,其目的是在人工智能技术和大数据挖掘技术中,充分体现统计理论方法的基础性作用。本书的完成,可以说是中心团队在大数据和数据挖掘领域研究的一个阶段性总结,有些思想、理论和方法属于一家之言,希望能起到“抛砖引玉”的作用。 本书在撰写和出版过程中,得到了国家统计局统计科学研究所、厦门大学社会科学研究处、厦门大学管理学院、厦门大学健康医疗大数据国家研究院、厦门国际银行股份有限公司、厦门市云众联大数据科技有限公司、厦门大学数据挖掘研究中心和电子工业出版社的支持,秦淑灵、宋文慧等同志为本书的组稿、编辑做了大量的工作,国家统计局统计教育中心韩际平为本书的出版提出了许多建设性的建议。在此一并表示由衷的感谢! 撰写一本好书并不容易,尽管我们努力想奉献出一本让读者满意的书,但仍难免有达不到要求的内容。书中若有疏漏或错误之处,恳请读者多提宝贵意见,以便今后进一步修改与完善。 本书的出版得到了国家社科基金重大项目(20&ZD137)、国家社科基金重点项目(20ATJ005)、国家统计局重大专项(2020ZX20)和厦门大学哲学社会科学繁荣计划建设项目的支持和资助。 朱建平 2022年 8月于厦门珍珠湾花园
目 录 第 1章 概论 !!!!!!!!!!!!!!!!!!!!!!!!!!! 1 11 大数据发展的新格局 !!!!!!!!!!!!!!!!!!!! 2 12 大数据概念的创新剖析 !!!!!!!!!!!!!!!!!!! 3 13 数据要素推动大数据发展的新态势 !!!!!!!!!!!!!! 9 14 数据要素对社会经济发展的推动作用 !!!!!!!!!!!!! 12 15 发挥统计学在人工智能技术中的新动能 !!!!!!!!!!!! 17 16 交叉学科促进统计学的发展 !!!!!!!!!!!!!!!!! 20 17 统计学的未来发展动态 !!!!!!!!!!!!!!!!!!! 27 第 2章 数据准备!!!!!!!!!!!!!!!!!!!!!!!!! 33 21 定向资料收集 !!!!!!!!!!!!!!!!!!!!!!! 34 22 数据去噪 !!!!!!!!!!!!!!!!!!!!!!!!! 38 23 缺失值填充 !!!!!!!!!!!!!!!!!!!!!!!! 41 24 不平衡数据处理 !!!!!!!!!!!!!!!!!!!!!! 48 25 数据变换 !!!!!!!!!!!!!!!!!!!!!!!!! 56 26 数据类型的衍生 !!!!!!!!!!!!!!!!!!!!!! 63 27 多源数据整合 !!!!!!!!!!!!!!!!!!!!!!! 66 第 3章 大数据的统计技术方法!!!!!!!!!!!!!!!!!!! 71 31 指标体系和智能画像 !!!!!!!!!!!!!!!!!!!! 72 32 社会网络 !!!!!!!!!!!!!!!!!!!!!!!!! 84 33 粗糙集 !!!!!!!!!!!!!!!!!!!!!!!!!! 89 34 文本挖掘 !!!!!!!!!!!!!!!!!!!!!!!!! 93 35 深度神经网络 !!!!!!!!!!!!!!!!!!!!!! 101 36 集成方法 !!!!!!!!!!!!!!!!!!!!!!!! 117 37 正则化模型 !!!!!!!!!!!!!!!!!!!!!!! 128 38 贝叶斯方法与深度学习 !!!!!!!!!!!!!!!!!! 131 Ⅶ 39 函数型数据分析 !!!!!!!!!!!!!!!!!!!!! 140 310 关联规则的提升 !!!!!!!!!!!!!!!!!!!!! 148 第 4章 计算社会经济学应用研究 !!!!!!!!!!!!!!!!! 164 41 新冠肺炎疫情新闻对原油期货价格波动率的预测研究 !!!!! 165 42 金融系统性风险分析 !!!!!!!!!!!!!!!!!!! 172 43 新战略背景下城市经济发展状况测度研究 !!!!!!!!!! 181 44 基于公共服务单位分布的均衡化研究 !!!!!!!!!!!! 191 45 基于粗糙集的游戏核心竞争要素与购买模式挖掘 !!!!!!! 197 46 基于函数型数据分析方法的高频资产价格波动率测度研究 !!! 205 第 5章 计算社会医学应用研究 !!!!!!!!!!!!!!!!!! 215 51 健康服务资源均衡指数 !!!!!!!!!!!!!!!!!! 216 52 器官移植舆情分析 !!!!!!!!!!!!!!!!!!!! 224 53 健康中国舆情分析 !!!!!!!!!!!!!!!!!!!! 243 54 基于我国医疗卫生应急管理全过程的综合评价 !!!!!!!! 257 55 通过可解释的机器学习方法自动鉴别克罗恩病和肠结核 !!!! 269 56 我国医疗卫生服务体系演化路径分析 !!!!!!!!!!!! 279 57 线上就医行为分析 !!!!!!!!!!!!!!!!!!!! 286 第 6章 企业数字化转型应用研究 !!!!!!!!!!!!!!!!! 292 61 信贷风险分析 !!!!!!!!!!!!!!!!!!!!!! 293 62 先进制造业 !!!!!!!!!!!!!!!!!!!!!!! 302 63 南方经济及电力景气指数构建与分析 !!!!!!!!!!!! 312 64 基于深度迁移学习的食材图像识别算法研究 !!!!!!!!! 324 65 租赁房资源禀赋研究 !!!!!!!!!!!!!!!!!!! 335 参考文献 !!!!!!!!!!!!!!!!!!!!!!!!!!!!! 34