
本书对企业数据化建设的目标、内容及定位做了相对完整的论述,详细地阐述了数据中台的定义、内容及如何支撑企业数据化整体建设,同时也介绍了数据中台在企业中的落地步骤、丰富的数据应用场景与实际效果。本书是企业数据化建设的实用参考书。 本书的内容完全基于笔者团队的实践经验。笔者团队曾经帮助十几个行业头部企业的数据中台项目成功落地,这些项目验证了本书中阐述的方法论体系的可行性。希望本书能够对国内数据化工作者提供一定的帮助。
3年前,我和我的团队带着大数据应用技术、电商行业的数据中台建设经验,以及众多数据应用成果,开始了为国内传统企业进行数据中台建设的工作,本以为这是一次愉快的旅程,结果却遇到了诸多阻碍和挑战。 数据中台是什么?数据中台的价值是什么?数据中台如何帮助企业腾飞?传统企业具备数据中台的建设条件吗?当我们准备放手大干的时候,来自客户的一系列“灵魂拷问”,让我的团队有些措手不及。 数据能力是互联网行业的核心竞争力,数据的重要性毋庸置疑。一方面,数据部门对大数据技术不断地探索和深入掌握;另一方面,业务部门对数据的需求和创新应用永无止境。两者交织前行,不断碰撞出火花,最终展现出了巨大的应用价值和广阔的应用前景。数据中台在互联网企业中同样有着明确的定位:最先进的大数据技术,高效、便捷的开发平台和全部汇总在一套模型下的海量数据,这些基本就是数据中台的范畴。在数据中台的支撑下,诸多数据应用快速地构建和迭代,各种创新能够在最短的时间内得以验证和推进。 显然,对于拥有成熟的主营业务、业务场景更复杂、投资评估更谨慎的传统企业而言,互联网的数据中台理论体系需要进行再次升级才能够支撑其全面数据化建设工作。 首先,我们需要解决企业数据化建设的目标和定位问题。企业的核心竞争力有很多,产品、资金、技术、人才、营销、渠道都能够从各自的角度为企业贡献力量。但是数据化能贡献什么呢?客观地讲,企业数据化建设只能为企业各条业务线、各个业务岗位、各个业务场景提供数据的供给。至于企业数据化建设是否能够成为企业的核心竞争力,最终还要取决于这个智慧的体系能够为企业提供多少数据和多少高价值的数据。 其次,我们需要解决数据中台在数据化建设中的定位问题。数据中台应当是企业数据化建设的支撑平台,是企业数据化的规划平台,是企业数据化建设的驱动器。 数据中台需要解决传统企业数据化建设的整体规划和架构问题。这个工作需要详细地阐述企业数据化建设的整体架构、业务成果、建设顺序、投入产出比等。 数据中台还应当积极地帮助企业建设数据团队,尤其是数据团队中的数据运营团队。这个团队应当让企业的业务部门和数据部门紧密结合并发生奇妙的化学反应,能够让业务部门理解数据、用好数据、渴求数据。 数据中台还应当对企业数据化工作的几个重要部分进行有机整合和串联,让各个部分协同工作,相互促进。只有这样,数据中台架构才能够支撑起企业数据化建设工作,才能够让企业数据化建设工作全面启动,也可以让企业在进行全面数据化建设之初就信心满满地投入一笔基础平台建设资金。最终,当数据中台建设完成的同时,各种数据应用的建设纷纷进入快速通道,各种数据成果纷纷呈现并在各自的业务场景中大展身手。 这些都是我们3年来在一个又一个传统企业数据中台项目成功交付后所总结的经验,同时我们又把这些经验整理成一套相对完整的方法论体系和一套相对标准的实施落地步骤。 当我们使用这套方法在传统企业中完成数据中台的建设并看到数据中台效果初步显现时,我和我的团队的第一想法就是把这些内容记录下来,告诉所有从事数据化工作的同道,让他们在面对同样的问题时,可以不再重复我们那些艰苦的经历。 我要感谢我的团队,是他们和我一起完成了本书的撰写。戴丽撰写了4.2.1节、6.1.3节、7.2节、7.3节和部分数据应用场景,并对部分图、表进行了设计与优化;訚赛华撰写了5.3节、5.4节;李鑫撰写了9.6节;黎成撰写了第10章的部分内容;闽佳、王辉撰写了第11章;马宁博士提供了丰富的算法类数据应用素材;李丽承担了整体的组织工作及大量文档素材的整理工作。我也要感谢我的团队中没有参与本书撰写的其他成员,是你们日日夜夜地勤奋工作,不断地探索和面对未知问题的勇气,让我们开辟了这条道路。我要感谢你们每一个人。 我要感谢我的家人,尤其是我的爱人李鑫,她不但撰写了一节内容,同时又在我全身心投入工作的时候,兼顾个人工作和家庭,让一切事情井井有条。我一直认为她的“内核”也是一个分布式的大数据引擎。 我要感谢我的老东家——用友。我在用友学到了丰富的企业业务知识和企业信息化的建设经验,甚至还有做人的道理。用友是一家有温度的公司,我曾经有段时间认为自己会在这家公司退休。 我要感谢我现在的东家——杭州玳数科技有限公司。公司的创始人陈吉平先生有着丰富的互联网从业经验,是技术“大牛”,也是应用“大牛”。他提出的用互联网的数据技术和应用经验,让传统企业中的数据产生价值的理念深深触动了我,对于我来说这种吸引是难以抗拒的。 我要感谢积水潭医院的黄雷主任,感谢火箭军医院的乔林主任,我生命中的一段时间是两位医生陪我度过的,感谢他们。 我要感谢我的所有朋友和客户,是你们对我的支撑和鞭策让我不断前行。我只能不断地做正确的事情,才能略微地回报你们。数据化是正确的事情,我和我的团队看到了数据化的巨大力量,这些力量正在传统企业积聚、等待爆发。数据的力量会让企业更加健壮和健康,获得更多回报,在面对各种内外部复杂环境的时候,有能力快速调整、试错,并完成创新。我把数据中台建设经验写出来也是正确的事,知识就是用于分享的,藏私于一隅是很大的浪费。
1 信息认知和当前的信息化革命 / 1 1.1 信息工具的发展推动人类历史进步 / 2 1.1.1 信息的世界 / 2 1.1.2 信息工具 / 2 1.2 信息工具的进步与历史发展 / 5 1.3 当前的信息化革命 / 6 1.3.1 新的工具 / 6 1.3.2 新的特征 / 7 1.3.3 数据化——对数据的再应用 / 8 2 企业数据化 / 9 2.1 企业数据化认知 / 10 2.1.1 企业数据化的定义 / 10 2.1.2 数据分类 / 11 2.2 企业数据化与企业信息化及企业的关系 / 12 2.2.1 企业的本质 / 12 2.2.2 企业信息化 / 13 2.2.3 企业数据化 / 15 2.2.4 企业业务、企业信息化、企业数据化的关系 / 15 2.3 企业数据化建设的内容 / 18 2.3.1 企业数据化建设的一个核心目的 / 18 2.3.2 企业数据化建设的三个层次 / 22 2.3.3 企业数据化建设的五个部分 / 32 2.3.4 企业数据化建设的七种价值 / 37 2.4 企业数据化的现状与问题 / 43 2.4.1 数据意识 / 43 2.4.2 数据资源 / 43 2.4.3 数据资产 / 44 2.4.4 数据应用 / 45 2.4.5 数据质量 / 46 2.4.6 数据运营 / 47 2.4.7 数据技术与产品 / 47 2.4.8 企业数据化建设路径探索 / 48 3 数据中台概述 / 49 3.1 数据中台是什么 / 50 3.1.1 数据中台应该告诉企业全面数据化是什么样子的 / 50 3.1.2 数据中台应该汇聚全域数据 / 51 3.1.3 数据中台应该能够检验数据治理的成果 / 53 3.1.4 数据中台应该全面支持数据应用落地 / 54 3.1.5 数据中台可以包含企业数据化组织规划内容 / 55 3.2 数据中台的价值与建设的必要性 / 55 3.2.1 数据中台是数据化建设的基础 / 55 3.2.2 数据中台是企业数据化建设的引擎 / 56 3.2.3 数据中台将各个部分的数据工作有机串联 / 57 3.3 数据中台建设五步法 / 58 3.3.1 数据中台建设五步法概述 / 58 3.3.2 第一步:数据资源的盘点与规划 / 59 3.3.3 第二步:数据应用规划与设计 / 60 3.3.4 第三步:数据资产建设 / 60 3.3.5 第四步:数据应用的详细设计与实现 / 62 3.3.6 第五步:数据化组织规划 / 63 4 数据资源盘点与规划 / 64 4.1 数据资源盘点 / 65 4.1.1 数据资源的分类 / 65 4.1.2 数据资源盘点流程 / 68 4.1.3 数据资源盘点的成果 / 70 4.2 数据资源规划 / 73 4.2.1 实体行为数据资源 / 74 4.2.2 外部数据服务规划 / 86 5 数据资产建设 / 90 5.1 数据资产建设概述 / 91 5.1.1 前期准备 / 91 5.1.2 数据资产建设方法论 / 92 5.1.3 数据资产建设的步骤 / 94 5.2 产品选型与技术方案设计 / 95 5.2.1 数据仓库选型 / 95 5.2.2 融合现有数据化建设成果 / 96 5.3 数据模型设计规范 / 97 5.3.1 基本设计思路 / 97 5.3.2 主题域设计 / 99 5.3.3 数据模型开发规范 / 101 5.3.4 数据表的命名规范 / 102 5.3.5 数据表的设计策略 / 103 5.4 数据开发规范及数据开发 / 104 5.4.1 数据开发规范 / 104 5.4.2 数据采集 / 110 5.4.3 数据开发 / 115 6 数据应用规划与建设 / 118 6.1 数据应用规划 / 119 6.1.1 企业业务架构梳理 / 120 6.1.2 数据应用场景规划 / 126 6.1.3 业务指标和实体标签体系的构建与管理 / 131 6.1.4 数据应用落地路径规划 / 137 6.2 数据应用建设 / 138 7 数据应用之最佳实践 / 142 7.1 房地产行业的数据应用方案 / 143 7.1.1 房地产行业的典型业务场景介绍 / 143 7.1.2 房地产行业的典型数据应用 / 146 7.2 鞋服行业的数据应用方案 / 154 7.2.1 鞋服行业的典型业务场景介绍 / 154 7.2.2 鞋服品牌商普遍的数据资源困局 / 156 7.2.3 围绕“店货匹配”构建数据应用蓝图 / 157 7.3 乳制品行业的数据应用方案 / 162 7.3.1 乳制品行业的典型业务场景介绍 / 162 7.3.2 以“消费者深度运营”为目标建设乳制品行业 数据应用 / 163 7.4 新零售营销的数据应用方案 / 166 7.4.1 新零售泛行业理解 / 166 7.4.2 新零售的典型数据应用 / 167 7.5 人力资源领域的数据应用方案 / 170 7.5.1 人力资源领域类业务场景 / 170 7.5.2 高潜力人员评估 / 172 7.5.3 人员离职预测 / 173 8 数据化组织规划 / 175 8.1 数据化组织规划的必要性 / 176 8.2 数据化组织的定位与职责 / 177 8.3 数据化组织的工作内容与边界 / 179 8.4 数据化组织的岗位设置 / 181 8.5 数据化组织的人数配置、预算资金与考核建议 / 182 9 数据中台与数据质量 / 184 9.1 数据质量的常见问题 / 185 9.2 数据模型规范提升数据质量 / 189 9.2.1 数据的定义 / 190 9.2.2 数据的分类 / 192 9.2.3 数据的颗粒度 / 194 9.2.4 数据的编码 / 196 9.3 数据管理提升数据质量 / 198 9.3.1 数据管理组织 / 199 9.3.2 数据管理流程 / 200 9.4 数据共享提升数据质量 / 201 9.4.1 业务数据如何传递 / 201 9.4.2 基础数据如何保持一致性 / 202 9.4.3 如何通过技术手段监督多版本数据的一致性 / 203 9.5 清洗历史数据提升数据质量 / 204 9.5.1 数据清洗的目的和策略 / 204 9.5.2 数据清洗的范围和组织 / 205 9.5.3 数据清洗工具 / 206 9.6 主数据管理提升基础数据质量 / 207 9.6.1 人员主数据管理 / 207 9.6.2 账户主数据管理 / 210 9.6.3 组织主数据管理 / 212 9.6.4 客商主数据管理 / 215 9.6.5 顾客主数据管理 / 219 9.6.6 产品主数据管理 / 223 9.6.7 项目主数据管理 / 227 9.6.8 资产主数据管理 / 231 9.6.9 物料主数据管理 / 233 10 数据中台建设 / 235 10.1 数据中台建设的特点 / 236 10.2 数据中台建设的策略选择 / 237 10.3 数据中台建设的整体流程 / 239 10.4 数据中台的建设风险及应对方法 / 245 10.4.1 数据中台的定位问题 / 245 10.4.2 数据中台的管理博弈 / 245 10.4.3 数据中台的业务价值方向选择 / 247 11 数据中台的软件支撑 / 248 11.1 平台的整体架构 / 250 11.2 计算引擎 / 252 11.2.1 大数据离线计算引擎 / 253 11.2.2 大数据实时计算引擎 / 254 11.3 离线/流计算开发套件 / 256 11.3.1 数据同步模块 / 257 11.3.2 数据开发平台 / 259 11.3.3 运维中心 / 262 11.3.4 发布管理 / 264 11.4 实时计算开发套件 / 265 11.4.1 FlinkStreamSQL / 265 11.4.2 数据开发 / 268 11.4.3 数据运维 / 270 11.4.4 实时采集 / 272 11.5 数据资产管理套件 / 275 11.5.1 数据地图 / 275 11.5.2 数据模型规范管理 / 277 11.6 数据质量管理套件 / 277 11.7 数据科学平台 / 279 11.7.1 算法数据资源管理 / 280 11.7.2 可视化实验开发 / 281 11.7.3 算法模型离线训练 / 281 11.7.4 模型在线部署和调用 / 282 11.8 分析引擎 / 282 11.9 数据API引擎 / 283 11.9.1 数据API引擎的常用数据源 / 285 11.9.2 API发布 / 285 11.9.3 API管理与授权 / 285 11.9.4 API申请与调用 / 286 11.9.5 API测试 / 287 11.9.6 API安全 / 287 11.10 标签引擎 / 288 11.10.1 实体管理 / 289 11.10.2 标签中心 / 290 11.10.3 群组分析 / 291 11.10.4 标签数据服务 / 291 11.11 数据应用规划工具 / 292 11.11.1 业务架构梳理工具 / 293 11.11.2 数据应用规划工具 / 293 11.11.3 指标与标签体系管理工具 / 293 11.11.4 数据资源盘点工具 / 294 11.11.5 数据应用规划看板 / 294