
本书基于SPSS 24.0编写,在修正并完善第2版的基础上完成的;每章均有大量分析案例,结合案例对SPSS各模块的统计分析功能和图形功能进行详细讲解。本书具体内容为SPSS简介、SPSS数据挖掘系统介绍、数据文件管理、数据预处理、基本统计分析、多重反应分析、均值的比较与检验、统计图制作、参数检验、回归分析、方差分析、相关分析、聚类分析、判别分析、因子分析、对应分析、信度分析、生存分析、对数线性模型、时间序列分析、缺失值分析,以及SPSS在财务智能、数据预测、股市分析、社会经济分析、金融数据分析等方面的数据挖掘应用。 本书最大特点是抛弃了其他同类书籍中只介绍理论用法、缺乏案例分析的弊端,全书给出大量数据挖掘分析案例,并配有视频讲解,为读者展示SPSS在数据分析、信用风险管理、直销分析、社会经济分析等实际项目中的应用。
再版前言 SPSS(Statistical Product and Service Solutions,统计产品和服务解决方案)是当今国际上最流行的统计分析软件之一,具有界面友好、统计功能强大、前后处理功能完善等优点。SPSS提供了广泛的数据收集、分类、分析和处理技术,揭示了数据模式、异常,以及关键变量和关系,帮助企业深入洞察企业信息,做出更好决策。本书从SPSS窗口操作出发,用案例的形式介绍SPSS数据分析在各个领域的广泛应用。 本书集作者多年使用SPSS的工作经验,并在改正第2版错误的基础上编写,在编写过程中,突出了以下特点。 ① 直观易懂性。全书以图解实例的形式介绍基础知识和实例操作,所有的知识模块和案例分析都尽可能详细,模块操作采取中英文介绍的方式进行,直观易懂,使读者能够在最短的时间内获取最多的知识。 ② 先进性。以最新的SPSS 24.0中文版为蓝本进行讲解,中英文并用,广泛吸收国内外优秀教材的成果进行内容编排,在系统介绍基本理论和基本方法的同时,注意介绍新的成熟的内容,以及统计学在实际问题中的应用。 ③ 实用性。全书采用了基础知识介绍和实例操作相结合的方法,互相补充,书中的实例大多来源于经济生活之中,使读者在学完本书后能够快速将知识应用于实践。 ④ 结构清晰,讲解详尽。全书采用基础知识—窗口操作—综合实例分析的循序渐进的讲解方法,一步一步地提高读者的SPSS操作知识,而且每个知识点和实例都尽可能详细地讲解,使读者学习起来轻松自如。 ⑤ 全部的案例数据、程序与多媒体示范相结合。本书的配套光盘 中提供了所有实例的数据、SPSS窗口操作视频,读者可以在观看录像中增强对知识点的理解。 本书共24章,依次介绍SPSS基本文件管理、基本统计分析、高级统计分析、决策树模型、神经网络模型、信用风险、社会经济评价,以及各章节中的案例分析等内容。 第 1 章 SPSS软件概述。包括SPSS软件简介、SPSS操作入门、SPSS各个模块,以及SPSS帮助系统。 第 2 章 SPSS数据挖掘系统。包括数据挖掘概述、SPSS数据挖掘过程的介绍,以便掌握数据挖掘基本概念、流程等知识。 第 3 章 数据文件、变量与函数。包括SPSS的变量类型、SPSS数据文件的打开和保存,最后介绍SPSS的函数。 第 4 章 数据预处理。包括最基本的数据文件的整理和数据变量的变换和计算。 第 5 章 基本统计分析。包括基本概念、频数过程、描述性统计分析过程、数据探索性分析过程,以及交叉表分析过程。 第 6 章 参数检验。包括参数估计和假设检验的概述、平均值过程、单样本t检验、独立样本t检验以及成对样本 t 检验。 第 7 章 基本图形的绘制。包括统计图概述、条形图、折线图、面积图、饼图、高低图、质量控制图、箱图、散点图、直方图、P-P图和Q-Q图,以及时间序列图。 第 8 章 非参数检验。包括非参数检验概述、?2检验、二项分布检验、游程检验、K-S检验、两独立样本分布位置检验、多个独立样本分布位置检验、两个相关样本分布位置检验、多个相关样本分布位置检验。 第 9 章 方差分析。包括方差分析的基本原理、单因素方差分析、多因素方差分析和协方差分析。 第 10 章 回归分析。包括线性回归、非线性回归,以及Logistic回归过程。 第 11 章 相关分析。包括相关分析概述、双变量相关过程、偏相关分析过程,以及距离过程。 第 12 章 聚类分析。包括聚类分析的原理、快速聚类的分析过程、系统聚类的分析过程、二阶聚类的分析过程,以及实例分析。 第 13 章 判别分析。包括判别分析的基本原理、一般判别分析过程和逐步判别分析过程。 第 14 章 因子分析。包括因子分析概述以及SPSS中因子分析的操作过程。 第 15 章 对应分析。包括对应分析的基本原理、对应分析过程、最优标度分析过程。 第 16 章 可靠性和多维尺度分析。包括可靠性和多维标度的概述、分析过程及实例。 第 17 章 生存分析。包括生存分析概述、寿命表分析过程、Kaplan-Meier分析过程、Cox模型回归分析过程。 第 18 章 对数线性模型。包括对数线性模型概述、常规模型分析过程、分对数分析过程以及选择模型分析过程。 第 19 章 时间序列分析。包括时间序列概述、时间序列数据的预处理、指数平滑方法、ARIMA模型、季节性分解模型分析过程。 第 20 章 缺失值分析。包括SPSS中的缺失值理论概述、SPSS缺失值分析的操作过程,以及缺失值实例分析。 第 21 章 决策树模型。包括决策树模型概述、SPSS中决策树的参数设置,以及利用实例分析来介绍决策树模型的应用过程。 第 22 章 神经网络。包括神经网络概述、神经网络模型分析参数的设置及实例分析。 第 23 章 信用风险分析。包括主要信用风险概述,以及利用SPSS解决信用风险的各种实例分析。 第 24 章 SPSS在社会经济综合评价中的应用。包括SPSS的各种分析案例,包括沿海省市经济综合指标的主成分分析、中国城镇居民消费结构的聚类分析研究,以及我国内地可支配收入和消费性支出之间的回归分析。 本书主要由谢龙汉、蔡思祺完成,参与编著和光盘开发的还有林伟、魏艳光、林木议、王悦阳、林伟洁、林树财、郑晓、吴苗、李翔、朱小远、唐培培、耿煜、邓奕、张桂东、鲁力、于斌、尚涛、黄海等。由于时间仓促,书中难免有疏漏之处,请读者谅解。读者可通过电子邮件xielonghan @aliyun.com.cn与我们交流。 注:本书在介绍软件应用时,命令、选项等包含英文注释,有助于使用英文版软件的读者学习。 编著者
目 录 第1章 SPSS软件概述 1 1.1 SPSS简介 1 1.2 SPSS操作入门 2 1.2.1 软件安装、启动及退出 3 1.2.2 操作环境 4 1.2.3 系统参数的设置 7 1.3 SPSS的帮助系统 15 第2章 SPSS数据挖掘系统 17 2.1 数据挖掘概述 17 2.1.1 数据挖掘的含义 17 2.1.2 数据挖掘与OLAP 18 2.1.3 数据挖掘和统计学 18 2.1.4 数据挖掘的目的 19 2.1.5 数据挖掘应用 19 2.1.6 数据挖掘流程 19 2.2 成功的数据挖掘 20 2.2.1 CRISP-DM方法论 21 2.2.2 选择数据挖掘工具 25 2.2.3 SPSS数据挖掘 26 2.3 SPSS数据挖掘的过程 29 2.3.1 商业理解 29 2.3.2 数据理解 29 2.3.3 数据准备 29 2.3.4 数据模型 30 2.3.5 评估 30 2.3.6 部署 31 第3章 数据文件、变量与函数 33 3.1 SPSS的变量类型 33 3.1.1 数据的输入 34 3.1.2 变量的编辑 35 3.2 数据文件的打开和保存 36 3.2.1 打开SPSS数据文件 37 3.2.2 打开其他格式的数据文件 37 3.2.3 数据文件保存 38 3.3 SPSS函数 38 3.3.1 算术函数 39 3.3.2 统计函数 39 3.3.3 逻辑函数 40 3.3.4 日期和时间函数 40 3.3.5 随机变量函数 42 3.3.6 反分布函数 43 3.3.7 累计分布函数 44 3.3.8 缺失值函数 46 3.3.9 字符串函数 47 第4章 数据预处理 49 4.1 数据文件的整理 49 4.1.1 个案排序(Sort Case)过程 50 4.1.2 转置(Transpose)过程 50 4.1.3 合并文件(Merge File)过程 51 4.1.4 汇总(Aggregate)过程 53 4.1.5 拆分文件(Split File)过程 55 4.1.6 选择个案(Select Cases) 过程 55 4.1.7 个案加权(Weight Cases) 过程 56 4.2 数据变量的变换和计算 56 4.2.1 计算变量(Compute Variables)过程 57 4.2.2 计数(Count)过程 59 4.2.3 重新编码(Recode)过程 60 4.2.4 个案排秩(Rank Cases) 过程 61 4.2.5 自动重新编码(Automatic Recode)过程 63 第5章 基本统计分析 65 5.1 基本概念 65 5.1.1 基本的统计概念 65 5.1.2 描述性统计分析 67 5.2 频率分析 68 5.2.1 频率分析过程的操作界面 68 5.2.2 实例分析 70 5.3 描述性统计分析过程 72 5.3.1 描述性统计分析过程参数设置 72 5.3.2 实例分析 72 5.4 数据探索性分析过程 74 5.4.1 数据探索性分析过程参数设置 74 5.4.2 实例分析 75 5.5 交叉表分析过程 78 5.5.1 交叉表过程的参数设置 78 5.5.2 实例分析 81 第6章 参数检验 84 6.1 参数估计和假设检验概述 84 6.1.1 参数估计 84 6.1.2 假设检验 87 6.2 平均值(Means)过程 92 6.2.1 SPSS的平均值过程参数的设置 92 6.2.2 平均值过程实例 93 6.3 单样本t检验 94 6.3.1 单样本t检验过程的参数设置 94 6.3.2 实例分析 95 6.4 独立样本t检验 97 6.4.1 独立样本t检验过程的参数 设置 97 6.4.2 实例分析 98 6.5 成对样本t检验 100 6.5.1 成对样本t检验过程的参数 设置 100 6.5.2 实例分析 100 第7章 基本图形的绘制 103 7.1 统计图概述 103 7.2 条形图 104 7.3 折线图 108 7.4 面积图 110 7.5 饼图 111 7.5.1 饼图参数设置 111 7.5.2 实例分析 112 7.6 高低图 113 7.7 质量控制图 114 7.8 箱图 119 7.8.1 箱图参数设置 119 7.8.2 实例分析 120 7.9 散点图 121 7.9.1 散点图参数设置 122 7.9.2 实例分析 122 7.10 直方图 124 7.11 P-P图和Q-Q图 124 7.12 时间序列图 126 7.12.1 时间序列图参数设置 126 7.12.2 实例分析 130 第8章 非参数检验 133 8.1 非参数检验概述 133 8.2 检验 134 8.2.1 检验的参数设置 135 8.2.2 检验实例分析 137 8.3 二项分布检验 139 8.3.1 二项分布检验的参数设置 139 8.3.2 实例分析 139 8.4 游程检验 141 8.4.1 游程检验的参数设置 142 8.4.2 实例分析 142 8.5 单样本K-S检验 144 8.5.1 单样本K-S检验的参数设置 144 8.5.2 实例分析 145 8.6 两独立样本分布位置检验 147 8.6.1 两独立样本分布位置检验的 参数设置 148 8.6.2 实例分析 148 8.7 多个独立样本分布位置检验 150 8.7.1 多个独立样本分布位置检验的参数设置 150 8.7.2 实例分析 151 8.8 两个相关样本分布位置检验 153 8.8.1 两个相关样本分布位置检验的参数设置 153 8.8.2 实例分析 154 8.9 多个相关样本分布位置检验 155 8.9.1 多个相关样本分布位置检验的参数设置 156 8.9.2 实例分析 156 第9章 方差分析 159 9.1 方差分析的基本原理 159 9.1.1 自由度与平方和分解 160 9.1.2 F检验 162 9.1.3 多重比较 163 9.2 单因素ANOVA检验 164 9.2.1 单因素ANOVA检验步骤 165 9.2.2 判断与结论 166 9.2.3 单因素 ANOVA检验过程的 参数设置 167 9.2.4 实例分析 169 9.3 多因素方差分析 170 9.3.1 只考虑主效应的多因素方差 分析 171 9.3.2 存在交互效应的多因素方差 分析 173 9.3.3 单变量过程参数设置 175 9.3.4 实例分析 179 9.4 协方差分析 183 9.4.1 协方差分析概述 183 9.4.2 实例分析 184 第10章 回归分析 187 10.1 线性回归 187 10.1.1 线性回归模型 188 10.1.2 最小二乘估计 188 10.1.3 回归方程的显著性检验 189 10.1.4 预测问题 191 10.1.5 SPSS线性回归分析设置 192 10.1.6 回归分析模型的实例分析 196 10.2 非线性回归 199 10.2.1 非线性回归分析的基本原理 200 10.2.2 非线性回归参数设置 200 10.2.3 实例分析 203 10.3 Logistic回归 205 10.3.1 Logistic回归模型概述 206 10.3.2 二元 Logistic回归模型参数 设置 207 10.3.3 实例分析 210 第11章 相关分析 215 11.1 相关分析概述 215 11.1.1 相关关系 215 11.1.2 相关图形和相关系数 216 11.1.3 SPSS的相关分析功能简介 218 11.2 双变量(Bivariate)过程 218 11.2.1 双变量相关分析简介 218 11.2.2 双变量过程的参数设置 220 11.2.3 实例分析 222 11.3 偏相关(Partial)过程 224 11.3.1 偏相关过程的参数设置 224 11.3.2 实例分析 225 11.4 Distances(距离)过程 227 11.4.1 Distances过程的距离分析 参数设置 227 11.4.2 实例分析 230 第12章 聚类分析 232 12.1 聚类分析的原理 232 12.1.1 一般原理 233 12.1.2 聚类分析步骤 236 12.1.3 系统聚类方法 237 12.2 快速样本聚类过程 240 12.2.1 快速聚类简介 240 12.2.2 SPSS快速聚类的设置 240 12.2.3 实例分析 242 12.3 系统聚类过程 246 12.3.1 系统聚类简介 246 12.3.2 SPSS系统聚类设置 246 12.3.3 实例分析 249 12.4 二阶聚类分析 252 12.4.1 二阶聚类简介 252 12.4.2 SPSS二阶聚类的设置 253 12.4.3 实例分析 254 第13章 判别分析 257 13.1 判别分析的基本原理 257 13.1.1 判别分析简介 257 13.1.2 判别分析的数学模型与判别 方法 258 13.2 一般判别分析 265 13.2.1 一般判别分析的参数设置 265 13.2.2 实例分析 267 13.3 逐步判别分析 272 13.3.1 逐步判别的参数设置 272 13.3.2 实例分析 273 第14章 因子分析 279 14.1 因子分析简介 279 14.1.1 因子分析的基本原理 280 14.1.2 因子分析的基本步骤和过程 282 14.2 SPSS因子分析 283 14.2.1 SPSS因子分析的参数设置 283 14.2.2 实例分析 286 第15章 对应分析 291 15.1 对应分析的基本原理 291 15.2 对应分析 293 15.2.1 对应分析过程的参数设置 293 15.2.2 实例分析 296 15.3 最优标度过程 299 15.3.1 最优标度过程的参数设置 299 15.3.2 实例分析 306 第16章 可靠性和多维标度分析 310 16.1 可靠性分析 310 16.1.1 可靠性分析的基本原理 310 16.1.2 可靠性分析的参数设置 312 16.1.3 实例分析 314 16.2 多维标度分析 316 16.2.1 多维标度分析简介 316 16.2.2 多维标度过程的参数设置 317 16.2.3 实例分析 320 第17章 生存分析 323 17.1 生存分析简介 323 17.1.1 生存分析的基本概念 323 17.1.2 生存资料的特点 325 17.1.3 生存分析方法 326 17.1.4 SPSS中的生存分析过程 326 17.2 寿命表(Life Tables)过程 327 17.2.1 寿命表分析过程的参数设置 327 17.2.2 实例分析 328 17.3 Kaplan-Meier分析 332 17.3.1 Kaplan-Meier分析过程的参数 设置 332 17.3.2 实例分析 334 17.4 Cox模型回归分析 337 17.4.1 Cox回归模型 337 17.4.2 Cox模型分析过程的参数设置 339 17.4.3 实例分析 343 第18章 对数线性模型 348 18.1 对数线性模型概述 348 18.2 常规模型(General)过程 349 18.2.1 常规模型分析过程的参数 设置 349 18.2.2 实例分析 351 18.3 分对数(Logit)过程 354 18.3.1 分对数分析过程的参数设置 354 18.3.2 实例分析 357 18.4 选择模型(Model Selection)过程 360 18.4.1 选择模型分析过程的参数 设置 360 18.4.2 实例分析 362 第19章 时间序列分析 365 19.1 时间序列概述 365 19.1.1 时间序列的组成部分 365 19.1.2 时间序列的数学模型 366 19.1.3 时间序列的分析步骤 368 19.1.4 SPSS时间序列分析功能 368 19.2 时间序列数据的预处理 375 19.2.1 缺失值替换 375 19.2.2 定义时间变量 376 19.2.3 时间序列预测的平稳化 376 19.3 指数平滑模型过程 377 19.3.1 指数平滑的基本原理 377 19.3.2 指数平滑模型分析过程的 参数设置 380 19.3.3 实例分析 381 19.4 ARIMA模型 386 19.4.1 ARIMA模型的基本原理 386 19.4.2 ARIMA模型分析过程的参数 设置 389 19.4.3 实例分析 390 19.5 季节性分解模型 394 19.5.1 季节性分解模型分析过程的 参数设置 394 19.5.2 实例分析 395 第20章 缺失值分析 399 20.1 缺失值理论概述 399 20.1.1 数据缺失方式 400 20.1.2 缺失值处理方法 400 20.2 SPSS缺失值分析 404 20.2.1 缺失值分析过程的参数设置 404 20.2.2 实例分析 408 第21章 决策树模型 414 21.1 决策树模型概述 414 21.1.1 CHAID算法 416 21.1.2 Exhaustive CHAID算法 417 21.1.3 CRT算法 417 21.1.4 QUEST算法 418 21.2 决策树的参数设置 418 21.2.1 变量设置 418 21.2.2 类别(Categories)设置 419 21.2.3 输出(Output)设置 420 21.2.4 验证(Validation)设置 422 21.2.5 保存(Save)设置 423 21.2.6 条件(Criteria)设置 424 21.2.7 CHAID算法设置 425 21.2.8 CRT算法设置 425 21.2.9 QUEST算法设置 426 21.2.10 修剪(Pruning)设置 426 21.2.11 替代变量(Surrogates)设置 427 21.2.12 选项(Options)设置 427 21.2.13 错误分类成本设置 428 21.2.14 利润(Profits)设置 428 21.2.15 先验概率(Prior Probabilities)设置 429 21.2.16 实例分析 430 21.2.17 模型建立 430 21.2.18 模型评估 432 第22章 神经网络 439 22.1 神经网络概述 439 22.1.1 历史及现状 440 22.1.2 神经网络特点 441 22.1.3 神经元模型 442 22.1.4 神经网络模型 443 22.1.5 神经网络的学习规则 443 22.1.6 SPSS神经网络模型 444 22.2 SPSS神经网络模型的设置 447 22.2.1 多层感知器(MLP)分析 过程的参数设置 447 22.2.2 径向基函数(RBF)分析过程 的参数设置 454 22.3 实例分析 456 22.3.1 参数设置 457 22.3.2 结果分析 459 第23章 信用风险分析 464 23.1 信用风险概述 464 23.1.1 信用风险基本概念 464 23.1.2 信用风险度量方法 465 23.1.3 SPSS中信用风险分析模块 468 23.2 实例分析 468 23.2.1 二元Logistic分析过程 468 23.2.2 决策树分析过程 474 23.2.3 判别式分析过程 479 第24章 SPSS在社会经济 综合评价中 的应用 484 24.1 沿海省市经济综合指标的主成分 分析 484 24.2 中国内地城镇居民消费结构的聚类 分析 488 24.3 我国内地可支配收入和消费性支出 之间的回归分析 492
谢龙汉,华南理工大学机械与汽车工程学院,副院长。2002年毕业于浙江大学过程装备与控制工程专业本科,在浙江大学华工过程机械研究所取得硕士学位,之后在广州本田汽车有限公司研发中心工作过两年,2010年获得香港中文大学机械与自动化工程系的博士学位。国内外学术期刊上发表30多篇学术论文,在CAE方面出版过多部著作,写作经验丰富,作品技术含量高,实用性强。
http://www.hxedu.com.cn/hxedu/fg/book/bookinfo.html?code=TP329070