预测模型实战：基于R、SPSS和Stata"

作者：武松

ISBN:9787302639411

定价:￥118

字数:千字

页数:

出版时间:2023.11.01

开本:

版次:1-1

装帧:

出版社:清华大学出版社

简介

本书从生物医药三种建模讲起，引出临床预测模型，系统介绍了临床预测模型的基本思想与理论体系，并配合SPSS、Stata和R语言实战，让读者全面掌握临床预测模型的建模、评价、验证与展示技术，从而轻轻松松进行临床预测模型研究，顺利发表SCI（Science Citation Index，科学引文索引）论文。

本书分为7章，涵盖临床预测模型基础、模型构建相关问题、SPSS临床预测模型实战、Stata诊断模型实战、Stata预后临床预测模型实战、R语言诊断临床预测模型实战以及R语言预后临床预测模型实战。对于每个软件，基本由一个案例从建模到区分度、校准度、临床决策曲线评价，再到Nomo图展示以及合理性分析的完整流程，让学员体验真正实操案例教学。作者自编的一些自动分析插件以及自动制表代码，极大提升读者数据处理和论文发表的能力。

本书内容通俗易懂，实用性强，适用人群为生物医药领域医生、护士、硕博士研究生、医学高校教师，特别适合临床预测模型的入门读者和进阶读者阅读，另外，本书也适合作为相关培训机构的教材使用。

前言

序

　　说来惭愧！当年松哥（指作者本人）本科毕业，就到一所大学当统计学课程老师，好多问题自己还没搞懂，就战战兢兢走上了讲台，刚工作的几年，下课从来不敢在教室逗留，因为害怕学生问问题，自己好不容易有点明白，别被问糊涂了！但作为统计学课程老师，别人会认为你做统计肯定很厉害，所以总会被咨询各种统计问题，甚至也被直接委托分析，就这样边教书、边学习、边拿别人数据练手。

　　2009 年中国疾病预防控制中心博士毕业后，再次回到高校教书，生活回归恬淡安然。出于对统计的热爱，2013 年 3 月 5 日，松哥注册了一个微信公众号，取名“精鼎统计”，寓意“精益求精，敬畏为鼎”，开启统计科普之旅，眨眼也有 10 年了。有时回头想想，还挺佩服自己的耐力和坚持。粉丝量从几十名、几百名、几千名、几万名，到现在已经近 20 万名。 10 年来，几乎每天撰写统计推文，回答后台的统计咨询，这是对自己刮骨吸髓的知识榨取，也迫使自己不停地学习：从大学课堂基础的统计知识，到更接近科研、更接近实战的各种统计方法，从当初的 SPSS，到 SAS 、Stata 、R 、Revman 、Medcalc 、Graphpad Prism、 Winsteps 、PASS 、JMP 、Citespace 等；从某些领域的一知半解，到系统完备的知识体系。

　　一路走来，虽然是一名大学统计学老师，但也深感自学统计学的艰辛，深感“书到用时翻不到”，或者过多的原理解释而不给解决方案的困惑，遂萌生了自己写书的想法，于是第一本合著《SPSS 统计分析大全》诞生了，该书至今依旧雄踞京东和当当同类图书排行榜前列。 2017 年，松哥突然萌发独自撰写一本书的大胆想法，于是 2018 年闭关一年，独著 51 万字的《SPSS 实战与统计思维》，并于 2019 年 1 月 1 日在各平台发行，至今有近 3 万册的销量。当该书截稿之时，备受一年来静坐著书导致颈椎、腰椎、头晕眼花之苦，决定再也不独自写书了，因为觉得写书乃非常人所能忍之事。

　　眨眼三年过去了，似乎忘了当年的腰椎与颈椎之苦，在处理临床预测模型数据，而苦于无系统资料可查时，肚中的那只书虫又蠢蠢欲动了。

　好吧，那就让过去过去，让开始开始！吾以吾书敬流年吧！于是查阅、整理资料，花了一年多的时间，看了不下几百篇文献，采用了 SPSS 、Stata 和 R 三种统计软件，并且在几家医院进行几期的预测模型培训，根据培训学员学习效果与反馈，进行了完善并形成最终的写作方案。

　　因为所有案例与材料已经具备，写起来还是非常顺利的。本书采取了案例式一镜到底式写法，即围绕一个案例建模，到区分度、校准度、决策曲线验证与 Nomo 展示，再到模型效果再评估，而不是机械地实现每一种孤立的方法。截至写此序之时，耗时 3 月有余，对于独著而言，应该算非常快了，但是这种快，不是不负责任文字堆砌，而是一年多来的厚积薄发！相信这本书将会是国内学者研究临床预测模型的一本值得拥有的参考书。

　　然而一己之力毕竟有限，老眼昏花之时，疏漏难免，虽极力避免，恐难十全，希瑕不掩瑜，以微薄之力，为您解决心中之惑！如发现一些瑕疵，请通过公众号和松哥反馈，同时给予一定的包容吧！另外，方法总在更新，技术总在进步，也许您在阅读本书之时，一些新的方法与技术又出现了，那就请关注松哥的公众号吧，更新内容肯定比出书要快捷一些！

　　感恩父母，感恩贤妻，感谢长子文博和幼子宸宇的陪伴和鼓励！本书的撰写亦受到安徽省教育厅质量工程项目（2020jyxm1037）、安徽中医药大学研究生教学改革研究项目（2019YJG005）支持，特此表示感谢！

　　　武松安徽·合肥

2023新款儿童保温水杯学生上学专用316食品级女孩直饮水壶迪士尼

优惠券：10元券

品牌正品儿童保

券后价：55.00元

316L不锈钢保温杯食品级硅胶吸管水杯男女童婴幼儿园上小学生宝宝

优惠券：10元券

316材质

券后价：39.80元

第1章临床预测模型基础 / 1

1.1 三种建模策略解读 / 1

1.1.1 风险因素发现模型 / 1

1.1.2 风险因素验证模型 / 2

1.1.3 临床预测模型 / 3

1.2 临床预测模型分类与分型 / 5

1.2.1 预测模型目的分类 / 5

1.2.2 预测模型数据来源分类 / 6

1.2.3 数据集分类 / 7

1.3 区分度-C指数 / 8

1.4 净重新分类指数 / 10

1.5 综合判别改善指数 / 12

1.6 校准度 / 13

1.6.1 Hosmer-Lemeshow检验 / 13

1.6.2 Calibration plot / 13

1.7 临床决策曲线 / 16

1.8 模型可视化（Visualization） / 18

1.9 交叉验证 / 19

1.9.1 简单交叉验证（Simple Cross Validation） / 20

1.9.2 K折交叉验证（K-Folder Cross Validation） / 20

1.9.3 留一法交叉验证（Leave-one-out

Cross Validation） / 20

1.10 自助抽样法 / 20

1.11 LASSO回归 / 21

1.12 临床预测模型报告规范 / 23

第2章模型构建相关问题 / 26

2.1 单变量进入模型的形式 / 26

2.1.1 数值变量进入模型的形式 / 26

2.1.2 等级变量进入模型的形式 / 27

2.1.3 分类变量进入模型的形式 / 28

2.2 模型构建策略探讨 / 29

2.2.1 先单后多法 / 29

2.2.2 全部进入法 / 29

2.2.3 百分之十改变量法 / 29

2.2.4 LASSO回归法 / 29

2.3 统计建模 / 30

2.3.1 危险因素筛选模型 / 30

2.3.2 风险因素验证模型 / 30

2.3.3 临床预测模型 / 30

第3章 SPSS临床预测模型实战 / 31

3.1 SPSS在诊断模型中的应用 / 31

3.1.1 数据拆分 / 32

3.1.2 统计建模 / 33

3.1.3 模型评价 / 38

3.2 SPSS在预后模型中的应用 / 42

第4章 Stata诊断模型实战 / 46

4.1 Logistic回归模型构建 / 46

4.1.1 先单因素分析 / 46

4.1.2 后多因素分析 / 50

4.1.3 正式后多因素分析 / 51

4.1.4 模型比较 / 54

4.1.5 最终模型 / 56

4.1.6 预测概率 / 57

4.2 Logistic回归模型区分度评价 / 57

4.2.1 训练集的AUC分析 / 58

4.2.2 训练集ROC曲线分析 / 58

4.2.3 验证集AUC 分析 / 59

4.2.4 验证集ROC分析 / 60

4.2.5 多条ROC曲线 / 60

4.3　Logistic回归模型校准度评价：HL检验

与校准曲线 / 61

4.3.1 基于HL函数的校准度 / 61

4.3.2 校准曲线加强版 / 63

4.3.3 Bootstrap校准曲线 / 67

4.4 Logistic回归模型临床适用性评价：临

床决策曲线（DCA） / 69

4.4.1 训练集临床决策曲线 / 70

4.4.2 验证集临床决策曲线 / 70

4.4.3 决策曲线优化 / 71

4.4.4 净减少曲线（Net Reduction） / 72

4.5 Logistic回归模型可视化：Nomo图 / 73

4.6 NRI和IDI / 75

4.6.1 NRI（净重新分类指数） / 75

4.6.2 IDI（综合判别改善指数） / 77

4.7 如何利用别人文章的模型 / 78

4.8 交叉验证 / 79

4.9 Bootstrap / 81

4.10 LASSO-Logit / 85

4.10.1 LASSO回归 / 86

4.10.2 路径图 / 88

4.10.3 CV-LASSO / 91

4.11 缺失值处理 / 93

4.11.1 直接删除法 / 93

4.11.2 单一插补法 / 93

4.11.3 多重插补法 / 93

第5章 Stata预后临床预测模型实战 / 100

5.1 模型构建 / 100

5.1.1 建立时间变量和结局变量 / 101

5.1.2 单因素分析 / 101

5.1.3 多因素分析 / 102

5.1.4 模型比较 / 104

5.1.5 确定最终模型 / 105

5.2 区分度 / 106

5.2.1 C-index / 106

5.2.2 C-index和Somers_D及 95%可信区间 / 107

5.2.3 时点ROC曲线（Time ROC） / 109

5.3 校准度 / 113

5.3.1 建立模型 / 113

5.3.2 训练集时点校准曲线 / 113

5.3.3 验证集时点校准曲线 / 114

5.3.4 训练集校准曲线加强版 / 114

5.3.5 验证集校准曲线加强版 / 115

5.4 决策曲线 / 117

5.4.1 建立模型 / 117

5.4.2 设立时间节点死亡概率 / 117

5.4.3 模型组与验证组DCA / 117

5.4.4 多模型DCA曲线 / 119

5.4.5 净获益的数据 / 120

5.5 Nomo图 / 120

5.5.1 构建模型 / 120

5.5.2 命令绘制Nomo图 / 120

5.5.3 窗口Nomo绘制 / 122

5.6 NRI与IDI / 123

5.6.1 NRI / 123

5.6.2 IDI / 125

5.7 Bootstrap / 126

第6章 R语言诊断临床预测模型实战 / 129

6.1 Logistic回归模型构建 / 129

6.1.1 单因素分析 / 129

6.1.2 多因素分析 / 138

6.2 Logistic回归模型区分度评价 / 154

6.2.1 训练集AUC与ROC / 155

6.2.2 验证集AUC和ROC / 159

6.2.3 绘制多条ROC曲线 / 163

6.2.4 两条ROC曲线比较 / 165

6.2.5. Bootstrap法ROC内部验证 / 166

6.3 Logistic回归校准度评价：HL检验与校

准曲线 / 168

6.3.1 calibrate包val.prob函数校准曲线实现 / 168

6.3.2 Hosmer-Lemeshow test检验 / 170

6.3.3 riskRegression包plotCalibration函数校准曲

线实现 / 171

6.3.4 lrm+calibrate+plot校准曲线实现 / 172

6.3.5 校准曲线方法四（Bootstrap法) / 174

6.4 Logistic回归模型临床决策曲线

（DCA） / 175

6.4.1 软件准备工作 / 176

6.4.2 rmda包决策曲线实现 / 176

6.4.3 临床影响曲线（clinical impact curve） / 180

6.4.4 DCA及可信区间 / 182

6.4.5 交叉验证DCA / 182

6.4.6 DCA包临床决策曲线绘制 / 183

6.5 Logistic回归模型可视化：Nomo图 / 185

6.5.1 rms包常规普通列线图回归 / 186

6.5.2 regplot包绘制交互列线图 / 187

6.5.3 普通列线图变种 / 189

6.5.4 DynNom包动态列线图 / 190

6.5.5 制作网络版动态列线图 / 193

6.6 Logistic回归模型诊断效果评价 / 197

6.6.1 诊断试验评价 / 198

6.6.2 ROC曲线比较 / 198

6.6.3 Logistic回归分析 / 199

6.7 NRI和IDI / 200

6.7.1 净重新分类指数 / 200

6.7.2 综合判别改善指数 / 202

6.8 如何验证别人已经发表的模型 / 204

6.9 LASSO在Logistic回归中应用 / 205

6.9.1 软件包准备 / 205

6.9.2 数据准备 / 205

6.9.3 LASSO-Logit / 205

6.9.4 CV-LASSO / 207

6.10 交叉验证与Bootstrap / 209

6.10.1 简单交叉验证 / 210

6.10.2 十重交叉验证 / 211

6.10.3 留一法交叉验证 / 212

6.10.4 Bootstrap CV / 213

6.10.5 Bootstrap ROC / 214

第7章 R语言预后临床预测模型实战 / 216

7.1 COX回归模型构建 / 217

7.1.1 数据读取 / 217

7.1.2 软件包准备 / 218

7.1.3 先单因素分析 / 218

7.1.4 后多因素分析 / 219

7.1.5 批量单因素分析 / 220

7.1.6 多因素分析 / 222

7.1.7 模型比较 / 226

7.2 预后模型区分度分析 / 229

7.2.1 Concordance index / 229

7.2.2 Time-ROC / 234

7.2.3 时间依赖AUC / 239

7.3 预后模型校准度分析 / 244

7.3.1 基于rms包的校准曲线 / 244

7.3.2 基于pec包的校准曲线 / 250

7.4 预后模型决策曲线分析 / 255

7.4.1 基于stdca.R的决策曲线 / 257

7.4.2 基于dcurves包的决策曲线 / 263

7.4.3 基于ggDCA包的决策曲线 / 270

7.5 交叉验证 / 274

7.6 预后模型Nomo展示 / 277

7.6.1 普通生存概率列线图 / 277

7.6.2 中位生存时间列线图 / 279

7.6.3 网格线列线图 / 280

7.6.4 动态列线图 / 280

7.7 NRI和IDI / 283

7.7.1 NRI（净重新分类指数） / 283

7.7.2 IDI / 285

7.8 LASSO-COX / 286

7.8.1 数据准备 / 286

7.8.2 LASSO-COX / 286

7.8.3 CV-LASSO / 288

7.9 模型效果验证 / 290

7.9.1 风险分组后KM曲线 / 290

7.9.2 风险得分图 / 293

7.10 生存分析数值变量分类方法 / 295

7.10.1 Time-ROC / 295

7.10.2 X-Tile / 297

参考资料 / 299

作者简介

编辑推荐

"从统计小白到领域精英，厘清思路，注重实战，解决问题！

全面拆解临床预测模型知识体系

真实案例一镜到底，助您充分掌握预测模型全流程

不仅讲授方法，更注重经验总结，扫除疑难杂症

作者寄语

武松（松哥统计），安徽中医药大学副教授，中国疾病预防控制中心流行病与卫生统计学博士，世界中联临床科研统计学会理事，国家高级统计分析师，SPSS高级数据分析师。擅长SPSS、SAS、R、Stata等多种统计软件，国内多家杂志编委。目前为止主持课题8项，协作子课题12项，出版SPSS统计软件专著2部，均为畅销书，参与编写了7部图书，参与过“十一五” “国家自然基金” “卫生部专项基金”等数十项课题数据分析，经验丰富。在国家级刊物作为第一作者或通讯作者发表文章40余篇，获得国家发明专利1项，获得计算机软件著作权5项，获得上海市出入境检验检疫局科技兴检三等奖1项。

电子资料