roc指标详解:你的预测模型靠谱吗?详解区分度和校准度的SPSS操作!

股票学习网 发布:2021-11-03 11:06:33 阅读:622次

基于风险预测模型的预后研究一直以来都是研究者关注的热点,各种各样的预测模型质量参差不齐,常常让人眼花缭乱,那么如何去评价一个模型的好坏,或者说当你构建出一个疾病风险预测模型后,它到底靠不靠谱,值不值得去推广和使用呢?这是一个我们需要去好好考量的问题。

一个好的疾病风险预测模型,它不只是简单的因变量和自变量的数学组合,它背后的实际临床意义才是我们所要把握的重点,这就要求预测模型不仅要有很好的区分度(Discrimination),同时还要具备良好的校准度(Calibration)

Discrimination和Calibration是我们在评价预测模型时最常用到的一对指标,但是2015年Circ Cardiovasc Qual Outcomes杂志(影响因子:4.5)上发表的一项关注心血管疾病预测模型的系统综述发现,63%的研究报告了预测模型的Discrimination信息,但仅36%的研究报告了Calibration信息,使得预测模型的质量成为研究泛滥的重灾区。

本期内容我们就来向大家介绍一下这两个重要的指标,尤其是常常被人忽略的Calibration。

区分度(Discrimination)

介绍Calibration之前,我们先简单介绍一下Discrimination。顾名思义,一个好的疾病风险预测模型,它能够把未来发病风险高、低不同的人群正确地区分开来,预测模型通过设置一定的风险界值,高于界值判断为发病,低于界值则判断为不发病,从而正确区分个体是否会发生结局事件,这就是预测模型的区分度(Discrimination)。

评价预测模型区分能力的指标,最常用的就是大家非常熟悉的ROC曲线下面积(AUC),也叫C统计量(C-statistics)。AUC越大,说明预测模型的判别区分能力越好。一般AUC<0.6认为区分度较差,0.6-0.75认为模型有一定的区分能力,>0.75认为区分能力较好。

小咖前期已经推送过很多有关ROC的文章,需要的同学可以自行检索学习哈。(点击查看:【合集】15篇诊断试验和ROC曲线文章,从理论到操作,要啥有啥!)

校准度(Calibration)

预测模型的校准度(Calibration),是评价一个疾病风险模型预测未来某个个体发生结局事件概率准确性的重要指标,它反映了模型预测风险与实际发生风险的一致程度,所以也可以称作为一致性。校准度好,提示预测模型的准确性高,校准度差,则模型有可能高估或低估疾病的发生风险。

在实际的应用中,通常用Hosmer-Lemeshow good of fit test(拟合优度检验)来评价预测模型的校准度。Hosmer-Lemeshow检验的基本思路如下:

1. 首先根据预测模型来计算每个个体未来发生结局事件的预测概率;

2. 根据预测概率从小到大进行排序,并按照十分位等分成10组;

3. 分别计算各组的实际观测数和模型预测数,其中模型预测数,即每个人的预测概率*人数,再求总和,这里人数即为1,最后总和就相当于每个个体预测概率的直接加和;

4. 根据每组实际观测数和模型预测数计算卡方值(自由度=8),再根据卡方分布得到对应的P值。

若所得的统计量卡方值越小,对应的P值越大,则提示预测模型的校准度越好。若检验结果显示有统计学显著性(P<0.05),则表明模型预测值和实际观测值之间存在一定的差异,模型校准度差。

区分度和校准度的SPSS操作

一、建立数据库

某研究人员拟建立一个关于冠心病患者支架介入术后再次发生MACE事件(Major Adverse Cardiovascular Events,主要心血管不良事件)的风险预测模型,并对该风险模型的预测能力进行评价。数据库格式如下图所示。

其中因变量(结局事件)为Event,自变量(影响因素)为性别(Gender)、年龄(Age)、收缩压(SBP)、吸烟(Smoking)、低密度脂蛋白胆固醇(LDL)及冠脉病变Syntax评分(SYNTAX)。

二、构建预测模型

本研究利用Logistic回归构建预测模型(若研究为含有时间变量的生存数据,则可采用Cox回归模型)。Logistic回归的操作步骤对大家来说应该早就是小case了,操作方法如下:

1. Analyze → Regression → Binary Logistic Regression

2. 将因变量Event选入Dependent框中,将各个自变量选入Covariates框中

3. 点击Save,在Predicted Values下勾选Probabilities,目的是为了在数据库中新生成一个概率值,用于绘制ROC曲线和校准曲线图。

3. 点击Save,在Predicted Values下勾选Probabilities,目的是为了在数据库中新生成一个概率值,用于绘制ROC曲线和校准曲线图。

4. 点击Options,勾选Hosmer-Lemeshow goodness-of-fit,用于输出Hosmer-Lemeshow拟合优度检验的结果。

三、Logistic回归结果

Variable in the Equation中输出了每个影响因素的回归系数(β)、OR值、95% CI以及P值等信息。回归方程如下:

logit (p)= -8.713 - 0.899*Gender + 0.05*Age + 0.021*SBP + 0.912*Smoking + 0.438*LDL + 0.07*SYNTAX

四、模型区分度(Discrimination)

通过绘制ROC曲线,计算AUC,即C统计量来评价模型的判别区分能力。具体操作步骤为:

1. Analyze → ROC Curve

2. 将新生成的预测概率值PRE_1作为检验变量Test Variable ,将Event作为状态变量State Variable,并设定Value of State Variable为1

3. 勾选ROC Curve用于绘制ROC曲线

勾选Standard error and confidence interval用于输出AUC及其标准误和95%可信区间。

预测模型ROC曲线如下图所示,曲线下面积AUC为0.782>0.75,95% CI为0.726-0.838,提示该预测模型的区分能力较好。

五、模型校准度(Calibration)

通过Hosmer-Lemeshow拟合优度检验来评价预测模型的校准能力。结果显示,Hosmer-Lemeshow χ2 =4.864,P=0.772>0.05,提示模型预测值与实际观测值之间的差异没有统计学显著性,预测模型有较好的校准能力。

同时SPSS还输出了Hosmer-Lemeshow检验列联表,表中将每个研究对象的预测概率从小到大进行排序,并按照十分位分成10组,分别列出了每一组实际观测值(Observed)和模型预测值(Expected),从而可以在每一个分组下进行直观的比较,来帮助判断模型的校准能力。

六、模型校准图形(Calibration Plot)

既然在评价预测模型区分度的时候,结果可以通过绘制ROC曲线进行可视化,那么对于预测模型的校准度,我们也同样可以绘制校准图使结果可视化。

当价格沿着日OLL上轨运行时,市场为单边上涨行情,该情况下一般为爆发性行情,持有多单的一定要守住,只要价格不脱离上轨区域就耐心持有。

2、爆发性下跌

当价格沿着日OLL下轨运行时,市场为单边下跌行情,该情况一般为一拨快速下跌行情,持有的空单只要价格不脱离下轨,要做的也是耐心持有。

3、缩口后的突然扩张状态

BOLL通道缩口后的突然扩张状态。当行情在 BOLL通道缩口状态下经过一段时间的振荡整理后,BOLL通道会突然扩张,这意味着一拨爆发性行情己经来临,从此之后行情便会进入单边行情。在此情况下我们可以积极顺应行情建仓。

此种行情为多空力量博弈后,分手扬镰,爆发性极强,多为直线式行情,根据中轨方向顺势交易即可,中线持仓,出局可等待中轨走平(突破)

3月行情已经开始爆发,选取牛股的机会很多。回顾下笔者在近期给大家选出的一批牛股,到目前还在大涨,就来讲一讲怎么选取的。

roc指标详解:你的预测模型靠谱吗?详解区分度和校准度的SPSS操作!所属专题: roc指标详解专题   本文《roc指标详解:你的预测模型靠谱吗?详解区分度和校准度的SPSS操作!》链接:http://www.gzhwuliu.cn/31292/
回顶部