roc曲线下面积意义:R语言ROC曲线下的面积-评估逻辑回归中的歧视
原文链接:http://tecdat.cn/?p=6310
在讨论ROC曲线之前,首先让我们在逻辑回归的背景下考虑校准和区分之间的区别。
对于模型协变量的给定值,我们可以获得预测的概率。如果观察到的风险与预测的风险(概率)相匹配,则称该模型已被很好地校准。也就是说,如果我们要分配一组值的大量观察结果,这些观察结果的比例应该接近20%。如果观察到的比例是80%,我们可能会同意该模型表现不佳 - 这低估了这些观察的风险。 我们是否应满足于使用模型,只要它经过良好校准?不幸的是。为了了解原因,假设我们为我们的结果拟合了一个模型但没有任何协变量,即模型: 对数几率,使得预测值将与数据集中的观察的比例相同。 这个(相当无用的)模型为每个观察分配相同的预测概率。它将具有良好的校准 - 在未来的样品中,观察到的比例将接近我们的估计概率。然而,该模型并不真正有用,因为它不区分高风险观察和低风险观察。这种情况类似于天气预报员,他每天都说明天下雨的几率为10%。这个预测可能已经过很好的校准,但它没有告诉人们在某一天下雨的可能性是否更大或更低,因此实际上并不是一个有用的预测!
接下来,我们从拟合的模型对象中提取拟合概率的向量:
predpr < - predict(mod,type = c(“response”))
受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以假阳性概率(False positive rate)为横轴,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。
ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。传统的诊断试验评价方法有一个共同的特点,必须将试验结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果划分为多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。
大家不用担心,编者已为各位编制了一个Excel计算小工具了,输入两个生存率/ROC面积及其标准误,即可自动计算Z值和P值了,在下图E1、E2、F1、F2分别输入两组的曲线下面积/生存率及其标准误,即可得到Z值(A2)、双侧P值(B2)以及单侧P值(C2)。其结果与上图一致。
一起学统计工具后,回复ROC即可获取ROC曲线下面积/生存率比较小工具。
本订阅号已实现智能检索功能,回复任意关键词可检索相关文章。
回复关键词可能有惊喜
数据|问卷星|百度云|ROC
电子书|epidata|epiinfo| minitab |SPSS
pair|MedCalc|Prism| 临床试验 |gpower
OpenEpi|SPSS24|minitab17| empower
文献|SPSS12|minitab14| 统计咨询 |统计方法