生信分析 | 临床数据建模系列②-关于临床预测模型评价的几件大事
阅读:1927 时间:2023-12-13

各位老师,大家好!经过上一篇学习(点击查看详情),我们已经学会了如何使用Lasso回归去筛选变量和建模。但就好比我们平时做好一道菜光看颜值还不够,还需要尝尝口味、嗅嗅香味、评估一下菜品的营养价值。模型好不好,我们也需要进行评估,当有多个预测模型的时候,还需要统一的标准对不同模型进行比较。

 

那么本期就为大家高度简练地介绍评价模型优劣的三个方面:区分度、校准度和临床效用,以及这三种评价的常用的方法。我们还会在后面的文章中对常用方法的原理和实现方式,进行更细致的介绍请大家关注“谱度众合”公众号,跟进后面的干货内容吧!今天的主要内容如下:

 

1 区分度

1.1 混淆矩阵

1.2 ROC曲线

1.3 C-index

1.4 NRI

1.5 IDI

2 校准度

2.1 Hosmer-Lemeshow拟合优度检验

2.2 校准图

3 临床效用

3.1 DCA决策曲线分析

3.2 CIC临床影响曲线

 

 

01  区分度(discrimination)

 

区分度评估的是模型能不能正确将人群分为患者/非患者、高风险/低风险、死亡/存活等不同类别的能力。


1.1 混淆矩阵:若结局为二分类变量
根据模型预测结果与真实情况异同会出现的四种情况制作四格表。0代表阴性结果,1代表阳性结果。横轴为真实情况,纵轴为预测结果因此左上和右下方格(深蓝色格子)表示预测情况与真实情况一致,其中数字越大,证明预测结果越准确。依据该表格可计算错分率:浅蓝色格子中数目之和/四格数目总和。

 

 

 

1.2 受试者工作特征(ROC,receiver operating characteristic)曲线:横坐标代表假阳性率(为1-特异度),纵坐标代表真阳性率(为灵敏度),我们希望模型的灵敏度和特异度都尽可能大,表现在ROC曲线中为最靠近左上角的切点。根据该曲线下面积(AUC,area under curve)大小判断模型预测值与真实值之间区分度,越接近1模型区分度越好。一般认为AUC>=0.90,模型区分能力优秀;0.90>AUC>=0.75,模型区分能力良好;0.75>AUC>=0.60,模型有一定区分能力,但不推荐使用;0.60>AUC,模型区分能力差

 

 

 

 

1.3 C-index:一致性指数(concordance index),在Logistic回归模型中等于AUC值,此外也用于展示生存分析中的Cox回归建立的模型预测值与真实之间的区分度。在生存分析中,将所有研究对象随机地两两组成对子,用模型预测每一对研究对象生存时间谁更长谁更短,如果预测的比较结果与实际生存时间比较的结果一致,则称之为预测结果与实际结果一致。这种一致结果的对子所占的比例(即预测结果与实际观察到的结果相一致的概率)就是C-index。C-index在0.5-1之间。0.5表示完全随机,说明该模型没有预测作用;1表示完全一致,说明该模型预测结果与实际完全一致,因此C-index越接近1,模型的区分度越好。


     1.4 NRI:净重新分类指数(net reclassification index),NRI主要用来比较两个模型预测的准确性。已知研究人群真实分类情况、旧模型预测的分类情况、新模型预测的分类情况,可以整理成如下两个四格表。

 

 

 

两个表格的左上格(A1、A2)和右下格(D1、D2)表示的是新旧两种模型表现相同的情况,不用于单个模型的区分度评估。NRI主要关注两种模型表现不一致的情况。在患者组(N1)中,新模型正确分类而旧模型错误分类的有B1人,新模型错误分类而旧模型正确分类的有C1个人,那么新模型相比旧模型,正确分类提高的比例为(B1-C1)/N1。同理,在非患者组中,新模型相比旧模型正确分类提高的比例为(C2-B2)/N2。最终两模型比较后的NRI=(B1-C1)/N1+(C2-B2)/N2,如果NRI>0,说明新模型预测能力有所提升


    1.5 IDI:综合判别改善指数(integrated discrimination improvement),也常用来比较两个模型预测的准确性,但相比NRI和混淆矩阵只考虑一个切点下的分类情况不同,IDI计算基于疾病模型对每个个体的预测概率,更能考察模型的整体情况

 

 

这里的new和old表示新旧两种模型,events 和non-events分别表示患病组和不患病组。所以Pnew, eventsPold, events分别表示在患者组中,新模型和旧模型对于每个个体预测疾病发生概率的平均值,两者相减表示预测概率的变化量,对于患者来说,预测患病的概率越高,模型越准确。Pnew, non-eventsPold, non-events分别表示在非患者组中,新模型和旧模型对于每个个体预测疾病发生概率的平均值,两者相减表示预测概率的变化量,对于非患者来说,预测患病的概率越低,模型越准确。若IDI>0,则说明新模型的预测能力提升

 

 

02 校准度(calibration)

 

模型进行预测时,要先计算结局发生概率,在该概率分布下取截断值进行分类判断。因此,还需要对这个预测的概率是否准确进行评价。校准度指的是结局实际发生的概率和模型预测出的概率之间的一致性,所以校准度也可以称作为一致性。校准度好,提示预测模型的准确性高;校准度差,则模型有可能高估或低估疾病的发生风险。

 

2.1 Hosmer-Lemeshow拟合优度检验:评估用模型计算出的预期概率和实际概率是否拟合,如P<0.05,表明模型的预测值与观测值存在显著差异,模型拟合效果欠佳;P>0.05指在可接受的水平上模型预期概率较好的拟合了实际概率。拟合的结果通过校准图展示。


   2.2 校准图:校准图(Calibration plot)中的校准曲线是Hosmer-Lemeshow拟合优度检验结果的可视化,是实际发生概率与预测概率的散点图。下图中横坐标为预测的事件发生率(Predicted Probability),纵坐标是观察到的实际事件发生率(Observed Probability),范围均为0到1,对角线的虚线是参考线,即预测值=实际值的理想情况。红色校准曲线展示本次数据集中实际发生概率与预测概率的一致性,蓝色校准曲线指经过多次Bootstrap重复自抽样法(产生多个数据集对模型一致性进行内部验证)后实际发生概率与预测概率一致性。预测概率与实际发生概率越接近(图中Apparent和Bias-corrected线越靠近对角线)则模型的拟合效果越好

 

 

03 临床效用(clinical utility)

 

临床中在利用模型判断是否进行治疗时,还需要考虑误诊和漏诊损害患者利益的情况,就需要计算模型的临床收益。


     3.1 决策曲线分析(decision curve analysis,DCA):指的是综合考虑患者风险和获益的可能范围来评估临床决策是否可行的方法,用于评价预测模型的临床效用。用模型进行诊断其实是通过计算风险概率,取截断值分类后再判断是否为阳性的,那么就可能会出现假阳性,当应用该模型判断是否对病人施加干预措施时,就有可能产生对假阳性者施加干预的弊端。此外,对于一个病人来说,治疗本身就是有利有弊的,临床上是否治疗会取决于临床医生的经验、疾病治疗的有效性和并发症,以及患者接受治疗风险和负担的意愿等多种因素,所以引入一个关键概念是概率阈值(指需要实施干预或治疗的最小概率),当模型预测概率高于概率阈值,则对患者进行治疗,此时施加治疗带来的利减去弊就是患者的净收益,下图中红色的决策曲线为根据模型进行治疗带来的净收益根据不同概率阈值产生的变化。而底部黑色横线None代表全都不进行治疗的0净收益,灰色曲线All代表全部进行治疗的净收益的变化值。在一定范围内,模型的净收益率越高其临床效用越大。(碍于篇幅无法展开,后续还会有文章介绍DCA。)

 

3.2 临床影响曲线(clinical impact curve,CIC):DCA的变种,上层横坐标指概率阈值,纵坐标是人数。紫色线表示在不同的概率阈值下,被模型判定为高风险的人数;红色线条表示在不同的概率阈值下,被模型判定为高风险且真的发生结局事件的人数。在下层横坐标还增加了一个“损失:获益比”,表示在不同的概率阈值下,损失和获益的比例。

 

 

千锤百炼始成钢”,好的模型就得禁得起各种“磨练”。以上就是关于临床预测模型评价的三个方面啦,建议按区分度、校准度、临床效用的顺序进行。区分度是首要的,是进行其他模型评价的基础。当然,这期内容只是对模型评价的简单介绍,后面我们将对报告中常见的混淆矩阵、临床截断值、ROC曲线、校准图、DCA曲线,进行详细的介绍、结果解读和实操示范,解答您的疑惑,还请大家多多关注+点赞+分享,更多科研干货锁定谱度众合~

 


参考文献
[1]Alba AC, Agoritsas T, Walsh M, et.al. Discrimination and Calibration of Clinical Prediction Models: Users' Guides to the Medical Literature. JAMA. 2017 Oct 10;318(14):1377-1384.[2]Zhou ZR, Wang WW, Li Y, et al. In-depth mining of clinical data: the construction of clinical prediction model with R. Ann Transl Med 2019;7:796.[3]Kerr KF. Net Reclassification Index Statistics Do Not Help Assess New Risk Models. Radiology. 2023 Mar;306(3):e222343.[4]Pencina MJ, D'Agostino RB Sr, D'Agostino RB Jr, et.al. Evaluating the added predictive ability of a new marker: from area under the ROC curve to reclassification and beyond. Stat Med. 2008 Jan 30;27(2):157-72; discussion 207-12.[5]Vickers AJ, Van Calster B, Steyerberg EW. Net benefit approaches to the evaluation of prediction models, molecular markers, and diagnostic tests. BMJ. 2016 Jan 25;352:i6.[6]Kerr KF, Brown MD, Zhu K, et.al. Assessing the Clinical Impact of Risk Prediction Models With Decision Curves: Guidance for Correct Interpretation and Appropriate Use. J Clin Oncol. 2016 Jul 20;34(21):2534-40.