生信分析 | 临床数据建模系列⑤-校准曲线应该怎么看?
阅读:3899 时间:2024-01-04

 

 

大家好,前几篇文章我们详细介绍了混淆矩阵ROC曲线,这些都是从区分度去评价或展示模型。还记得什么是区分度吗?(回忆戳这里顾名思义,就是指模型能不能正确的将人群区分为患者/非患者,高风险/低风险、死亡/存活等不同类别的能力。区分度本质上是判断模型的分类结果与真实的分类是否一致。

 

但其实我们在用模型进行分类是有个过程的,往往是先计算一个分类的概率/打分,再根据概率/分数临界点判断类别。区分度只从模型最终分类结果是否正确来评价模型却没有对模型在中间过程中计算得到的预测概率对不对来进行评价。今天我们就来学习,如何比较模型预测概率是否与实际发生的概率一致,以及如何可视化的展示。所以本期包括以下内容:

 

1校准度的作用和意义

2校准曲线结果解读

3实操过程

4文献实例

 

校准度的作用和意义

 

校准度(calibration):评估模型预测概率与实际发生概率的一致性,也称为拟合优度(goodness of fit)。一般我们将模型直接判定的类别(比如是否患病、是否为高风险以及是否死亡等)称为相对风险预测;而如果先假定所有人都有患病风险,区别在于患病风险的大小不同,那么模型判定的患病风险具体数值,即模型预测概率就被称为绝对风险预测。校准度就是评价模型绝对风险预测准确性的评价指标。

 

区分度和校准度有关联,但又不一定完全一致,一般来说区分度好的模型校准度并不一定好,但区分度较差的模型校准度一定不好。校准度较差意味着模型会高估或低估结局的发生概率。所以在进行模型评价的时候应该先评估区分度,然后在较高区分度的模型中进一步比较校准度,选出最好的模型

 

目前常用Hosmer-Lemeshow拟合优度检验法来评估二分类模型的校准度。该方法的基本思想是将观测样本按照预测概率大小分为若干组,然后计算每一组的观测频数(该组中实际患病的人数)和预测频数(该组中模型预测为患病的人数),最后计算出一条拟合直线,用拟合直线对观测频数和预测频数的差异进行检验。若P值小于给定的显著性水平,一般为0.05,则拒绝原假设,认为模型拟合不好,模型会严重高估/低估患病风险;否则,接受原假设,认为模型拟合良好。而校准曲线就是Hosmer-Lemeshow检验的结果可视化,能直观展示模型的预测概率与实际观测结果的一致性,仍是目前评价模型校准度的首选指标

 

校准曲线结果解读

     

 

 

图1  校准曲线示例图

 

校准曲线(calibration curve)中横坐标为预测概率,纵坐标为实际发生概率,图中对角虚线Ideal代表理想状况下预测概率与实际概率一直相等,红色实线Apparent为基于该模型的计算一次的风险概率与实际概率一致性,而蓝色实线Bias-corrected指对构建模型的数据进行自举重抽样后的结果。自举重采样(bootstrap-resampling)指从原始数据中重复(次数一般为100或1000)随机选择n个观察值的样本,并评估每个样本的校准度,然后计算平均值,相比计算一次风险概率,这种基于随机样本的平均风险概率更能反映模型是否具有稳定性,也避免了数据与模型过拟合。简单点说,校准曲线就是模型预测概率与实际发生概率的散点图连接散点后平滑处理就是现在看到的样子了。

 

图1可以看出预测概率与实际概率一致性较好,其中图中A点,说明预测概率低于实际发生概率,会低估疾病的发生;图中B点,说明预测概率高于实际发生概率,会高估疾病的发生;在实际发生概率大约在0.4-0.7之间时,模型预测准确度相对较低(蓝/红色实线偏离对角线较远)。

 

绘制过程

 

根据以上分析,我们了解到绘制校准曲线的关键信息是模型预测概率和实际发生概率,这又是如何得到的呢?简单来说是根据构建的Logistic回归模型计算的风险概率,按一定规律分组,计算每个组内的风险概率平均值和实际发生频率。以谱度众合临床报告中结果数据为例,我们来模拟这个绘制校准曲线的过程。

 

①  报告结果文件夹10.logistic_model\train\pred.csv文件中“yscore”这一列就是预测风险概率,“Group”列为实际发生结局的分组,“ypred”是模型预测分组结果,X为样本名,中间几列为用于建模的各蛋白在每个样本中的表达量;

 

图2  模型预测概率文件结构展示图

 

②将yscore进行分桶(简单理解为分组,一般分10组),常见的分桶方式有两种:一是将yscore从大到小排序后,按照样本数平均分为10组,每组样本数相等;二是将yscore按照从0到1,组距为0.1的规律,平均分为10组;

 

③计算10个分桶中yscore的桶内均值作为预测概率;

 

④计算10个分桶中实际患病者(Group=1)占该桶样本数的频率作为实际概率;

 

⑤将10对预测概率和实际概率分别作为横坐标值和纵坐标值得到10个散点;

 

⑥将这些点连起来,即为校准曲线中的Apparent线。

 

当然这个过程看起来简单,通过Excel即可实现,操作却很麻烦,但还好有在线工具可一键实现,这里我们先留个悬念吧,在这个系列后面的文章中会为大家揭晓~

 

文献实例

 

 

区分度和校准度都是模型性能评价的重要特征;然而,在已发表的医学文献中校准度却被严重低估。一项2015年发表针对心血管预后预测模型的系统综述指出,63%的文章评估了区分度,仅36%的文章评估了校准度。同志们,现在都2023年啦,建立预测模型在越来越多的研究中受到重视,相应地模型评价也应该更加规范全面,作为一家专注临床科研的公司,谱度众合明确地把校准曲线列为报告主要结果,我们也呼吁大家重视对模型校准度的评价。那么现有的文章是如何使用校准曲线?又得到什么结论呢?

 

这篇2023年发表于医学1区杂志Eur J Nucl Med Mol Imaging(IF 9.1)的文章“Predicting pathological highly invasive lung cancer from preoperative [18F]FDG PET/CT with multiple machine learning models”中基于术前放射组学特征开发了预测病理学高侵袭性肺癌的机器学习模型,比较了7种机器学习算法模型以及组合七种模型的集合模型(集合模型的预测概率为七种算法模型的预测概率平均值),最后对区分度表现最好的集合模型进行校准度评估,该校准图显示了高度侵袭性肺癌的预测概率与实际概率之间的一致性。与常规校准图不一样的是该图增加了右侧纵坐标——样本量,表示模型预测的分类(高浸润性肺癌组[橙色]和对照组[蓝色])在不同分桶中的占比情况。该图还增加了布里尔分数(Brier score),由(实际概率-预测概率)2的平均值计算而来,是衡量预测概率与实际概率差异程度的指标,该值越小,模型拟合越好。

 

图3  校准曲线案例一

 

 

另一篇2020年发表于医学1区杂志JAMA Dermatol(IF 10.9)的文章“Assessment and Comparison of Performance of ABCD-10 and SCORTEN in Prognostication of Epidermal Necrolysis”,作者分别用新评分ABCD-10与旧评分SCORTEN对表皮坏死松解症患者进行预后评估时,发现两者区分度没有显著差异,但通过校准曲线发现SCORTEN评分(图4-A)的一致性较好,只在较高的评分范围内可能会高估死亡率(曲线右上部向下偏移),相比之下,ABCD-10(图4-B)在较低的评分范围内可能低估了死亡率(曲线左部向上偏移),而在较高的评分范围高估了死亡率(曲线右部向下偏移),所以虽然两评分在区分度比较时无法分出胜负,但在校准度的比较下SCORTEN评分要优于ABCD-10评分。

 

 

图4  校准曲线案例二

 

 

可见高分文章中的预测模型校准度评估还是很必要的,甚至常作为文章的主要结果,并且也能在模型比较时区分度没有显著差异的情况下站出来提示模型优劣!关于校准度和校准曲线我们就介绍到这里啦,下周我们将讨论模型评估的另一个维度——临床效用。期待与您的下次相遇~如果有什么建议和问题欢迎评论区留言(●’◡’●)~更多科研干货,锁定谱度众合!

 

参考文献

 

[1]Alba AC, Agoritsas T, Walsh M, et.al. Discrimination and Calibration of Clinical Prediction Models: Users' Guides to the Medical Literature. JAMA. 2017 Oct 10;318(14):1377-1384.

[2]Wessler BS, Lai Yh L, Kramer W, et.al. Clinical Prediction Models for Cardiovascular Disease: Tufts Predictive Analytics and Comparative Effectiveness Clinical Prediction Model Database. Circ Cardiovasc Qual Outcomes. 2015 Jul;8(4):368-75.

[3]Onozato Y, Iwata T, Uematsu Y, et.al. Predicting pathological highly invasive lung cancer from preoperative [18F]FDG PET/CT with multiple machine learning models. Eur J Nucl Med Mol Imaging. 2023 Feb;50(3):715-726.

[4]Koh HK, Fook-Chong S, Lee HY. Assessment and Comparison of Performance of ABCD-10 and SCORTEN in Prognostication of Epidermal Necrolysis. JAMA Dermatol. 2020 Dec 1;156(12):1294-1299.