本内容为【科研私家菜】R语言机器学习与临床预测模型系列课程
R小盐准备介绍R语言机器学习与预测模型的学习笔记
你想要的R语言学习资料都在这里, 快来收藏关注【科研私家菜】
01 模型校准度评价
一个好的疾病风险预测模型,它不只是简单的因变量和自变量的数学组合,它背后的实际临床意义才是我们所要把握的重点,这就要求预测模型不仅要有很好的区分度(Discrimination),同时还要具备良好的校准度(Calibration)。
校准度calibration,常用Hosmer-Lemeshow (H-L) test评价,所得统计量卡方值越小、对应P值越大校准度越好
Calibration measures a model’s ability to generate predictions that are on average close to the average observed outcome. The most widely used method for doing this in hospital mortality models is the Hosmer-Lemeshow (H-L) test, which examines how well the percentage of observed deaths matches the percentage of predicted deaths over deciles of predicted risk.
预测模型的校准度(Calibration),是评价一个疾病风险模型预测未来某个个体发生结局事件概率准确性的重要指标,它反映了模型预测风险与实际发生风险的一致程度,所以也可以称作为一致性。校准度好,提示预测模型的准确性高,校准度差,则模型有可能高估或低估疾病的发生风险。
在实际的应用中,通常用Hosmer-Lemeshow good of fit test(拟合优度检验)来评价预测模型的校准度。Hosmer-Lemeshow检验的基本思路如下:
首先根据预测模型来计算每个个体未来发生结局事件的预测概率;
根据预测概率从小到大进行排序,并按照十分位等分成10组;
分别计算各组的实际观测数和模型预测数,其中模型预测数,即每个人的预测概率*人数,再求总和,这里人数即为1,最后总和就相当于每个个体预测概率的直接加和;
根据每组实际观测数和模型预测数计算卡方值(自由度=8),再根据卡方分布得到对应的P值。
5.根据实际发生率和预测发生率绘制校准曲线calibration curve,数据点与图中实斜线的贴近程度反映了模型的校准度calibration.
若所得的统计量卡方值越小,对应的P值越大,则提示预测模型的校准度越好。若检验结果显示有统计学显著性(P<0.05),则表明模型预测值和实际观测值之间存在一定的差异,模型校准度差。
02 校准图
校准图的绘制一般有三种形式:
1. 散点图
根据实际观测值(Observed)和模型预测值(Expected)绘制散点图,并拟合线性趋势线,即可得到校准曲线,如下图所示的蓝线。而红线为标准曲线(y=x),表示预测数和实际观测数完全一样。若蓝色的校准曲线和红色的标准曲线越接近,则提示模型的校准能力越好。
2. 条形图
将每个研究对象的预测概率从小到大进行排序,并按照十分位分成10组,以条图的形式来表示每组实际观测值和模型预测值的大小,这样能够更加直观的展示在每一组内,实际观测值和模型预测值之间的差别,以此来帮助判断模型更为准确的预测区间。
3. 线图
线图的表达方式和条形图类似,同样也是按照预测概率的十分位分成10组,以坐标点的形式来表示每组实际观测值和模型预测值的大小,并用平滑的线段依次连接起来。它不仅可以直观的展示每一组内实际观测值和模型预测值之间的差别,同时也能从整体上来判断模型的校准能力。模型预测曲线与实际观测曲线越接近,则可提示模型的校准能力越好。
03. 总结
Discrimination和Calibration是评价预测模型效能的两个重要指标,但比较容易混淆,最后再和大家总结一下:
1.Discrimination区分度,就是在模型的预测值中,看是否能够找到一个截点,使得把患者和非患者正确区分开来。如果区分的越开,且与实际情况越吻合,则提示模型的区分度越好。
2.Calibration校准度,就是评价模型预测值的大小和结局事件发生概率的大小是否一致。如果模型的预测值与结局实际发生概率越接近,则提示模型的校准度就越好。
关注R小盐,关注科研私家菜(VX_GZH: SciPrivate),有问题请联系R小盐。让我们一起来学习 R语言机器学习与临床预测模型