大数据时代,基于个人健康历史和医疗保健的全国人群队列数据为建立自动化风险预测模型提供了新的机会。
韩国科学家们测试了机器学习模型预测阿尔茨海默病(AD)未来发病率的可能性,使用的是大规模的健康管理数据。从2002年至2010年的韩国国民健康保险服务数据库中,获得了65岁以上老年人(N = 40,736)的去识别健康数据,包含4,894个独特的临床特征,包括ICD-10编码、药物编码、实验室的数据、个人和家庭病史以及社会人口统计数据。
为了定义偶发性阿尔兹海默病,我们考虑了两个操作性定义:
1、带有诊断代码的“明确阿尔兹海默病”,共有614名被试;
2、只有诊断的“可能阿尔兹海默病”,共有2000多名被试。
这项研究中训练并验证了三种模型:随机森林、支持向量机和逻辑回归,来分别预测随后1年、2年、3年和4年的老年痴呆发病率。为了预测平衡样本中未来老年痴呆的发病率(bootstrapping),机器学习模型在1年预测中表现合理,AUC分别为0.775和0.759,基于“确定老年痴呆”和“可能老年痴呆”结果;2年分别为0.730和0.693;3年分别为0.677、0.644;4年后,分别是0.725和0.683。可以看出这些方法用来预测4年后的发病率也具有可靠性。
当使用整个不平衡的样本时,结果是相似的。logistic回归选择的重要临床特征包括血红蛋白水平、年龄和尿蛋白水平。
这项研究是基于大规模健康相关的数据,有助于阐明数据驱动的模型在老年痴呆风险预测中的应用。从而让医生可以更精准地诊断临床试验中的老年痴呆风险患者,可以让风险高的人们的老年痴呆症状早点被发现。
参考文献:
Park JH, Cho HE, Kim JH, Wall MM, Stern Y, Lim H6, Yoo S1, Kim HS7, Cha J.Machine learning prediction of incidence of Alzheimer's disease using large-scale administrative health data.NPJ Digit Med. 2020 Mar 26;3:46. doi: 10.1038/s41746-020-0256-0. eCollection 2020.