Lasso回归在医学研究中的应用

>在研究中,常面临这样的困境:分析疾病预后影响因素时,有年龄、性别、生化指标、病理特征等数十甚至上百个变量,探索基因与疾病的关联时,基因位点数量更是达到上百甚至上千个,远超样本量。此时,传统线性回归易出现多重共线性、过拟合等问题,导致结果不可靠。 1996年,Robert Tibshirani提出了Lasso回归,全称为**最小绝对收缩和选择算子**(Least absolute shrinkage and selection operator,Lasso),通过引入L1正则化项,添加惩罚函数,既能不断压缩回归系数、解决多重共线性,又能将冗余变量系数收缩至0,实现自动变量选择,达到精简模型的目的,完美适配医学高维数据的分析需求。 # 一、医学研究需要Lasso回归 现代医学研究正深陷一场 **“数据丰富,知识匮乏”** 的悖论。随着高通量测序、电子病历和医学影像的普及,研究者能获取的变量(特征)数量呈指数级增长,医学数据正从**低维小样本向高维大样本转变**。这些场景下,传统统计方法存在明显局限: - 多重共线性问题突出:多个变量间存在高度相关性,会导致回归系数估计失真、方差增大,结果难以解释。 - 过拟合风险高:当变量数量接近或超过样本量时,模型会过度贴合训练数据,在新数据中泛化能力极差,无法推广到临床实践。 - 变量筛选效率低:传统逐步回归法主观性强,易遗漏关键变量或纳入冗余变量,难以应对高维数据的筛选需求。 # 二、Lasso回归的核心逻辑 要理解Lasso回归,需先回顾传统线性回归的核心,再看其改进之处。 ## 1.传统线性回归的损失函数 普通最小二乘法(OLS)的核心是最小化预测值与实际值的残差平方和,损失函数为: $$\min_{w} \sum_{i=1}^{n} (y_i - w^T x_i)^2$$ 其中,$y_i$为第$i$个样本的因变量(如疾病预后状态、检测指标值),$x_i$为自变量向量(如临床指标、基因数据),$w$为回归系数向量,代表各变量对因变量的影响程度。 **该方法的缺陷的是:当变量过多或存在多重共线性时,$w$的估计值会异常大,导致模型不稳定。** ## 2.Lasso回归的改进:引入L1正则化 Lasso回归在OLS损失函数基础上,添加了一项回归系数绝对值之和的惩罚项(L1正则化项),目标函数变为: $$\min_{w} \sum_{i=1}^{n} (y_i - w^T x_i)^2 + \lambda \sum_{j=1}^{p} |w_j|$$ 公式中关键参数解读: - $w_j$:第$j$个自变量的回归系数,若$w_j=0$,则该变量被模型剔除,实现特征选择。 - $\lambda$(正则化系数):非负实数,控制惩罚强度。$\lambda=0$时,Lasso退化为普通线性回归;$\lambda$越大,惩罚越强,更多系数被压缩至0;$\lambda$过大会导致系数压缩过度,模型欠拟合。 - $\sum_{j=1}^{p} |w_j|$:L1范数,其几何特性(菱形约束区域)使得最优解易出现在坐标轴上,即部分$w_j=0$,**这是Lasso能实现变量选择的核心原因。** ## 3.与岭回归的核心区别 岭回归(Ridge Regression)同样用于解决多重共线性,但其惩罚项为L2范数(系数平方和),仅能压缩系数大小,无法将系数降至0,不能实现自动变量选择。而Lasso的L1正则化项,在压缩系数的同时完成变量筛选,更适合医学研究中筛选关键影响因素的核心需求。 # 三、哪些研究场景适合? Lasso回归虽强大,但并非适用于所有场景,需满足以下条件: ## 1.数据条件 - 高维数据优先:自变量数量$p$较多,甚至超过样本量$n$(如基因数据、多指标联合检测数据),此时Lasso的变量选择优势最明显。 - 存在多重共线性:变量间存在高度相关,Lasso可通过压缩系数消除共线性影响。 - 数据质量达标:缺失值、异常值需提前处理,否则会影响系数估计的准确性。 - 数据标准化:由于Lasso对变量量纲敏感,需将自变量标准化(如Z-score标准化),使各变量处于同一数量级。 ## 2.研究场景 - 疾病风险因子筛选:从众多临床指标、生活习惯中,筛选出影响疾病发生/进展的关键因子(如筛选高血压的核心危险因素)。 - 预后模型构建:结合临床病理指标,构建肿瘤、慢性病的预后预测模型。 - 基因/分子标志物挖掘:从海量基因表达数据中,筛选与疾病表型相关的核心基因,为精准治疗提供靶点。 - 在机器学习中的核心作用: - 机器学习常面临高维特征场景(如临床影像组学、基因数据),Lasso可快速剔除冗余特征,保留核心变量,简化模型结构,提升泛化能力,为后续复杂模型(随机森林、GBDT)预处理特征,降低计算成本。 - 正则化防过拟合。当模型复杂度高于数据规律时,L1正则项通过惩罚系数大小,限制模型对训练数据的过度拟合,让模型在未知数据上表现更稳定,这是机器学习模型优化的核心需求之一。 - 可解释性桥梁。机器学习中复杂模型(如神经网络、集成树)多为 “黑箱”,而 Lasso 基于线性关系,系数可直接解读特征对结果的影响方向与强度,适配科研、临床等需 “可解释性” 的场景,填补简单统计模型与复杂机器学习模型的空白。 ## 3.范例 下面这篇论文“一种基于机器学习的慢性阻塞性肺疾病患者抑郁风险在线预测模型:来自中国健康与养老追踪调查的回顾性队列研究”就采用了Lasso筛选变量。 ![机器学习预测模型](https://upload-images.jianshu.io/upload_images/20783724-c8435367e3a7af9c.png) ![用Lasso筛选变量](https://upload-images.jianshu.io/upload_images/20783724-e4db21390ae7b76e.png) ![最终筛选出11个变量](https://upload-images.jianshu.io/upload_images/20783724-ccfb6da86f4f2b8b.png) > Lasso回归尤其适合 “高维小样本 + 可解释性需求” 场景,如临床指标筛选、金融风险预测、基因数据挖掘等,既是独立的预测模型,也是机器学习流程中重要的预处理与优化工具。 ![](https://upload-images.jianshu.io/upload_images/20783724-eb5f78c143e12e7d.png) 本文由[mdnice](https://mdnice.com/?platform=6)多平台发布
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容