Lasso回归在医学研究中的应用

>在研究中，常面临这样的困境：分析疾病预后影响因素时，有年龄、性别、生化指标、病理特征等数十甚至上百个变量，探索基因与疾病的关联时，基因位点数量更是达到上百甚至上千个，远超样本量。此时，传统线性回归易出现多重共线性、过拟合等问题，导致结果不可靠。 1996年，Robert Tibshirani提出了Lasso回归，全称为**最小绝对收缩和选择算子**（Least absolute shrinkage and selection operator，Lasso），通过引入L1正则化项，添加惩罚函数，既能不断压缩回归系数、解决多重共线性，又能将冗余变量系数收缩至0，实现自动变量选择，达到精简模型的目的，完美适配医学高维数据的分析需求。 # 一、医学研究需要Lasso回归现代医学研究正深陷一场 **“数据丰富，知识匮乏”** 的悖论。随着高通量测序、电子病历和医学影像的普及，研究者能获取的变量（特征）数量呈指数级增长，医学数据正从**低维小样本向高维大样本转变**。这些场景下，传统统计方法存在明显局限： - 多重共线性问题突出：多个变量间存在高度相关性，会导致回归系数估计失真、方差增大，结果难以解释。 - 过拟合风险高：当变量数量接近或超过样本量时，模型会过度贴合训练数据，在新数据中泛化能力极差，无法推广到临床实践。 - 变量筛选效率低：传统逐步回归法主观性强，易遗漏关键变量或纳入冗余变量，难以应对高维数据的筛选需求。 # 二、Lasso回归的核心逻辑要理解Lasso回归，需先回顾传统线性回归的核心，再看其改进之处。 ## 1.传统线性回归的损失函数普通最小二乘法（OLS）的核心是最小化预测值与实际值的残差平方和，损失函数为： $$\min_{w} \sum_{i=1}^{n} (y_i - w^T x_i)^2$$ 其中，$y_i$为第$i$个样本的因变量（如疾病预后状态、检测指标值），$x_i$为自变量向量（如临床指标、基因数据），$w$为回归系数向量，代表各变量对因变量的影响程度。 **该方法的缺陷的是：当变量过多或存在多重共线性时，$w$的估计值会异常大，导致模型不稳定。** ## 2.Lasso回归的改进：引入L1正则化 Lasso回归在OLS损失函数基础上，添加了一项回归系数绝对值之和的惩罚项（L1正则化项），目标函数变为： $$\min_{w} \sum_{i=1}^{n} (y_i - w^T x_i)^2 + \lambda \sum_{j=1}^{p} |w_j|$$ 公式中关键参数解读： - $w_j$：第$j$个自变量的回归系数，若$w_j=0$，则该变量被模型剔除，实现特征选择。 - $\lambda$（正则化系数）：非负实数，控制惩罚强度。$\lambda=0$时，Lasso退化为普通线性回归；$\lambda$越大，惩罚越强，更多系数被压缩至0；$\lambda$过大会导致系数压缩过度，模型欠拟合。 - $\sum_{j=1}^{p} |w_j|$：L1范数，其几何特性（菱形约束区域）使得最优解易出现在坐标轴上，即部分$w_j=0$，**这是Lasso能实现变量选择的核心原因。** ## 3.与岭回归的核心区别岭回归（Ridge Regression）同样用于解决多重共线性，但其惩罚项为L2范数（系数平方和），仅能压缩系数大小，无法将系数降至0，不能实现自动变量选择。而Lasso的L1正则化项，在压缩系数的同时完成变量筛选，更适合医学研究中筛选关键影响因素的核心需求。 # 三、哪些研究场景适合？ Lasso回归虽强大，但并非适用于所有场景，需满足以下条件： ## 1.数据条件 - 高维数据优先：自变量数量$p$较多，甚至超过样本量$n$（如基因数据、多指标联合检测数据），此时Lasso的变量选择优势最明显。 - 存在多重共线性：变量间存在高度相关，Lasso可通过压缩系数消除共线性影响。 - 数据质量达标：缺失值、异常值需提前处理，否则会影响系数估计的准确性。 - 数据标准化：由于Lasso对变量量纲敏感，需将自变量标准化（如Z-score标准化），使各变量处于同一数量级。 ## 2.研究场景 - 疾病风险因子筛选：从众多临床指标、生活习惯中，筛选出影响疾病发生/进展的关键因子（如筛选高血压的核心危险因素）。 - 预后模型构建：结合临床病理指标，构建肿瘤、慢性病的预后预测模型。 - 基因/分子标志物挖掘：从海量基因表达数据中，筛选与疾病表型相关的核心基因，为精准治疗提供靶点。 - 在机器学习中的核心作用： - 机器学习常面临高维特征场景（如临床影像组学、基因数据），Lasso可快速剔除冗余特征，保留核心变量，简化模型结构，提升泛化能力，为后续复杂模型（随机森林、GBDT）预处理特征，降低计算成本。 - 正则化防过拟合。当模型复杂度高于数据规律时，L1正则项通过惩罚系数大小，限制模型对训练数据的过度拟合，让模型在未知数据上表现更稳定，这是机器学习模型优化的核心需求之一。 - 可解释性桥梁。机器学习中复杂模型（如神经网络、集成树）多为 “黑箱”，而 Lasso 基于线性关系，系数可直接解读特征对结果的影响方向与强度，适配科研、临床等需 “可解释性” 的场景，填补简单统计模型与复杂机器学习模型的空白。 ## 3.范例下面这篇论文“一种基于机器学习的慢性阻塞性肺疾病患者抑郁风险在线预测模型：来自中国健康与养老追踪调查的回顾性队列研究”就采用了Lasso筛选变量。 ![机器学习预测模型](https://upload-images.jianshu.io/upload_images/20783724-c8435367e3a7af9c.png) ![用Lasso筛选变量](https://upload-images.jianshu.io/upload_images/20783724-e4db21390ae7b76e.png) ![最终筛选出11个变量](https://upload-images.jianshu.io/upload_images/20783724-ccfb6da86f4f2b8b.png) > Lasso回归尤其适合 “高维小样本 + 可解释性需求” 场景，如临床指标筛选、金融风险预测、基因数据挖掘等，既是独立的预测模型，也是机器学习流程中重要的预处理与优化工具。 ![](https://upload-images.jianshu.io/upload_images/20783724-eb5f78c143e12e7d.png) 本文由[mdnice](https://mdnice.com/?platform=6)多平台发布

Lasso回归在医学研究中的应用

Lasso回归在医学研究中的应用

相关阅读更多精彩内容

友情链接更多精彩内容