Lasso法构建多基因预测模型-01

本文内容简介:
包括应用TCGA数据预处理,应用LASSO回归筛选变量,构建多基因预测模型,绘制风险因子关联图,时间依赖ROC曲线评估模型。

lasso筛选基因变量

生存资料的经典方法是Cox

  • 比例风险回归模型,Cox模型要求自变量之间相互独立,且样本量大于预测变量,很明显在高通量基因表达谱资料中,预测变量(基因数)远远大于样本含量且各变量之间常具有强相关,呈现高维度和共线性,此时传统Cox模型就不再适用。可根据现有研究状况,大部分研究人员仍然使用的是Cox模型,对Lasso法的了解并不多见。

Lasso法的优势

  • LASSO的作用其实就是在系数的绝对值之和上增加一个约束条件来对高维资料进行降维,减少一些不必要的干扰,噪声,来得到更好的拟合效果。

  • 由Tibshirani教授提出,由于它是对系数的绝对值而非系数的平方项进行惩罚,也叫L1 惩罚,它是在回归系数的绝对值之和小于等于一个常数λ 的约束条件下,使logL( β) 达到最大来产生某些严格等于0的回归系数。

  • 对于高维度纬度、强相关的高通量基因表达数据,LASSO方法在将许多没有意义的
    解释变量压缩为0 之后,模型反而更优,在Cox 模型中进行变量筛选用LASSO 方法要比逐步筛选更具有竞争力。

实例演示

还有 94% 的精彩内容
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
支付 ¥50.00 继续阅读

相关阅读更多精彩内容

友情链接更多精彩内容