TCGA知识图谱视频学习笔记1

1. 生存分析

  • 有很多模型
    • log-rank
    • COX
    • LASSO
    • 随机森林
    • 支持向量机

1.1. COX

  • 虽然最后只留下基因表达的风险因子等信息,但生存分析时要把性别、年龄、癌症的 stage 等因素加进去以排除这些因素的影响,这是比 log-rank 优秀之处

1.2. LASSO

  • 首先用glm函数找到最优的 λ 值,cv.glmnet是用交叉验证找到最优方程,同样是为了得到最优 λ 值
  • 本质是取基因的过程

2. 风险因子关联图

  • 3 图联动:风险因子散点图 - 生存时间和状况散点图 - 重要 signature 的表达量热图
  • 重难点是 3 张图的样本都要按照风险因子从低到高排序

3. 拆分数据集

  • 拆分数据集,用于模型验证
library(caret)
set.seed(12345679)
sam<- createDataPartition(meta$event, p = .5,list = FALSE)

train <- exprSet[,sam]
test <- exprSet[,-sam]
train_meta <- meta[sam,]
test_meta <- meta[-sam,]

友情宣传

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容