TCGA_12

【警告⚠ 这两天笔记乱糟糟的,还没来的及好好整理,不要看不要看没啥好看的】

写在前面:本文为微信公众号:生信星球数据挖掘线上班的随堂笔记,感谢小洁老师的付出!

  • 样本ID长,病人ID短
    前12位为病人ID
  • 根据表达矩阵,差异基因能做的:PCA/热图/韦恩图

1. 数据下载:TCGAbiolinks。

  • 非官方,较便捷。
  • all()#全为T则为T,否则为F any()#有一个为T则为T,全为F才为F

模型评估

  • C-index和ROC取值【0.5-1】,越大越好
    -KM对数据更宽容


    KM生存分析公式

    COX回归分析风险比率
  • 注意meta矩阵的数值内容可能是character,需要去除NA并转换。

lasson回归

-找到关键基因用于建模
-需要表达矩阵【仅含有tumor样本】和meta信息【包含生死信息】,并确保顺序一致identical(str_sub(colnames(exprSet),1,12),meta$ID) == TRUE

  • 输入数据是x=表达矩阵取log,y=mata$event(生死)
  • 结果:Df为自由度,%Dev解释残差的百分比(越大越好,但多意味着基因数目多),Lambda是建模参数
  • 算出lambda.min(取值最小)和lambda.1se(取用基因最少),分别预测
  • 越接近0的预测值为认为倾向于存活,接近于1的预测值认为倾向于死亡。

ROC曲线

  • 需计算AUC值,0.5-1,越接近于1越好

取小数函数:round(小数,几)#取几位小数

切割数据模型

  • 适用于只有一组数据的情况,把数据分成两份。需要用到专门的函数caret

随机森林

  • 找到对生存影响最大的基因?
    -取名时不能用-,会被识别为减号,可以用_替代。
  • 变异数据mutect软件 /瀑布图(检测)
  • 通过gdc下载下来是一个.maf.gz文件,解压后是一个文件夹,读入时需要完整路径。/还需要下载临床数据
  • 载入tsv文件可以用read.delim/read.table(路径)

signature

  • B = B[,match(A列,B列))#把B的列按照A的列排序
  • A = A[Aa %in% Bb]#提取A的a列中在B的b列中存在的所有行

魅力ggbetweenstats

  • 任意基因(mRNA)在任意分组中的表达量对比
  • 输入表达矩阵
  • 任意两个基因的相关性(两个基因的表达量)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 花花花写于2020-02-07 闭门不出的第n天,我们将原定于下周一的学习小组提前到今天开始了,我也收到公司通知,...
    小洁忘了怎么分身阅读 9,028评论 2 10
  • 在C语言中,五种基本数据类型存储空间长度的排列顺序是: A)char B)char=int<=float C)ch...
    夏天再来阅读 8,698评论 0 2
  • 以下是B站生信技能树GEO数据库挖掘的课程笔记 主要内容及学习目的: 介绍GEO数据库:了解数据存放位置; 介绍G...
    黄晶_id阅读 50,018评论 66 383
  • 3月22日,夜间下过一点点雨,本以为今天天气不会特别好。起床拉开窗帘发现又是阳光大好,决定说走就走,去尚湖烧烤。 ...
    风王过境阅读 1,189评论 0 1
  • 可爱的天硕,看着你一天天长高、长壮,老师从心底里为你高兴。那笑眯眯的小模样,老师真想抱抱你。 两年前,听说你的爸爸...
    小拓拓阅读 1,943评论 0 3