TCGA mRNA表达谱可以从GDC里面下载mainfest合并整理,结合clinical信息判断原癌位点和癌旁位点的测序数据;
还也可以下载Xena数据。
TCGA编号最重要的是第二列和第四列,第二列是取样组织,第四列1-9为tumor,9以上为normal。
掌握Linux sed awk grep 就可以写个shell脚本进行区分。
整理数据后在R中画图,这次选择了ggpubr里面的ggviolin,data.frame包一下数据就可以了。
整理了33种Cancer,还是能看出来一定的趋势的。