只摘抄,待日后整理
免疫分为六种亚型,用包去做
ImmuneSubtypeClassifier
包的安装需要github,可能有网络要求
现在安装完,记录一下过程
一种用包再做一下
library(devtools)
install_github("Gibbsdavidl/ImmuneSubtypeClassifier")
install.packages("Rtools")
install.packages("ImmuneSubtypeClassifier")
在安装过程中有网络要求,提示有什么包就安装什么包
整理后的表达矩阵就是未经log化的(log与不log是没有区别的)
download.file(url ='https://raw.githubusercontent.com/CRI-iAtlas/shiny-iatlas/develop/data/ebpp_test1_1to20.tsv', destfile ='ebpp_test.tsv')
dat <- read_tsv('ebpp_test.tsv')
dat2 <-as.data.frame(dat[!duplicated(dat$GeneID),])
Xmat <- dat2[,-1]
rownames(Xmat) <- dat2[,1]
Xmat[101:104,1:4]
##XY1XY2XY3XY4
##ABCE11375.6001202.25953.933909.373
##ABCF11239.6701664.881192.710635.941
##ABCF2978.8661590.792497.4101848.180
##ABCF38834.7703333.382428.6805329.980
是一个表达矩阵,行是基因名,列是样本名
res0<-callEnsemble(X=Xmat,geneids='symbol')
res0
得到一个表达矩阵
这个数据类型是原始数据还是经过处理的()
区分免疫亚型用到了485个关键的基因。geneMatchErrorReport告诉你有多少基因是在输入数据中不存在的,如果比例过高,那最终计算出来的亚型就不那么可靠。
原数据是没有分组的,为了体现不同组的亚型比较,这里加上一列分组,仅做例子。
对数据进行可视化
1,输入数据
2,用包做
3,检查错误
4,可视化
geneMatchErrorReport(X=Xmat, geneid='symbol')
geneMatchErrorReport告诉你有多少基因是在输入数据中不存在的,如果比例过高,那最终计算出来的亚型就不那么可靠。
#直接UCSC数据库查看就可以