一期数据挖掘-1
文章是lncRNAs PVT1 and HAR1A are prognosis biomarkers and indicate
therapy outcome for diffuse glioma patients
OD:Oligodendroglioma少突胶质瘤
OA:oligoastrocytoma 少星形细胞瘤
A:astrocytoma星形细胞瘤
BGM:glioblastoma恶性胶质瘤
摘要
1.通过基因表达量找出在肿瘤发生和不同肿瘤发展中的差异基因
2.通过TCGA和GEO数据库发现,PVT1和CYTOR上调时,HAR1A和MIAT肿瘤下调,是通过已有数据获得
3.PVT1和CYTOR高表达,HAR1A和MIAT低表达与Ki-67水平和TP53突变有关
4.通过生存分析和cox回归,PVT1高表达和HAR1A低表达的患者生存差
5.降低PVT1和升高HAR1A可以提供放化疗后患者的生存时间
思路
1.用GEO和TCGA现有数据得出:PVT1和CYTOR在GBM中比低级别LGG(lower grade gliomas)的表达量高,同时HAR1A和MIAT在GBM中的表达量又比低级别(lower grade gliomas)的表达量低,因此提出,这四种因子或许在肿瘤发生发展中具有重要作用。
2.从TCGA获得的数据,作者通过基因表达量(PVT1、CYTOR、HAR1A、MIAT)将GBM
分成亚型,本文作者因此用TCGA中的数据,想看看这四种因子是否能也将gliblastoma subtyps
进行亚型分型,并且得到结果为:CYTOR, HAR1A 和MIAT 的基因表达在这四种亚型中差异显著)
3.找到了差异基因,那么哪些差异基因对病人生存分析有影响呢?
上一步作者得到了CYTOR, HAR1A andMIAT同样用TCGA和GEO中的数据集,用kaplan-meier生存分析+log-rank来研究这四种基因对病人生存分析的影响。
最后得到结果:PVT1和HAR1A对病人生存分析影响显著,同时在GSE43378中也有同样结果。综上,高表达PVT1和低表达HAR1A的病人生存差
4.通过前面分析的结果用自己的数据集进行PCR验证
验证结果与前面数据相同
5.用TCGA中的数据验证放化疗病人的差异基因的表达
低表达PVT1和高表达HAR1A的胶质瘤患者在放化疗中能够获得更好的疗效,同时也表明,那些即将放化疗的患者,查看体内PVT1和HAR1A的表达量可以在放化疗前评估疗效,避免不必要的放化疗,做到精准医疗。
目标是复现文章中的火山图,热图
先把表达矩阵做好
rm(list = ls())
options()$repos
options()$BioC_mirror
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options()$repos
options()$BioC_mirror
rm(list = ls())#清空环境变量
options(stringsAsFactors = F)##字符不作为因子读入
#####数据下载
library(GEOquery)
f<-'GSE4290.Rdata'
####getGPL获得平台的注释信息,但下载速度会慢很多
####而且注释文件格式大多不如bioconductor包好用
if(!file.exists(f)){
gset<-getGEO('GSE4290',destdir='.',
AnnotGPL=F,
getGPL=F)
save(gset,file=f)
}
load('GSE4290.Rdata')
#数据提取
ex<- exprs(gset[[1]])
pd <- pData(gset[[1]])
save(ex,pd,file='ex_pd.Rdata')
group_list<-pd[,35]
############代码查看矩阵是否需要log(来自GEO2R)
qx <- as.numeric(quantile(ex, c(0., 0.25, 0.5, 0.75, 0.99, 1.0), na.rm=T))
LogC <- (qx[5] > 100) ||
(qx[6]-qx[1] > 50 && qx[2] > 0) ||
(qx[2] > 0 && qx[2] < 1 && qx[4] > 1 && qx[4] < 2)
LogC
ex <- log2(ex+1)
##下次希望不要再卡在这了,现在的group_list是pData中的一列,也就是说和表达矩阵的列名是对应的,这点很重要!
##只要知道符合条件的group_list的坐标,这里用grep函数提取出坐标,然后表达矩阵提取这些坐标(列)就得到了新的
##表达矩阵,然后把想要的表达矩阵用cbind合起来就可以变成一个是按分组信息来的也就是说,表达矩阵的列名(样本名)##和grouplist的顺序是一致的,因为表达矩阵就是按group_list提取的。我觉得这个思维太好了,因为完全不用再考虑##表达矩阵的样本名和分组信息的样本是不是对应的了,希望自己以后也能顺手的这么用起来。
exprSet<-ex
n_expr = exprSet[ , grep( "non-tumor", group_list )]
g_expr = exprSet[ , grep( "glioblastoma", group_list )]
a_expr = exprSet[ , grep( "astrocytoma", group_list )]
o_expr = exprSet[ , grep( "oligodendroglioma", group_list )]
## 样本分组,新的表达矩阵只有normal和gbm样本
{
exprSet = cbind( n_expr, g_expr )
group_list = c(rep( 'normal', ncol( n_expr ) ),
rep( 'gbm', ncol( g_expr ) ) )
}
dim( exprSet )
exprSet[ 1:5, 1:5 ]
table( group_list )
save( exprSet, group_list, file = 'exprSet_by_group.Rdata')
接下来PCA,来看一下STHDA上面主成分分析的介绍:然后开始漫长的折腾过程,但是还是没有做出来PCA
我用之前的能做出来的晓娟老师的GEO模版里的PCA的代码跑
df.pca <- PCA(t(ex), graph = FALSE) #graph=FALSE不出图
fviz_pca_ind(df.pca,
geom.ind = "point",
col.ind = group_list,
addEllipses = TRUE, #不加圈圈起来因为样本少
legend.title = "Groups"
)
但是出来下面的提示,说让我用imputaPCA,搜索后知道这个imputePCA是missMDA包中的一个函数,于是需要然后下载missMDA包,并把其中的PCA换成imputePCA。那么什么是missMDA?如下图所示,就是一种matrix中含有缺失值,但是可以用这个包是这些缺失值对PCA的结果影像不大,这个函数imputePCA就是能把含有缺失值的matrix变成一个这些缺失值可以变成一个可以估算的值,然后仍然可以用PCA中的FactoMineR来计算。也可以参考:http://blog.sciencenet.cn/home.php?mod=space&uid=267448&do=blog&id=1182057
上图网站:http://factominer.free.fr/missMDA/PCA.html
而missMDA中含有的函数如下:https://www.rdocumentation.org/packages/missMDA/versions/1.14
MIPCA | Multiple Imputation with PCA |
---|---|
TitanicNA | Categorical data set with missing values: Survival of passengers on the Titanic |
Overimpute | Overimputation diagnostic plot |
imputeMFA | Impute dataset with variables structured into groups of variables (groups of continuous or categorical variables) |
imputeMultilevel | Impute a multilevel mixed dataset |
geno | Genotype-environment data set with missing values |
estim_ncpFAMD | Estimate the number of dimensions for the Factorial Analysis of Mixed Data by cross-validation |
imputePCA | Impute dataset with PCA |
imputeCA | Impute contingency table |
missMDA-package | Handling missing values with/in multivariate data analysis (principal component methods) |
vnf | Questionnaire done by 1232 individuals who answered 14 questions |
prelim | Converts a dataset imputed by MIMCA, MIPCA or MIFAMD into a mids object |
snorena | Characterization of people who snore |
estim_ncpMCA | Estimate the number of dimensions for the Multiple Correspondence Analysis by cross-validation |
estim_ncpMultilevel | Estimate the number of dimensions for the Multilevel PCA, multlevel MCA or Multilevel FAMD by cross-validation |
##这个是一个关于missMDA的示例
data(orange)
#extim_ncpPCA是missMDA中的一个函数,Estimate the number of dimensions for the Factorial Analysis of Mixed Data by cross-validation
nb <- estim_ncpPCA(orange,ncp.min=0,ncp.max=5,method.cv="Kfold",nbsim=20,pNA=0.05)
res.comp <- imputePCA(orange,ncp=nb$ncp)
require(FactoMineR)
res.pca <- PCA(res.comp$completeObs)
resMI <- MIPCA(orange,ncp=nb$ncp)
plot(resMI)
观察上面的orange的纵坐标是分类,因此由于我的目标依然是看normal组和tumor组是否分的开,就像上面这张图一样,我就把样本名换成对应的分组,集normal和tumor,expr如下图。
nb <- estim_ncpPCA(expr,ncp.min=0,ncp.max=5,method.cv="Kfold",nbsim=20,pNA=0.05)
res.comp <- imputePCA(expr,ncp=nb$ncp)
require(FactoMineR)
res.pca <- PCA(res.comp$completeObs)
resMI <- MIPCA(expr,ncp=nb$ncp)
plot(resMI)
事实上是我too yong too sample,做出来的图是下面这样的没这个
那么当时为什么没有继续用露露的代码呢?就是接着第一个代码块往下?是因为有个报错,我没有搜索到答案,往下看。
data = as.data.frame(t(exprSet))#这里为什么要转换过来?因为此时的列名是样本名,而我们要做的PCA是需要行名是样本名
data$group = group_list #data新建一列是group_list
png( 'pca_plot.png', res=80 )
autoplot(prcomp(data[,1:(ncol(data)-1)]), data = data, colour = 'group',
label=T,frame=T) + theme_bw()
然后我想可能是前面某一步和露露的代码不一样,那就是用GEOquery下载的时候,因为露露下载是把平台信息GPL下载了,是为了注释,把那些没有对应上探针的去掉了,我想可能是矩阵不同,所以导致了上面的那个misssing values in "x"的报错。我没有下载平台的信息,我还是晓娟老师讲课时用的GEO模版,于时我觉定重下载一下,就是下面这样。
library(GEOquery)
f<-'GSE4290.Rdata'
####getGPL获得平台的注释信息,但下载速度会慢很多
####而且注释文件格式大多不如bioconductor包好用
if(!file.exists(f)){
gset<-getGEO('GSE4290',destdir='.',
AnnotGPL=F,
getGPL=T)
save(gset,file=f)
}
load('GSE4290.Rdata')
GPL = gset@featureData@data
可是让我百思不得其解的是,什么都一样,竟然出现下面的报错,我怎么就没有featureData槽了?下面的图里明明有的,而且和露露的一样代码,不可能有错,找不到任何原因,搜索也没搜索到。
所有我才从这个露露的做PCA的autoplot转而去之前的GEO模版里去用GEO模版里的df.PCA那个PCA的代码跑。
现在有个重点是,用的这个imputePCA是没有错的,因为咩有报错,只是我没有找到用哪个函数跑,并且我的分组信息就是两个,和missMDA的包给的示例中的orange矩阵是不太一样的,他有7、8个分组,另外,我的矩阵是不是合乎要求,同时对应哪个函数,官方文档pdf文件把上面的那几个function都列出来了,那么多,我也不能一个个看不是,最重要的是,么有搜索到现场的 missMDA用什么函数的结果,所以现在仅停留在获得表达矩阵和分组信息,PCA都还没做得,老大。