前面分享了FPKM数据该怎么分析?
后来看了一下别人分享的例子,应该把FPKM转换为TPM后再进行分析。
为什么说FPKM和RPKM都错了?
简单小需求:如何将FPKM转换成TPM
1、数据下载
rm(list = ls()) ## 魔幻操作,一键清空~
options(stringsAsFactors = F)#在调用as.data.frame的时,将stringsAsFactors设置为FALSE可以避免character类型自动转化为factor类型
# 注意查看下载文件的大小,检查数据
gset <- read.table("GSE115422_BM_EC_9GY_fpkms.txt.gz",
sep='\t',
quote = "",
fill = T,
comment.char = "!",
header = T) # 提取表达矩阵
save(gset,file="GSE115422_gset.Rdata") ## 保存到本地
head(gset)
View(gset)
#去重
# a <- gset$gene_name
#
# gset1 <- gset[a,]
# gset1 <- gset[gset$gene_name,]
#
# gset2 <- unique(gset1)
#不知这步处理之后,为啥会提示“Mar-01” Mar-02重复
#生信技能树或者菜鸟团有相关的推文,找推文为啥基因或者探针会出现日期
#除去Mar-01,Mar-02
gset <- gset[!(gset$gene_name == 'Mar-01'),]
gset <- gset[!(gset$gene_name == 'Mar-02'),]
#把第一列添加为行名
rownames(gset) <- gset[,1]
#删除第一列
gset <- gset[,-1]
2.将FPKM转换为TPM
exprSet <- gset
fpkmToTpm <- function(fpkm)
{
exp(log(fpkm) - log(sum(fpkm)) + log(1e6))
}
tpms <- apply(exprSet,2,fpkmToTpm)
tpms[1:3,]
colSums(tpms)
#输出结果:
tpms[1:3,]
3、质控和检测数据质量
View(tpms)
# group_list <- colnames(tpms)
# group_list <- as.factor(group_list)
#
# group_list <- as.character(group_list)
#
# library(stringr)
#
# group_list <- str_split(as.character(group_list),'.', simplify = T)[,1]
group_list <- c(rep('BMC',3),rep('Lin',3),rep('LSK',3),rep('EC',3),rep('X9GY',3))
#表达矩阵数据校正
exprSet <- tpms
#exprSet <- exprSet[,10:15]
exprSet
boxplot(exprSet,las=2)
#数据里面有很多基因在某些样本中的检测值为零,除去某个这部分值;
#如果一个基因在三个及三个以上的样本里面为零,则除去该基因
#apply(dat1,1,function(x){sum(floor(x)==0)>3})
exprSet <- exprSet[!apply(exprSet,1,function(x){sum(floor(x)==0)>3}),]
boxplot(exprSet,las=2)#不在同一水平线上
#limma归一化
library(limma)
exprSet <- normalizeBetweenArrays(exprSet)
boxplot(exprSet,las=2)
#
exprSet <- log(exprSet+1)##表达值为成千上万,需要取log值
boxplot(exprSet,las=2)
if(F){
exprSet <- log(exprSet+1)#应该取log2,完全不在一个水平上面
boxplot(exprSet,las=2)
#归一化
exprSet <- normalizeBetweenArrays(exprSet)
boxplot(exprSet,las=2)###归一化后,表达值偏离
#数据里面有很多基因在某些样本中的检测值为零,除去某个这部分值;
#如果一个基因在三个及三个以上的样本里面为零,则除去该基因
#apply(dat1,1,function(x){sum(floor(x)==0)>3})
exprSet <- exprSet[!apply(exprSet,1,function(x){sum(floor(x)==0)>3}),]
boxplot(exprSet,outline=FALSE,notch=T,las=2)#不在同一水平线上
#应该先做该步,后边再做归一化
}
#PCA看样本分组情况
## PCA
library(ggfortify)
df=as.data.frame(t(exprSet))
df$group=group_list
png('pca.png',res=120)
pp <- autoplot(prcomp( df[,1:(ncol(df)-1)] ),
data=df,
colour = 'group')+
theme_bw()
pp
dev.off()
#boxplot(exprSet,outline=FALSE, notch=T,col=group_list, las=2)
library(limma)
exprSet <- normalizeBetweenArrays(exprSet)
boxplot(exprSet,las=2)##表达值很高,应该取log2,完全不在一个水平上面
#boxplot(exprSet,outline=FALSE, notch=T,col=group_list, las=2)
#判断数据是否需要转换
exprSet <- log2(exprSet+1)#应该取log2,完全不在一个水平上面
#取EC,x9GY
exprSet <- exprSet[,10:15]
boxplot(exprSet,las=2)
exprSet <- log2(exprSet+1)
boxplot(exprSet,las=2)
exprSet <- normalizeBetweenArrays(exprSet)
boxplot(exprSet,las=2)
## 下面是画PCA的必须操作,需要看说明书。
dat <- t(exprSet)#画PCA图时要求是行名时样本名,列名时探针名,因此此时需要转换
dat <- as.data.frame(dat)#将matrix转换为data.frame
dat <- cbind(dat,group_list) #cbind横向追加,即将分组信息追加到最后一列
#dat[1:5,1:5]
head(dat)
#BiocManager::install("FactoMineR")
#BiocManager::install("factoextra")
library("FactoMineR")#画主成分分析图需要加载这两个包
library("factoextra")
# The variable group_list (index = 54676) is removed
# before PCA analysis
dat.pca <- PCA(dat[,-ncol(dat)], graph = FALSE)#现在dat最后一列是group_list,需要重新赋值给一个dat.pca,这个矩阵是不含有分组信息的
fviz_pca_ind(dat.pca,
geom.ind = "point", # show points only (nbut not "text")
col.ind = dat$group_list, # color by groups
# palette = c("#00AFBB", "#E7B800"),
addEllipses = TRUE, # Concentration ellipses
legend.title = "Groups"
)
ggsave('all_samples_PCA.png')
# ## hclust
colnames(exprSet) <- paste(group_list,1:ncol(exprSet),sep='_')
# Define nodePar
nodePar <- list(lab.cex = 0.4, pch = c(NA, 19),
cex = 0.7, col = "blue")
hc=hclust(dist(t(exprSet)))
par(mar=c(5,5,5,10))
png('hclust.tif',res=120)
plot(as.dendrogram(hc), nodePar = nodePar, horiz = TRUE)
dev.off()
save(exprSet,group_list,file = 'step2-output.Rdata')
#样品聚类比较好,本次因为本来就是来自不同类型的细胞分开的非常好,
#实际分析中可以删除某些离群或者混淆的样本
4、差异分析
#差异分析:
#单分组
if(F){dat <- exprSet
design=model.matrix(~factor( group_list ))
fit=lmFit(dat,design)
fit=eBayes(fit)
options(digits = 4)
topTable(fit,coef=2,adjust='BH')
bp=function(g){
library(ggpubr)
df=data.frame(gene=g,stage=group_list)
p <- ggboxplot(df, x = "stage", y = "gene",
color = "stage", palette = "jco",
add = "jitter")
# Add p-value
p + stat_compare_means()
}
deg=topTable(fit,coef=2,adjust='BH',number = Inf)
head(deg)
}
#本例为多分组
group_list <- c(rep('BMC',3),rep('Lin',3),rep('LSK',3),rep('EC',3),rep('X9GY',3))
group <- factor(group_list)
design <- model.matrix(~0 + group)
colnames(design) <- levels(group)
design
#指定那类样本比上那类样本,特别注意有顺序,横杠前的样本比上横杠后的样本
contrast.matrix <- makeContrasts(X9GY - EC,
Lin - BMC,
LSK - BMC,
levels=design)
contrast.matrix
fit <- lmFit(exprSet, design)
fit2 <- contrasts.fit(fit, contrast.matrix)
fit2 <- eBayes(fit2)
allDiff1=topTable(fit2,adjust='fdr',coef=1,number=Inf)
allDiff2=topTable(fit2,adjust='fdr',coef=2,number=Inf)
allDiff3=topTable(fit2,adjust='fdr',coef=3,number=Inf)
5、差异基因注释分析
library(ggstatsplot);
library(cowplot);
library(clusterProfiler);
library(stringr);
library(dplyr);
library(tidyr);
library(ggplot2);
library(ggstatsplot);
## 不同的阈值,筛选到的差异基因数量就不一样,后面的超几何分布检验结果就大相径庭。
deg <- allDiff1
if(T){
logFC_t=1.5
deg$g=ifelse(deg$P.Value>0.05,'stable',
ifelse( deg$logFC > logFC_t,'UP',
ifelse( deg$logFC < -logFC_t,'DOWN','stable') )
)
table(deg$g)
head(deg)
deg$symbol=rownames(deg)
library(ggplot2)
library(clusterProfiler)
library(org.Mm.eg.db)
df <- bitr(unique(deg$symbol), fromType = "SYMBOL",
toType = c( "ENTREZID"),
OrgDb = org.Mm.eg.db)
head(df)
DEG=deg
head(DEG)
DEG=merge(DEG,df,by.y='SYMBOL',by.x='symbol')
head(DEG)
save(DEG,file = 'anno_DEG.Rdata')
gene_up= DEG[DEG$g == 'UP','ENTREZID']
gene_down=DEG[DEG$g == 'DOWN','ENTREZID']
}
KEGG分析,超几何分布检验
###这里就拿KEGG数据库举例吧,拿自己判定好的上调基因集进行超几何分布检验,如下
if(T){
gene_down
gene_up
enrichKK <- enrichKEGG(gene = gene_up,
organism = 'mmu',
#universe = gene_all,
pvalueCutoff = 0.05,
qvalueCutoff =0.05)
head(enrichKK)[,1:6]
browseKEGG(enrichKK, 'hsa04512')
dotplot(enrichKK)
ggsave("enrichKK.png")
enrichKK=DOSE::setReadable(enrichKK, OrgDb='org.Mm.eg.db',keyType='ENTREZID')
enrichKK
}
##最基础的条形图和点图
#条带图
barplot(enrichKK,showCategory=20)
#气泡图
dotplot(enrichKK)
通路与基因之间的关系可视化
#通路与上调基因之间的关系可视化
###制作genlist三部曲:
## 1.获取基因logFC
DEG_up <- DEG[DEG$g == 'UP',]
geneList <- DEG_up$logFC
## 2.命名
names(geneList) = DEG_up$ENTREZID
## 3.排序很重要
geneList = sort(geneList, decreasing = TRUE)
head(geneList)
cnetplot(enrichKK, categorySize="pvalue", foldChange=geneList,colorEdge = TRUE)
cnetplot(enrichKK, foldChange=geneList, circular = TRUE, colorEdge = TRUE)
ggsave("enrichKK_cnetplot.png")
通路与通路之间的连接展示
#通路与通路之间的连接展示
emapplot(enrichKK)
ggsave("enrichKK_emapplot.png")
热图展现通路与基因之间的关系
#热图展现通路与基因之间的关系
heatplot(enrichKK)
ggsave("enrichKK_heatplot.png")
GO分析重点是ID转换
library(clusterProfiler);
ego_bp_up<-enrichGO(gene = DEG_up$ENTREZID,
OrgDb = org.Mm.eg.db,
keyType = 'ENTREZID',
ont = "BP",
pAdjustMethod = "BH",
pvalueCutoff = 0.01,#0.01
qvalueCutoff = 0.05)
goplot(ego_up)
ggsave("ego_bp_up_goplot.png")
head(ego)
library(stringr)
barplot(ego_bp_up,showCategory = 16,title="The GO_BP enrichment analysis of all DEGs ")+
scale_size(range=c(2, 12))+
scale_x_discrete(labels=function(ego_bp) str_wrap(ego_bp,width = 25))
ggsave("ego_bp_up_barplot.png")