查找GSE及对应GPL平台,注释包信息后还能画个热图

以前听GSE号与对应平台GPL号以及注释包,总是不知道为什么要互相对应?咋个对应?今天栽了才知道。我没脸写我是怎么栽的,就写写我栽后是如何正确的做完这道题。

我正在做R语言小作业-中级-第六题

第六题:
下载数据集GSE17215的表达矩阵并且提取下面的基因画热图
ACTR3B ANLN BAG1 BCL2 BIRC5 BLVRA CCNB1 CCNE1 CDC20 CDC6 CDCA1 CDH3 CENPF CEP55 CXXC5 EGFR ERBB2 ESR1 EXO1 FGFR4 FOXA1 FOXC1 GPR160 GRB7 KIF2C KNTC2 KRT14 KRT17 KRT5 MAPT MDM2 MELK MIA MKI67 MLPH MMP11 MYBL2 MYC NAT1 ORC6L PGR PHGDH PTTG1 RRM2 SFRP1 SLC39A6 TMEM45B TYMS UBE2C UBE2T
提示:根据基因名拿到探针ID,缩小表达矩阵绘制热图,没有检查到的基因直接忽略即可。

解题思路: 上述基因名复制粘贴到一个txt保存为Q6.txt-表达矩阵-注释包得到基因名对应的探针名-过滤表达矩阵-热图

1. 下载数据,提取表达矩阵, 查看

#下载
suppressMessages(library(GEOquery))
Q6=getGEO("GSE17215",AnnotGPL = F,getGPL = F)
#提取表达矩阵
Series_m=Q6$GSE17215_series_matrix.txt.gz
Series_m=as.data.frame(exprs(Series_m))
#查看
head(Series_m)
dim(Series_m)
查看表达矩阵.png

查看过程中我发现这探针名(行名)不是我需要的基因名呀,应该是需要注释包来看探针名和基因名的对应关系

2. 注释包(找到探针名和基因名的注释包-筛选我需要的基因对应的表达矩阵)

问题来了,我怎么知道这个表达矩阵所需的是哪个测序平台?用的哪个注释包做的注释?

show(Q6)
平台信息.png

看到Annotation:GPL3921好了就可以去搜索了
【咋搜索的?在哪里?联网-打开浏览器-bing-输入GPL3921-第一条就是GEO Accession viewer-打开就看见下图】

GPL3921.png

3. 回到Rstudio中,下载注释包,读取探针名和基因名的对应关系表

BiocManager::install("hgu133a.db")
suppressMessages(library(hgu133a.db))
#看看里面有什么
keytypes(hgu133a.db)
#读取探针名和基因名的对应关系表
ids=toTable(hgu133aSYMBOL)

4. 读区要选择的基因名,过滤表达矩阵,画图

Q6_gene=read.csv(file="Q6.txt",sep="\t",header = F)
colnames(Q6_gene)="symbol"
Q6_mydata=merge(Q6_gene,ids,by="symbol")

Series_m$probe_id=rownames(Series_m)
Series_m_filter=merge(Q6_mydata,Series_m,by="probe_id")
rownames(Series_m_filter)=Series_m_filter[,1]
Series_m_filter=Series_m_filter[,c(-1,-2)]

library(pheatmap)
pheatmap(Series_m_filter,scale = "row",show_rownames=F,clustering_distance_rows = "correlation")
pheatmap.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容