GEO数据库下载
library(Biobase)
library(BiocGenerics)
library(parallel)
library(GEOquery)
gest<-getGEO("GSE9579",destdir=".",GSEMatrix=T,AnnotGPL=FALSE,getGPL= F) # "."可填保存的路径
从GPL平台直接下载平台基因信息
gpl570=read.delim("C:\\Users\\zhouwenqing789\\Desktop\\base\\GPL570anotation.txt",header = T,stringsAsFactors = F,sep ="\t") #读取下载的平台信息
g579symbol=gpl570[,c(1,11)]
write.table(g579symbol,"g570symlol.txt",col.names
= T,row.names = F,quote = F,sep = "\t")#取需要的基因ID和gene symbol 并保存
#找出哪些是空值并删除 which(is.na())
length(intersect(gse47389na[,1],g579symbol[,1]))#查看有多少交际并合并
colnames(g579symbol)
expr=merge(gse47389na,g579symbol,by.x
= "ID_REF",by.y = "ID")
其它ID转换方式
1 DAVID网站提供了id转换的功能
1 选择上传gene list文件
2 选择上传ID的类型,我们ID-list.txt中的是Ensembl Gene ID,所以这里选ENSEMBL_GENE_ID
3 这个是类型,因为只做ID转换,所以选Gene List就ok了
4 选择你要转换的ID类型,这里我选的ENTREZ_GENE_ID
5 然后选择提交就ok了
1 输入文件ID类型
2 输出ID类型,这里的Gene ID就是指ENTREZ GENE ID
3 输入ID列表,点击确定。测试的时候发现输出的结果不会超过5000个ID,如果需要转换的id比较多可以考虑分割文件再转换
ensembl
的官方网站提供的工具,ID转换比较齐全,而且除了转换ID之外,还有其他有意思的功能(留给你们自己去挖掘了),缺点就是不能做大量的ID转化,不过2000应该能行吧。
1 选择数据库:Ensembl Gene 86,Homo sapiens就ok
2,3 过滤,主要是输入要转换的ID,选择Ensembl Gene ID,将ID-list.txt导进去,如果想获取这个物种所有的对应关系,那么久什么都不用选;
4 attribute,主要是选择输出的内容,这里作为ID转换,输出就是Ensembl Gene ID和ENTREZ GENE ID就行。
5 设置完了以后最后点击results就会返回结果了。
4 从NCBI下载Gene ID 对应Ensemble ID的文件,写脚本进行转换ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/
Ensembl的Gene ID想要得到它的GENE Symbol的时候,一转换之后就有些对应不上了,有的Ensembl Gene ID对应不上Gene Symbol了,其实这是正常的,因为Ensembl属于EMBL-EBI,也就是欧洲生物信息学中心,NCBI属于美国生物信息学中心,他们对于基因组注释肯定是不同的,但是比较公认的一个观点是Ensembl Gene ID的注释更加详细,所以会出现一个Ensembl Gene ID对应几个Entrez Gene ID(Gene Symbol),或者一个Entrez Gene ID对应几个Ensembl Gene ID也是可能的,而我在对测序数据进行注释的时候几乎都是选用Ensembl提供的参考序列以及注释文件,一般不用NCBI的。