数据库基因ID介绍及转换(R的biomaRt包)

一、ID常识

ENSG00000141510
ensembl ID是欧洲生物信息数据库的基因标识符,ensembl ID是欧洲生物信息数据库的基因标识符,基因都是以ENSG(ensembl gene)四个大写字母开始,后面跟着11位数字。它包含了两万多个蛋白质编码基因,有很多的假基因、miRNA等,因此它的数量较多,有六万多个,比人类已知的基因数(2万左右)多得多。

  • Ensemble ID 基本上是以ENS开头,后接表示物种的符号, ENSMUS: 表示Mus musculus (Mouse)
  • Homo sapiens 直接以ENS表示
  • 少部分的,以其他开头


    image.png
ENSMUSG00000000031: 小鼠基因
ENSMUST00000000031: 小鼠转录本
ENSMUSP00000000031: 小鼠蛋白
ENSG00000000031: 人基因

NG_017013
RefSeq数据库,即RefSeq参考序列数据库,是美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质等片段序列的数据库。RefSeq 有一套特殊的 Accesion Number(就是我们通常用的RefSeq ID)让我们来进行检索。ID的常见前缀为:

image.png

TP53
HGNC ID 是指由人类基因命名委员会(HUGO Gene Nomenclature Committee)指定的基因标识符,该委员会通常对基因赋予一个名字以及一个ID。官方基因名字(gene symbol)由HGNC起名。HGNC命名的基因收录在以下数据库中:http://www.genenames.org/

人类TP53基因:

  • 标准的symbol(名字):TP53(tumor protein p53)
  • HGNC ID :11998

7157
Gene ID 也称Entrez ID,就是一系列数字, 也比较容易辨识。NCBI的Gene数据库记录了不同物种的基因信息,在Gene数据库中,给每一个基因提供了一个唯一的ID, 这个ID叫做Entrez ID,Entrez是NCBI的检索系统的名字。在NCBI中,所有的基因都有Entrez ID和Gene Symbol, 其中只有部分基因拥有HGNC Symbol。

image.png

Gene ID (Entrez ID)查询:https://www.ncbi.nlm.nih.gov/gene/

uc003tqk.4
UCSC的基因ID以uc开头,比如uc003tqk.4, 称之为knownGene, 完整的基因列表可以从以下链接下载:http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/knownGene.txt.gz

hsa:7157
KEGG的Gene 数据库也拥有自己的gene ID, 以三个字母的物种缩写和id构成,比如tp53对应的kegg gene id 为hsa:7157。链接如下:https://www.kegg.jp/dbget-bin/www_bget?hsa:7157

发表文章时,在文章中呈现的通常都是基因的HGNC symbol,就像TP53,EGFR,KRAS

二、ID转换

Biomart是ensembl下属的一个网络数据库,里面包含非常多的信息。biomaRt包是该网站的R语言接口,可以帮助用户在R语言中实现biomart的功能。

BiocManager::install("biomaRt")
library(biomaRt)

参考文章

https://www.sohu.com/a/245475759_777125
https://blog.csdn.net/shy_321/article/details/117968423
https://cloud.tencent.com/developer/article/1625202
https://cloud.tencent.com/developer/article/1638291
https://www.jianshu.com/p/33e22a558457

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容