参考:Jimmy老师博客:基因组各种版本对应关系
目前常用的人类参考基因组是GRCh37和GRCh38,在三大常用数据库对应关系如下:
NCBI | UCSC | ENSEMBL |
---|---|---|
GRCh37 | hg19 | release_59/61/64/68/69/75 |
GRCh38 | hg38 | release_76/77/78/.../99/100 |
ENSEMBL
1. 下载人类GRCh38参考基因组及注释文件
1.1 打开ENSEMBL官方主页http://asia.ensembl.org/index.html,如下图,点击Human
1.2 点击Download DNA sequence (FASTA),进入参考基因组文件的ftp下载地址:
ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/dna/
1.3 进入ftp下载页面后,选择按大小排序,下载参考基因组文件Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
在这个页面的最下端有一个
README
文件,记录了有关上面所有文件的详细信息,有兴趣的同学可以自行查阅。
1.4 回到GRCh38.p13页面,点击Download GTF,进入参考基因组注释文件ftp下载地址:ftp://ftp.ensembl.org/pub/release-100/gtf/homo_sapiens/
1.5 进入ftp下载页面后,
下载Homo_sapiens.GRCh38.100.chr.gtf.gz
或者Homo_sapiens.GRCh38.100.gtf.gz
1.6 回到GRCh38.p13页面,点击Download FASTA ,进入ftp下载地址:
ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/
可以看到,有一系列文件夹,其中dna文件夹,就是步骤1.2演示的参考基因组文件所在的文件夹,而cdna文件夹,存放的则是参考转录组文件
1.7 进入cdna文件夹,下载Homo_sapiens.GRCh38.cdna.all.fa.gz
至此,我们就下载了人类参考基因组GRCh38版本的
- 参考基因组文件 Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
- 参考基因组注释文件Homo_sapiens.GRCh38.100.chr.gtf.gz
或者Homo_sapiens.GRCh38.100.gtf.gz - 参考转录组文件Homo_sapiens.GRCh38.cdna.all.fa.gz
2. 下载人类GRCh37参考基因组及注释文件
2.1 打开ENSEMBL官方主页http://asia.ensembl.org/index.html,如下图,点击Still using GRCh37?
可以看到,这个页面就跟前面GRCh38.p13下载页面非常的类似了,我们可以点击Download DNA sequence (FASTA)进入到GRCh37的参考基因组文件Ftp下载地址:
ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/
我们可以点击Download genes, cDNAs, ncRNA, proteins (FASTA)进入到GRCh37版本各种Fasta格式文件ftp下载地址:
ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/
可以下载到GRCh37版本的参考基因组文件和参考转录组文件
人类参考基因组GRCh37版本
- 参考基因组文件:
ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz - 参考转录组文件:
ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh37.cdna.all.fa.gz - 参考基因组注释文件:(页面上并没有下载地址,但是可以根据前面GRCh38下载网页规律构建,将ftp网址里的fasta更换为gtf)
ftp://ftp.ensembl.org/pub/grch37/current/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz