NCBI对应UCSC,对应ENSEMBL数据库:
GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
如果使用基于GRCH37的衍生参考基因组版本,建议使用hs37d5,这几个版本的基因组的主要区别介绍如下:
1)GRCH37,b37,hs37d5(b37+decoy)与hg19、GRCH38(hg38)的来源: hg19来自UCSC,GRCH37来自NCBI,b37来自千人基因组第一期,建议使用的是b37的升级版hs37d5,来源于千人基因组计划第二期,也是目前Broad正在使用的两个基于hg19的基因组版本之一(另一个版本无hs37d5,即decoy序列)。
2)GRCH37,b37和hs37d5的区别: 可以将hs37d5理解为b37的升级版,b37为GRCH37的升级版。b37在GRCH37的基础上进行命名和坐标系统规范,包括线粒体和GL开头的一些没有定位到基因组的序列;hs37d5在b37基础上增加了一条病毒序列(疱疹病毒),一条decoy序列(hs37d5,来自BAC或者质粒克隆等,没有具体的变异检测的作用,但是能增加比对率,以及提升正确的比对率),并且在Y染色体上把X,Y染色体的同源区mark 成了N。
3) hg 19与hs37d5的区别: hg19与hs37d5的坐标系统一样,1-X,Y染色体碱基信息一模一样。区别是(不考虑scaffold的区别):
线粒体有差别(版本不一样,hs37d5用的是修正版的NC_012920,而hg19是老版的NC_001807),建议使用NC_012920(也有基于hg19更新线粒体信息的hg19基因组)。
UCSC参考基因组中有大小写碱基,小写表示在repeat区(Repeats from RepeatMasker and Tandem Repeats Finder)。
染色体编号表示不同,hg19带有chr,hs37d5直接是染色体编号
4)hs37d5和GRCH38(hg38)的区别: GRCH38是GRCH37的升级版,总体组装的碱基数量,基因的坐标位置等许多信息的更新,具体区别可参考PPT
每次基因组版本的升级,比如从hg18到hg19,再到hg38,坐标系统已经不一样,所以分析过程中使用了某个基因组,去公共数据库查询频率,位置等信息时,都要对应到使用的参考基因组查询相关信息,才能保持信息的一致性。另外,如果需要,基因组坐标间也能通过LiftOver进行转换。
5)以下是hg19和GRCH37衍生版本之间差异及信息的说明网址,可供参考:https://wiki.dnanexus.com/Scientific-Notes/human-genome
各版本参考基因组下载地址:
hg19/hg38下载地址 http://hgdownload.cse.ucsc.edu/downloads.html#human
GRCH37/GRCH38下载地址 https://www.ncbi.nlm.nih.gov/genome/guide/human/
本文固定链接: http://qgenomics.org/?p=1152
转载于: H-Yu 2017年03月23日 于 Qgenomics 发表