基因注释

前情提要

搞NGS,注释文件是我们经常需要用到的。但是不同的实验室偏爱的数据库各不相同,甚至同一个课题组的小伙伴都会选择不同来源的数据库。那么不同来源的数据库是否有什么不同呢?如何选择更适合我们研究的注释呢?

  • 主流的基因注释版本有三种:RefSeq/Ensemble/UCSC

  • Refseq=NCBI;Ensemble=Gencode

  • Ensemble注释更全面,Refseq适合那些不那么复杂的注释

Refseq是由美国NCBI搞出来的,而ENSEMBL则是由欧洲EMBL-EBI搞出来的,所以这俩不是一回事,甚至可以说差别有点大。

那么差别在哪呢?咱从Gencode说起……

Gencode

官方介绍:GENCODE项目的目标是基于生物学证据高精度地识别和分类人类和小鼠基因组中的所有基因特征,并发布这些注释以利于生物医学研究和基因组解释

Gencode的注释来源于两部分。分别是Ensembl-Havana团队生成的手动基因注释和Ensembl-genebuild的自动基因注释。当我们使用Ensembl genome browser时,默认的基因注释就是Gencode annotation。

这里值得一提的是,在gencode中标识HAVANA来源的,这表示它是人工注释的。但是这些注释也有可能是由于Havana手动注释和Ensembl自动注释合并的结果 而如果标识的是ENSEMBL,则表明这条注释是由Ensemble自动注释得到的

实际上,GENCODE注释与Ensembl注释基本相同……此处划重点,是基本,但不是全部~那么有哪些不同呢?

  1. X/Y染色体上PAR区域的注释:该区域的注释在Gencode中X染色体和Y染色体各注释一次,而在Ensembl文件中,只在X染色体进行了注释

    PAR region(Pseudoautosomal region):该区域是X和Y染色体的同源序列,因为这上面的任何基因可以和常染色体基因一样正常遗传而得名

  2. Gencode的第九列,也就是attribute那一列,有一些其他额外的tags,这些tags是Ensebl所没有的

所以说gencode的基因组注释基本上和Ensemble是一样的。

Gencode与Refseq

gencode的注释,我们最常用的是Comprehensive 版本,这个版本有一个特点,那就是全。这个版本与Refseq相比,转录本注释有着更多更全的外显子,对基因组的覆盖范围更广,能够帮助我们发现更多的突变。

当然了,有Comprehensive版本,那一定有basic版本,就是下面这个了。这个版本与Refseq相比,相似性更高,没有什么所特有的features。
image

说了这么多,你可能要问了,不同来源的注释文件是否可以相互转换?那我只能很遗憾的告诉你:不能。虽然从整体上来看,这两个来源的注释信息大体上是相同的(如果只看某一些基因还是可以发现不同指出),但是这两个来源的注释都有不同的版本,而这些不同的版本很难一一对应。

不过,虽说注释信息不可以相互转换,但是Refseq ID和ENSEMBL(Gencode) ID是可以相互转换的。我们可以使用在线工具http://www.ensembl.org/biomart/martview ,也可以使用Biocundutor包调用API,比如biomaRT

如何选择适合自己的注释文件?

首先我们需要知道,没有任何一个注释文件是完美的,总会有一些小的瑕疵。可能一些基因的注释不是很精确,甚至有可能全部都是错的……

如果我们想要做一些可重复度高的,或者对基因表达水平进行估计的时候,我们应该选择那些不那么复杂的基因注释,比如Refseq。当我们想要做一些探索性研究的时候,比如可变剪切之类的,我们可以选择比较复杂的基因注释,比如Ensembl


image.png

需要注意的是.abinitio后缀的GTF文件包括了Genscan和其他工具预测得到的注释信息,会全面一些。 但是未必可靠!

For the predicted gene set, an additional abinitio flag is added to the name file.
但是我自己选择的话,我倾向于使用Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf.gz,因为在比对的时候fasta文件里面是带有scaffold的信息的。

需要注意,GENCODE 上的GTF文件和ENSEMBL的GTF文件的第一列是不一样的,GENCODE的chr1在ENSEMBL上就是1。其余的地方是一样的(针对human & mouse而言)。

问题

在比对的时候,我该选用哪一个类型的fasta文件呢?

Repeat Masking
在NGS处理过程中,事实上我们并不需要使用一个标记重复区域的基因组。标记重复的基因组会用N代替重复区域,而这就给后续的比对带来很大的问题,所以要避免使用dna_rm - Repeats masked (converts repeats to to N's)的参考基因组。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)虽然也标记出了参考基因组,但是以小写的形式存在的,故对比对没有影响。
这个问题问完了,dna_rm - Repeats masked出局,余下两者进入下一个问题。

Primary or Toplevel?

简单的回答就是说请选择的primary版本,因为toplevel版本会包含haplotype信息,多余的信息会增加比对工具的工作,所以这里选择primary就可以完成你的工作。

多出来的chr_unkonw.....的信息是啥?

这是在构建基因组时已知存在于基因组内但是不知道位于哪条染色体上,随着注释工作的进展这些未知基因会越来越少。

下载参考基因组

1、Ensembl
是由 European Bioinformatics Institute(EBI)与Wellcome Trust Sanger Institute(WTSI)共同合作开发的数据库项目。Ensembl提供的基因组序列和NCBI的Genebank数据库完全对应。涵盖大量物种的参考基因组信息,并且数据更新及时,是参考基因组下载的好选择。

Ensembl提供了以下两种版本
top_level
primary_assembly
top_level版本和NCBI提供的版本一致,包含了所有的组装结果;而primary_assembly版本只包含chromsome和unplaced-scaffold序列。
这两个版本用处也不大一样,primary_assembly不包含alt-scafflod, 更适用于SNP的分析, 因为SNP就是在分析基因组上的杂合程度,top_level包含了单倍体型( haplotypes)和patch(补丁)的信息,而单倍体型的信息会使得比对软件很难处理好。如果用BWA,那么使用toplevel会有好处,但如果使用STAR/hisat2/bowtie2/BBmap等,包含单倍体型信息会导致比对结果不准确。

对于同一个版本, 还提供了不同的序列类型
dna
rm
sm
dna就是原始的基因组序列,rmsm在原始序列的基础上标记了其中的低复杂度序列,其中rm采用了硬编码的形式,删除了基因组中的低复杂度序列,sm采用了软编码的方式,将低复杂度序列用小写字母表示。通常选择dna版本进行下载即可。

最后强调一点,Ensembl提供的序列标识符也是我们常见的染色体编号的形式,只不过是不带chr前缀的,而且线粒体用MT表示。

2、NCBI

是National Centerfor Biotechnology Information的缩写,指美国国立生物技术信息中心。NCBI的全面和强大,相信大家都深有感触,NCBI在参考基因组信息展示上同样表现出色。

地址:https://www.ncbi.nlm.nih.gov/

image

NCBI提供的基因组序列包含以下4种水平
chromsome
unlocalized-scaffold
alt-scaffold
patch
chromsome就是组装到染色体水平的序列,比如chr1这种序列;unlocalized-scaffold是无法定位到染色体的scaffold序列,比如chrUn这种序列,这两种格式的序列共同组成了基因组的primary_assembly版本。
alt-scaffold的染色体定位是清楚的,是染色体上部分区域的同源序列,比如chr3_KI270934v1_alt这种序列,对于多倍体生物,同源染色体会存在杂合,所以会出现alt的现象;patch指的是补丁序列,其染色体定位也是清楚的,是对已有序列的补充和纠正,在未来的版本中,会更新到染色体上去。

NCBI下载的序列并不直接提供chr1这种我们常见的编号,如果想要这种编号,可以考虑从UCSC和Ensembl进行下载。

3、UCSC

UCSC Genome Browser是由University of California Santa Cruz (UCSC) 创立和维护的,主要收录一些模式动物得数据库,尤其是人和鼠参考基因组较常用;关于人的基因组注释信息非常全面。

UCSC提供的基因组序列只包含chromsome, unlocalized-scaffold,alt-scaffold 这三种序列,其标识符是chr1这种格式, 需要注意的是,线粒体的标识符为chrM。

进入UCSC主页:http://genome.ucsc.edu
选择 Downloads------Genomic Data
点击 Human
向下拉动,找到 GRCh37/hg19,点击 “Full data set”

先阅读一下各类文件的说明,比如chromAgp.tar.gz是描述测序片段如何组装的文件,chromFa.tar.gz是组装后的序列,每条染色体一个文件(我们要下载的文件),继续向下翻还有关于如何下载的说明。

鼠标悬浮在chromFa.tar.gz上,点击右键,选择“复制链接地址”然后回到Terminal,使用wget或者axel进行下载

wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz`
#或者用axel,相比之下axel是真心快啊!
axel  http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
#下载后解压
tar -zxvf chromFa.tar.gz
#解压后可以发现,参考序列是按照染色体号分开列出的,我们还需要把所有的序列写入到一个文件中。
cat *.fa > hg19.fa
#最后删除其他无用的文件
rm chr*.fa
#注意:Jimmy在《不可不知的基因组版本对应信息》中特别提示:hg19基因组大小是3G,压缩后八九百兆!

下载注释文件

选好了基因组,gtf/gff3的问题也迎刃而解——选择对应的版本就好了。

.gtf: 默认文件,对应primary assembly.fa(This is the default file, it should contain the full annotation for all species except human and mouse. For human and mouse, it will contain all annotation on the primary assembly, ie excluding patch and haplotype regions. All species have one.)

.chr.gtf: Contains only annotation on chromosomes, so toplevel scaffolds are excluded (patch and haplotypes are not included).

.chr_patch_hapl_scaff:对应toplevel。(Contains all annotation on all toplevel sequences, including patch and haplotype regions. It should only exist for human and mouse)如果你用的是primary选这个gtf文件也没什么关系,只是多了一些primary没有的注释信息而已。

.abinitio.gtf:基于.gtf增加了使用Genscan等工具得到的一些注释信息(Additionally, we provide a GTF file containing the predicted gene set
as generated by Genscan and other abinitio prediction tools.
This file is identified by the abinitio extension.)

注释文件就是基因组的说明书,告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以上三个提供参考基因组的网站中都有提供,比如Ensemble。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库

1、 NCBI

Ncbi 里包含现在最全的参考基因组数据,可以进入FTP站点查看:ftp://ftp.ncbi.nlm.nih.gov/genomes/

mark

这里的文件夹名为物种的拉丁名,这里以 Human(Homo_sapiens) 为例,下载方法如下:

wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.109/GFF/ref_GRCh38.p12_top_level.gff3.gz (hg38)

wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/GFF/ref_GRCh37.p5_top_level.gff3.gz (hg19)

GRCh37与GRCh38:有什么区别?
GRCh37和GRCh38都是Genome Reference Consortium(GRC)的人类基因组组装。GRCh38(也称为“build 38”)是在2009年GRCh37发布四年后发布的,因此它可以被视为一个版本,其中包含对早期版本的更新注释。
首先,GRCh38版本有三个更新:

  • 修复错误的读数
  • 包含模型着丝粒序列
  • 添加备用基因座

除此之外,GRCh37中的一些错误组装区域已在GRCh38中重新投入使用。这是第一个具有着丝粒序列的人类参考基因组,取代了早期构建中的300万个缺口(即GRCh37)。包含着丝粒序列将开辟以前从未有过的新研究领域。
GRCh38还包括在早期版本中部分捕获的基因组序列。然而,基因组中仍然存在差距,新的技术和方法都有助于缩小差距,旨在最大限度地覆盖人类基因组。
我现在需要使用GRCh38重新分析我的数据吗?
如果您一直在使用GRCh37,则无需返回并重新分析数据。值得庆幸的是NCBI已经解决了这个问题。
NCBI的Genome Remapping Service将注释数据从GRCh37转换为GRCh38。有关此工具的更多详细信息,请单击此处。

来自:https://bitesizebio.com/38335/get-to-know-your-reference-genome-grch37-vs-grch38/

2、Ensembl

FTP 地址ftp://ftp.ensembl.org/pub/current_gtf

mark

同样以Human(Homo_sapiens)为下载为例:

wget ftp://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.90.gtf.gz (hg38)

wget ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz (hg19)

3、UCSC

地址:http://genome.ucsc.edu/cgi-bin/hgTables

下载:设置参数如下,然后点击get output下载 gtf 文件

mark

4、GeneCode

地址:https://www.gencodegenes.org/human/release_29.html

下载:

mark

Notice: 需要注意的是不同的来源的基因组序列名称不一样,例如1号染色体,在 UCSC 中是 chr1,而在 Ensembl是1 ,因此不管你选择哪个版本,在使用的时候,序列和注释要统一(UCSC的基因组序列需要对应使用UCSC的gtf/gff3注释文件,Ensembl则对应使用其同一版本对应的gtf/gff3注释文件)。

Notice:下载完成之后,注意检查数据完整性。

#如果是从ucsc上下载,可以下载md5文件,比较下载文件和官网提供md5文件的值是否一样
md5sum mm10.fa > mm10.fa.md5

#如果是从ensembl上下载,可以同时下载CHECKSUMS文件,比较下载文件和官网提供的CHEKSUMS里的数值是否一样
sum Mus_musculus.GRCm38.dna.primary_assembly.fa.gz

参考:1、刘志国—如何下载注释文件并查看基因结构
2、阿杨—你可能不知道的注释文件冷知识
3、白默石—基因组注释文件(GFF,GTF)下载的四种方法
4、组学大讲堂—如何下下载一个基因组
5、RNAseq分析如何选择参考基因组和gtf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容