记录NCBI下载基因组的大坑

写在前面

  • 最近分析的物种由于国外品种与国内品种差异还是比较大,虽然大部分文章用的参考基因组都是以国外品种为主,但是由于考虑到目前我这边数据几乎全部都是来源于国内品种,因此在考虑是不是用国内品种的基因组会更妥善。
  • 刚好今年4月份国内品种的基因组又更新了一版,似乎是国内品种中目前质量最高的参考基因组,有被吸引到,因此有了这篇踩坑记录。。。。。

一、在基因组文献中找到参考基因组及注释的存储路径


如图可知该基因组存储在ncbi上,也给出了BioProject Number。注释文件存储在另外一个网站,似乎类似于FTP,直接下载即可,并没有太大问题。

二、NCBI下载基因组与注释文件(开始踩坑)

根据给出的BioProject Number,直接在NCBI上进入物种基因组下载界面,并点击下载



在NCBI上,一般能够下载到某物种的基因组文件及其对应的注释文件。但是我要下的该物种似乎确实没有将注释文件一并上传到NCBI上。因此直接去文章中给出的链接下载。


得到基因组与注释文件之后,使用TBtools提取CDS序列一直提不出来,非常奇怪。


一般来说遇到这种情况,基本上都是用户操作不当或者文件有问题。因此直接查一下文件的完整性。
使用TBtools的File MD5 Sum功能计算下载的基因组的MD5,发现文件完整度没问题。


提不出CDS序列,输出的是空文件。也许是GFF3文件哪里有问题。检查了一下,发现似乎也没异常,该有的信息都有,除了基因ID长得比较奇怪。。。而且TBtools也能够成功提取该GFF3文件的信息,



顺道看了一眼参考基因组内容,惊呆了。。。问题竟然出现在染色体ID上,应该是NCBI默认给染色体ID更改过了名字,导致参考基因组中的染色体ID与GFF3中的染色体ID不一致。虽然信息很全,但是并没有啥用,甚至还会导致一系列报错。。

fine,既然找到了原因,那么只需要写个命令将基因组中的染色体名称改成与GFF3中一致即可

三、关于下载参考基因组

  1. 我觉得下载参考基因组首先还是要直接看基因组文章里面DATA AVAILABILITY部分,是否有给出基因组及其注释文件的下载链接或者存储网站,直接访问下载,往往会比较靠谱。
  2. 网上搜索是否有所需物种相应的基因组数据库
  3. 权威的综合数据库,如Ensembl、Phytozome等等。
  • 最近Ensembl(https://asia.ensembl.org/index.html)用的比较多,一般直接进入Ensembl提供的FTP中搜索自己需要的物种以及参考基因组版本,FTP网址为:http://ftp.ensembl.org/pub/
  • 进入会看到版本选择界面


  • 确定好版本号之后,即可选择要下载的文件类型,Ensembl提供了非常详细的相关文件下载,一般我们需要的是基因组序列以及注释文件,即fasta与gff3


  • 接着选取所感兴趣物种下载即可,可以下载其参考基因组序列、CDS与蛋白序列等等



最后,关于Ensembl ID
通常Symbol是我们更愿意看到的ID,即基因的官方名称,如GFAP、MYB等,便于我们直观的知道这是个什么基因,但是在数据分析的过程中,基因ID往往不会直接以Symbol的形式出现,这个时候可以借助转换工具来对其进行转换,如Y叔的clusterProfiler,或者直接在Ensembl网站上转换等。

Ensembl ID的含义,如ENSSSCG00000037372

  • 其中ENS是Ensembl ID的标识符;
  • SSC为物种名的缩写(SSC指的是猪,如果是人的话,则默认为ENS,没有物种名);
  • G表示该ID为基因ID,指的是一个基因;如果是T,则为转录本ID,指的是某个基因的转录本;P则为蛋白;具体的缩写可以参考Ensembl官方说明:http://asia.ensembl.org/info/genome/stable_ids/prefixes.html
  • 字母后面的一串数字为唯一的ID号,若ID后面还带着.1、.2等版本号标识符(如:ENSSSCG00000037372.3),则表示其在Ensembl中更新的次数,一般在做分析时需要将版本号给去掉。

写在最后

近期状态似乎还不错,虽然通勤真的很累,特别是要挤早高峰和晚高峰的广州死亡3号线。。。
嗯。。愿天下打工人都不用通勤

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容