对于生信分析,经常需要从各种网址下载基因组,小编在此分享一些下载经验,
(1)参考文献:对于一个科学研究者,可以直接找到研究物种已发表的基因组文献,一般情况下,文章会提供基因组及注释文件的下载链接,该下载链接是最直接最可靠的;
(2)NGDC:国家基因组科学生物中心 search,该网站是国内最大的基因组数据库,可通过拉丁文或NGDC版本号查询,该网站除了自己的数据库,还可以搜索并跳转到NCBI和EBI数据库,能够同时看到三大数据库的情况,小编建议将此搜索界面收藏,GWH为基因组及注释,GSA为基因组组装用到的原始数据
(3)NCBI:NCBI是最大相对最全的基因组下载数据库,对于生信从业者,一般首选该网站NCBI官网,只需要知道物种的拉丁文名或者NCBI的版本号即可,一般需要同时有genome跟GFF的链接才能使用,若没有GFF链接,表明该版本在NCBI上没有注释文件,我们可以点击Genome Assemble and Annotation report 查看其它版本,linux系统下载NCBI基因组可参考小编另一篇博客NCBI数据下载工具:aspera的安装与使用
点击Genome Assemble and Annotation report后可见如下界面,能看到研究物种各种版本基因组,最后边的G为下载链接,注:下载链接为ftp格式,谷歌浏览器在国内不支持,需要换其它浏览器才能打开链接
(4)EBI:欧洲生物信息研究所EMBL,欧洲的数据库,该数据库里的基因组还有基因组注释在NCBI一般能找的到,小编很少用
(5)JGI phytozome植物基因组数据库,该网站为植物基因组数据库,整理的基因组相对比较规范,使用起来比较友好,需要首先注册官方账号,然后才可下载
(6)ensembl ensembl ftp下载链接 ftp://ftp.ensemblgenomes.org/pub/,该网站版本不断更新,可以选择最新版本进行下载,该网站收录的常用物种基因组,除了ftp,还可以去http里进行下载ensembl http下载链接,小编没弄明白两个链接有什么不一样,但是基因组是有差别的,要是一个链接找不着,可以去另一个链接里找
(7)GigaDB BGI华大,华大组装的基因组,一般都存储在这里,虽然是国人数据库,但该网站响应非常慢,小编使用的很少,有兴趣可以研究
以下给出一些小类别数据库,持续更新中。。。
(1)柑橘基因组 该网站可以下载柑橘不同品种的基因组PBD
(2)葫芦科植物基因组 CuGenDB,包括黄瓜、西瓜、南瓜、甜瓜、葫芦
(3)棉花基因组 Gossypium New Sequence Data release,提供三种棉花基因组及基因组注释文件
(4)蔷薇科基因组GDR数据库,包括草莓、苹果、桃、梨、玫瑰月季等
(5)番茄马铃薯基因组 solgenomics
(6)软体动物MolluscDB