进行转录组分析前,需准备好参考基因组文件。医学研究中应用最多的就是人类、大鼠、小鼠。本文以这三种为主进行介绍。
参考基因组的下载可以进入ensembl数据库进行
点击画红框位置可以下载人类和小鼠的参考基因组。
首先下载人类基因组及注释文件
有很多基因组文件,我们选择primary。至于为什么选择primary,简单解释一下。
ENSEMBL会存储在多种形式fasta文件:
首先根据组装的不同分为:
- .toplevel - Includes haplotype information (不知道比对软件工具如何处理)
- .primary_assembly - Single reference base per position
其实根据对序列的处理不同分为:
dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
dna_rm - Repeats masked (converts repeats to to N's)
dna - No masking
Repeat Masking
在NGS处理过程中,事实上我们并不需要使用一个标记重复区域的基因组。标记重复的基因组会用N代替重复区域,而这就给后续的比对带来很大的问题,所以要避免使用dna_rm - Repeats masked (converts repeats to to N's)的参考基因组。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)虽然也标记出了参考基因组,但是以小写的形式存在的,故对比对没有影响。 这个问题问完了,dna_rm - Repeats masked出局,余下两者进入下一个问题。
Primary or Toplevel?
简单的回答就是说请选择的primary版本,因为toplevel版本会包含haplotype信息,多余的信息会增加比对工具的工作,所以这里选择primary就可以完成你的工作。
使用一下命令下载即可
##人
nohup wget http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz & ##下载基因注释
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz & ##下载参考基因组
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz & ##下载参考转录组
随后下载小鼠以及大鼠
##小鼠
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/mus_musculus/dna/Mus_musculus.GRCm39.dna.primary_assembly.fa.gz & ##下载基因组文件
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/mus_musculus/cdna/Mus_musculus.GRCm39.cdna.all.fa.gz & ##下载参考转录组
nohup wget http://ftp.ensembl.org/pub/release-104/gtf/mus_musculus/Mus_musculus.GRCm39.104.gtf.gz & ##下载基因组注释
##大鼠
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/rattus_norvegicus/dna/Rattus_norvegicus.Rnor_6.0.dna_sm.toplevel.fa.gz & ##下载参考基因组文件
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/rattus_norvegicus/cdna/Rattus_norvegicus.Rnor_6.0.cdna.all.fa.gz & ##下载参考转录组文件
nohup wget http://ftp.ensembl.org/pub/release-104/gtf/rattus_norvegicus/Rattus_norvegicus.Rnor_6.0.104.gtf.gz & ##下载基因组注释文件