进行序列比对之前,需要首先对参考基因组序列建立索引,这样使程序在运行时能更高效的进行比对。
用bwa工具举例(假设用于比对的参考基因组序列文件为AF086833.fa):
bwa index AF086833.fa
每个程序建立索引的类型不一样,生成的文件数量,命名方式,扩展名都有可能不同,因此,最好将参考基因单独放在一个文件夹中。
比对的时候调用参考基因组文件仍然用AF086833.fa,其他生成的索引文件程序自动用于比对过程,不需要在命令行中体现,
bwa mem AF086833.fa SRR1972739_1.fa > output.sam
比对后生成Sam文件。如果是双端测序的比对,在后面加上另一个read文件就可以了。
通常Sam文件包含了所有样本与比对的信息,即所有fastq中的信息在Sam中都有体现,因此比对之后一般很少再查看fastq文件。