BWA
bwa 是一款将序列比对到参考基因组上的软件,包含了以下3种算法
BWA-backtrack
BWA-SW
BWA-MEM
BWA-backtrack适合比对长度不超过100bp的序列;BWA-SW和BWA-MEM适合于长度为70-1M bp的序列;其中BWA-MEM是最新开发的算法,对于高质量的测序数据,其比对的速度更快,精确度更高,对于70-100bp的reads, BWA-MEM算法在比对长度为70-100bp的序列时,效果比BWA-backtrack 算法的效果更好。总而言之,通常情况下,选择BWA-MEM算法就好。
安装
git clone https://github.com/lh3/bwa.git
cd bwa
make
使用
bwa的使用需要两中输入文件:
Reference genome data(fasta格式 .fa, .fasta, .fna)
Short reads data (fastaq格式 .fastaq, .fq)
step 1: 建立 Index
根据reference genome data(e.g. reference.fa) 建立 Index File
bwa index -a bwtsw reference.fa
-a [is|bwtsw] : 输入构建Index的算法。is算法快速简单,是默认选项,但是不能用于基因组大于2GB的数据库。bwtsw适用于大基因组。
-p STR :输出的数据库的前缀。默认与输入的文件名一致。
BWA-MEM
bwa mem -t 4 -M genome read1.fq read2.fq > aln-pe.sam
-t 使用的线程数
-p 若无此参数,输入文件只有1个,则进行单端比对,输出文件有两个,则作为paired reads进行比对。若加入此参数,则仅以第一个文件作为输入,该文件必须是read1.fq和read2.fq进行reads交叉的数据