拼接的思路大体可以分为两种:一种叫做Overgap,一种是debrujin,前者是根据两条read序列前后部分的重叠来拼接,适用于一代测序的结果,而后者是将reads切割成更小的片段k-mers,k-mers的组合来完成拼接工作,适用于二代高通量测序
现在可以用的软件非常之多,比如说:clc(收费的),SOAPdenovo,velet等等。
使用idba_ud软件进行拼接,
首先准备好经过trimmomatic去接头和低质量序列的reads,双端和单端都可以。
idba_ud(http://i.cs.hku.hk/~alse/hkubrg/projects/idba_ud/)是一个可以针对不同测序深度的短reads的基于交互式De Bruijin作图的从头拼接软件。他从小的k-mer开始到大的的k-mer步步前进,设定阈值,短的和低深度的contigs被删掉,这样来完成低深度和高深度的拼接。
Comment
IDBA接受fasta格式的reads. Fastq格式可以通过fq2fa程序被转化为fasta文件
$ bin/fq2fa read.fq read.fa
IDBA-SC需要将paired-end reads存在一个FastA文件中,一对reads保存在两行,如果不是,可以用fq2fa来合并两个FastQ为一个。
$ bin/fq2fa --merge --filter read_1.fq read_2.fq read.fa(使用这条命令。将两个fq文件合并成一个fa文件)
or convert a FastQ read file to FastA file.
$ bin/fq2fa --paired --filter read.fq read.fa
最后输入如下命令即可:
idba_ud -r total.read.fa --maxk 90 --step 10 -o output_dir1--num_threads 4 --min_contig 200
--mask 设定kmer,此处选定最大值90。
我的序列500Mb,大概10几分钟就出结果了。
参考: