tophat软件比对-测试(2018-05-28)

1 比对的是:相似菌参考基因和使用seqtk随机抽取出来的转录组数据。

2 bowtie2做index

建索引结果

1)使用方法: bowtie2-build<要生成的索引文件前缀名>;

比如:path/bowtie2-build genome.fabowtie2 index/genome

2)参数说明:genome.fa是fasta文件;

genome是要生成的索引文件的前缀名;

bowtie2index是一个文件夹,用来存放索引文件,方便日后查看和使用;

注意:程序运行完后genome.fa文件要放在bowtie2 index索引目录中,tophat2软件才能正确运行。

3 reads mapping到参考基因组——tophat2软件:基于bowtie2

1)用法:

命令行:tophat2 -p 4 -G /home/andengdi/lyr/rna-seq/00-reference/genome.gff -o test_output /home/andengdi/lyr/rna-seq/00-reference/genome /home/andengdi/lyr/rna-seq/01-data/YSH-qurRNA-42-314-4_L001_R1.fastq /home/andengdi/lyr/rna-seq/01-data/YSH-qurRNA-42-314-4_L001_R2.fastq

2)参数说明:

-p :指定线程数,默认为1

-G :指定已有的基因组注释信息,gtf或gff文件;

-o :指定输出目录,默认为”./tophat_out“;

后面加上索引文件:与前面的bowtie2建立的索引相对应,只取前缀名。

最后加上fastq文件:filename.fq;如果是双端测序则是filename_1.fq和filename_2.fq两个文件。

( 细菌是没有junction的,但不排除可能出现错误; 将注释文件去掉跑流程。)

4 结果:


结果文件

其中,需要查看各类说明去logs文件下:


logs

比如:需要了解这个程序跑了多久,可以看

tophat.log

总结结果

因为我使用seqtk随机取转录组的部分数据和细菌基因组比对的,所以耗费时间比较短,大概耗时8小时。

另外查看一下mapping率:

mapping到1.9%

这个测试数据还是可以的,下一步就是用cufflinks软件将这个这些基因merge起来。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容