使用fastuniq去除fastq中的PCR重复

二代测序的去重是非常重要的一步,常规的方法都是在比对到基因组之后利用基因组位置的信息来去重,这样效率比较高,但有些时候我们要在拿到测序的fastq文件的时候就去重。

image.png
这样的算法有一些,都不算特别主流,经测试,最容易安装的就是fastuniq,文章于2012年发表于plos one,方法也很暴力,就是去除一样的reads。
image.png

安装使用非常简单,可以参考如下的链接http://blog.sina.com.cn/s/blog_670445240101lqat.html
使用过程中一个非常大的问题,输入只能是fastq文件,不能压缩,不能压缩,不能压缩!
使用它处理一对文件,输入为fq文件,输出为fastuniq文件,攻占用了49G内存,大约运行了十分钟,速度还可以接受。
image.png

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容