从去年开始,就一直在使用GATK(GenomeAnalysisToolkit)进行人类基因组的SNV Calling工作。后来从官网上得知即将有4.0的版本更新,众所周知,这种3.x --> 4.0的变化应该是十分巨大的,所以说其中变化的东西也是十分的多很繁杂。
所以用这篇日志简要总结一下。当然不是其更新日志的翻译版。。。那也没有什么意义。
这篇文章的主旨是在总结现有的GATK4.0的功能,能做什么,需要怎么做,因为很多工具包虽然有提供一定的Best Practices,但其实其中还有许多的有用的功能,所以在这里简要总结一下。
Best Practices的变化
流程上的变化也已经可以看出一部分软件内部的变化,但是细节由于gatk的组织还没有发表新的文章对其进行评定,而且我这边也还没有对两个版本的进行比较,所以还没有更好的解决办法。
所以best practice的介绍也就到这里。
官方推荐的best pratice也有对应的github连接,但是是以WDL的语言写的,所以个人觉得还不是很好理解,已经提了一个issue询问是否有命令行版的,只能等回复了。这里贴上连接。
gatk workflows including gatk4 version
枚举有用的gatk 工具
工具列表以此处为准
- CountBases 统计一个sam或者bam的总碱基数,可以指定区域,便于计算平均深度。
- CountReads :(鸡肋)可用samtools代替
- metagenomic (整个部分的流程都鸡肋)metagenome用的是基于比对的想法,很难做,旧。
- DownsampleSam,可以从一个sam/bam里节选一部分出来,随机性高且考虑了分层。
- FastqtoSam : 将一个fastq转成一个伪比对好的sam
- FilterSamReads:与4的区别在于,这里用的是filter后的,例如unmapped之类的。
- GatherBamFiles :合并多个bam,用于多线程后的合并或者多次测序多次分析后的合并。