GATK4-部分工具包常用参数记录

  1. VariantFiltration
    Filter variant calls based on INFO and/or FORMAT annotaitions.
gatk VariantFiltration \
-R reference.fasta\
-V input.vcf.gz\
-O output.vcf.gz\
--fitler-expression "AB<0.2 || MQ0 >50" \
--fitler-name "my_filters"

不能使用VQSR,但需要对HaplotypeCaller的结果进行handfilter时可以用这个工具。

  1. FixMateInformation(Picard)
    Verify mate-pair information between mates and fix if needed.
java -jar --Xmx4g picard.jar  FixMateInformation \
                  I=input.bam \
                  O=fixed_mate.bam \
                  ADD_MATE_CIGAR=true AS=true \
                  SO=coordinate 

这一步是放在MarkDuplicates后面,查到有别人说如果MarkDuplicates 把重复去掉了,会对mate信息产生影响。如果MarkDuplicates只是标记而没有去除重复,则不会对mate信息产生影响,理论上可以不用做FixMate.
我比较了输入文件和输出文件的大小,fix之后的文件要大一些。

3.SelectVariants
Select a subset of variants from a VCF file.

gatk SelectVariants \
-R reference.fasta \
-V input.vcf \
-selectType SNP \
-O output.vcf

-selectType :INDEL,SNP,MIXED,MNP,SYMBOLIC,NO_VARIATION.(can be specified multiple times.)
常用的是从vcf中把snp和indel分别输出到两个文件。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Introduction What is Bowtie 2? Bowtie 2 is an ultrafast a...
    wzz阅读 5,835评论 0 5
  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 7,488评论 0 10
  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 9,545评论 0 13
  • 想念,是无法言说的心事;是不能和人分享的,一个秘密;是不能与人倾诉的,一种心语;它,止于唇齿,又藏于心底;它,纵有...
    云溪忆站阅读 405评论 0 2
  • 大姑和表姐五一回老家,我们也回去团聚,和母亲在家里住了两天,平时忙于工作和生活,已经记不清几年没在家住过了。 哥哥...
    花下锄月阅读 1,469评论 2 9