VCF 处理

vcf格式文件处理大全

image.png
  • 1 生成
    vcf基本上都是直接从bam格式文件中生成的,可以使用bcftools,gatk,freebayes,lumpy,delly等工具。

  • 2 格式转换
    vcf是文本格式,可以直接打开查看,bcf为二进制格式,不能直接使用less命令查看,但是二进制会节约存储。

bcftools view A1.vcf -O b -o A1.bcf.gz
-o:输出结果文件
-O:数据文件格式

  • 3 建立索引
    bcftools index 默认生成csi格式索引,加-t选项生成tbi格式索引。

  • 4 查看固定区域

多个区域需要bed文件。
bcftools view A1.bcf.gz -R region.bed

  • 5 统计

bcftools stats
plot-vcfstats

  • 6 查看固定信息

使用bcftools的query功能筛选。
每个关键字前面使用%,“\t”或者“\n”代表制表符与换行符。

  • 7 合并多个结果
    bcftools merge

  • 8 拆分SNP与InDel
    可以使用bcftools view的-v选项,后面可以接snps与indels或者mnps等。

  • 9 过滤

变异检测的策略一般是先找全,然后在找准。也就是软件首先输出尽可能多的结果,保存到vcf文件中,然后在采取不同的标准对vcf进行过滤。过滤可以采取很多的标准,一般包括测序深度,打分制,碱基质量值,先验概率等。可以使用bcftools的filter功能,关键是要掌握其表达式EXPRESSIONS的写法。

  • 10 注释

主要是将突变位点定位到基因组上,确定突变发生在哪个基因。另外一种注释就是与已知突变位点进行比较,定位到已知的rs number号上面。

bcftools annotate -

  • 11 SNPeff注释

snpeff主要用来预测snp突变的影响,包括氨基酸变化等
snpsift的功能是用来操作变异结果文件,需要使用相关数据库。

  • 12 Annovar注释
  • 13 clinvar临床数据库注释
    clinvar是收集了与人类疾病相关突变位点的数据库,可根据突变情况进行疾病的预测。需要下载clinvar数据库,之后使用snpEFF或者annovar软件进行注释。
  • 14 一致性序列

主要用于构建系统发育树。
bcftools consensus

  • 15 VQSR

VQSR是Variant Quality Score Recalibration,是GATK的核心功能,也就是利用机器学习算法对vcf进行过滤。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容