VCF (Variant Call Format)


举个栗子:

image.png

Meta informations

这块儿由##打头,第一行必须是VCF的版本信息

  1. INFO
    规定VCF主体部分INFO字段可能出现的变量和对应值的数目、类型
    比如,特殊地,##INFO=<ID=AF,Number=A,Type=Float,Description"Allele Frequency">表示对于INFO字段中的AF键来说,它的值的数目跟alternative allele一样多 (Number=A的意思就是每个alternate allele一个值)。其它各种奇奇怪怪的特殊规定见参考文献
  2. FILTER
    规定VCF主体部分FILTER字段可能出现的类型,好像PASS不用特意规定?
  3. FORMAT
    这个比较重要,规定VCF主题部分FORMAT字段可能出现的类型。FORMAT字段与样本具体信息是对应的,信息由冒号分割。
    GT,GQ,DP,HQ分别表示基因型(genotype),基因型质量(genotype quality),片断覆盖度(read depth),单体型质量(haplotype quality)。片段覆盖度就是比对之后,有多少片段与这个位点有overlap(猜测可能可以作为基因型可信度的一个指标?read少的话,偶然情况比较大,得到的基因型可信度不高?)。
    GT是1|0表示这是个二倍体,1表示第一个alternate allele (对应ALT字段的第一个allele),0表示reference allele(对应REF字段中的allele),另外|表示该基因型已被分型(就是把allele属于两条染色体的哪个已经分配好了,具体算法得有利用富含杂合位点的片段来做的或者直接家系信息,GATK4应该有具体的实现)。如果是未分型的,则是1/0。如果是三倍体,则是类似0/1/0这种。

Data lines

  1. 固定的字段

  2. 样本基因型字段


参考:
https://github.com/samtools/hts-specs

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 刘小泽写于18.12.31再次知识迭代:打算以上中下三篇来认识一个新事物上篇:主要了解VCF的背景知识;一般我们会...
    刘小泽阅读 10,883评论 2 37
  • 1)VCF格式简介 VCF格式:Variant Call Format,是用于表示SNP, indel, 和 st...
    oddxix阅读 11,786评论 0 6
  • 刘小泽写于18.7.17所有的数据,一旦要找变异位点信息,就离不开VCF。豆豆也是在写一个重测序的操作流程,遇到了...
    刘小泽阅读 34,078评论 2 73
  • 时光如漫画般定格在了此刻。樱花树下,少年温柔的抱着少女。少女的世界晕眩了。花瓣在空中飘落。缠绕着少女飞扬的发丝。少...
    画如阅读 258评论 0 1

友情链接更多精彩内容