vcf文件与vcftools(一)

在用于存储reads比对结果的SAM/BAM格式提出之后(2009年),用于存储变异检测结果的格式VCF( variant call format )也被提出(2010年),与此同时作者还提供了配套的处理工具——vcftools。

1. vcf文件

vcf主要包括两部分,以###开头的header信息,以及主体variation信息。

1.1 header部分

#开头的一行(header部分的最后一行)是主体部分的列名,以##开头的行是一些描述解释信息,比如主体中的"FILTER", "FORMAT", "INFO"都是什么意思,另外还能看到一些历史命令,通过这些命令可以知道这个vcf文件是如何得到的,比如,通过上面的图片可知,这个vcf是GATK和bcftools分别call variation之后取交集得到。

要完全理解vcf的每一列,每一个英文大写的缩写名词其实挺困难的,仅INFO就有很多名词,有的可能还需要高深的统计学知识,所以目前我只掌握的一些简单的。

下面我以我的vcf文件为例,尽可能多的理解一下vcf中字段的含义。

1.2 variation部分
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  sample1  sample2  sample3  sample4  sample5  sample6  sample7  sample8
chrA01  895     .       T       A       101.53  PASS    AC=2;AF=0.125;AN=16;BaseQRankSum=-2.261;ClippingRankSum=0;DP=239;ExcessHet=3.3099;FS=4.905;MLEAC=2;MLEAF=0.125;MQ=80.42;MQRankSum=0;QD=2.21;ReadPosRankSum=-0.033;SOR=1.609  GT:AD:DP:GQ:PGT:PID:PL  0/0:22,0:22:66:0|1:895_T_A:0,66,1689    0/0:36,2:38:65:.:.:0,65,1576    0/1:10,3:13:67:.:.:67,0,396  0/0:19,0:19:51:.:.:0,51,765     0/0:31,0:31:84:.:.:0,84,1260    0/1:28,5:33:74:.:.:74,0,1087    0/0:29,0:29:81:.:.:0,81,1215    0/0:32,0:32:90:.:.:0,90,1350
chrA01  912     .       G       A       181.85  PASS    AC=3;AF=0.188;AN=16;BaseQRankSum=-1.042;ClippingRankSum=0;DP=234;ExcessHet=3.9794;FS=2.43;MLEAC=3;MLEAF=0.188;MQ=74.43;MQRankSum=0;QD=2.64;ReadPosRankSum=-0.339;SOR=0.857   GT:AD:DP:GQ:PGT:PID:PL  0/0:20,0:20:60:0|1:895_T_A:0,60,1619    0/0:36,1:37:66:.:.:0,66,1496    0/1:10,3:13:41:.:.:41,0,385  0/0:16,0:16:42:.:.:0,42,630     0/0:33,0:33:90:.:.:0,90,1350    0/1:27,5:32:82:.:.:82,0,1046    0/1:19,5:24:99:.:.:102,0,631    0/0:35,0:35:99:.:.:0,99,1485
chrA01  921     .       T       C       2635.31 PASS    AC=6;AF=0.375;AN=16;BaseQRankSum=1.9;ClippingRankSum=0;DP=221;ExcessHet=2.98;FS=0;MLEAC=6;MLEAF=0.375;MQ=59.33;MQRankSum=0;QD=24.86;ReadPosRankSum=1.15;SOR=0.73     GT:AD:DP:GQ:PGT:PID:PL  0/1:10,7:17:99:1|0:895_T_A:264,0,724    0/0:36,0:36:99:.:.:0,99,1485    0/1:3,9:12:73:.:.:314,0,73   0/1:10,7:17:99:0|1:921_T_C:286,0,361    1/1:0,39:39:99:1|1:921_T_C:1751,117,0   0/0:28,0:28:75:.:.:0,75,1125    0/1:18,3:21:72:.:.:72,0,1015    0/0:35,0:35:99:.:.:0,99,1485
chrA01  931     .       A       G       3003.26 PASS    AC=8;AF=0.5;AN=16;BaseQRankSum=0.645;ClippingRankSum=0;DP=219;ExcessHet=2.5225;FS=2.735;MLEAC=8;MLEAF=0.5;MQ=66.13;MQRankSum=0;QD=22.75;ReadPosRankSum=-0.772;SOR=0.929      GT:AD:DP:GQ:PGT:PID:PL  0/1:10,7:17:99:0|1:895_T_A:261,0,767    0/0:34,1:35:60:.:.:0,60,1399    1/1:0,11:11:33:.:.:464,33,0  0/1:9,7:16:99:0|1:921_T_C:267,0,357     1/1:0,41:41:99:1|1:921_T_C:1867,126,0   0/1:24,3:27:54:.:.:54,0,974     0/1:15,5:20:99:.:.:144,0,4730/0:35,0:35:90:.:.:0,90,1350
chrA01  1093    .       A       G       1117.16 PASS    AC=3;AF=0.188;AN=16;BaseQRankSum=-1.18;ClippingRankSum=0;DP=163;ExcessHet=0.4576;FS=11.522;MLEAC=3;MLEAF=0.188;MQ=49.72;MQRankSum=-1.559;QD=29.67;ReadPosRankSum=0.015;SOR=1.008     GT:AD:DP:GQ:PGT:PID:PL  0/1:3,6:9:99:0|1:1093_A_G:243,0,108     0/0:32,0:32:90:.:.:0,90,13500/0:9,0:9:27:.:.:0,27,405        0/0:13,0:13:36:.:.:0,36,540     1/1:0,21:21:63:1|1:1093_A_G:923,63,0    0/0:34,0:34:90:.:.:0,90,1350    0/0:17,0:17:9:.:.:0,9,527   0/0:25,0:25:72:.:.:0,72,1080
chrA01  1103    .       C       T       1122.24 PASS    AC=3;AF=0.188;AN=16;BaseQRankSum=0.903;ClippingRankSum=0;DP=164;ExcessHet=0.4576;FS=10.474;MLEAC=3;MLEAF=0.188;MQ=51.31;MQRankSum=-1.383;QD=34.04;ReadPosRankSum=-0.319;SOR=0.727    GT:AD:DP:GQ:PGT:PID:PL  0/1:3,7:10:99:0|1:1093_A_G:285,0,105    0/0:29,0:29:81:.:.:0,81,12150/0:11,0:11:33:.:.:0,33,456      0/0:12,0:12:33:.:.:0,33,495     1/1:0,20:20:60:1|1:1093_A_G:886,60,0    0/0:35,0:35:99:.:.:0,99,1485    0/0:18,0:18:8:.:.:0,8,557   0/0:26,0:26:66:.:.:0,66,990
字段 含义
CHROM 染色体名称
POS 变异位点在参考基因组上的位置,染色体开始的位置编号为1
ID 变异检测过程中如果引入外部数据库,可能会有数据库中的位点ID
REF 参考碱基(序列),在Genotype中用0表示
ALT 变异碱基(序列),不止一个时,逗号分隔,表示为1,2,3等
QUAL 检测质量值,越大越好,等于-10*log10(该变异位点检测错误的概率)
FILTER 根据自定义阈值设置字符串标记,再根据标记挑选(比如使用GATK的VariantFiltration和SelectVariants模块)
INFO 注释信息
FORMAT 该列与其之后的样本Genotype信息一一对应,比如GT:AD:DP:GQ:PGT:PID:PL 0/0:22,0:22:66:0|1:895_T_A:0,66,1689
1.2.1 INFO
AC=3;AF=0.188;AN=16;BaseQRankSum=-0.601;ClippingRankSum=0;DP=209;ExcessHet=0.4576;FS=0;MLEAC=3;MLEAF=0.188;MQ=56.28;MQRankSum=0.319;QD=34.04;ReadPosRankSum=1.67;SOR=0.569
解释
AC 3 二倍体,8个样本,该位点总共出现16次,该碱基出现3次
AF 0.188 该碱基的频率,3/16
AN 16 该位点总数
DP 209 8个样本的该位点深度之和
MQ 56.28 RMS Mapping Quality
1.2.3 FORMAT
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  FORMAT  sample1
chrA01  895     .       T       A       101.53  PASS    GT:AD:DP:GQ:PGT:PID:PL  0/0:22,0:22:66:0|1:895_T_A:0,66,1689
chrA01  912     .       G       A       181.85  PASS    GT:AD:DP:GQ:PGT:PID:PL  0/0:20,0:20:60:0|1:895_T_A:0,60,1619
chrA01  921     .       T       C       2635.31 PASS    GT:AD:DP:GQ:PGT:PID:PL  0/1:10,7:17:99:1|0:895_T_A:264,0,724
chrA01  931     .       A       G       3003.26 PASS    GT:AD:DP:GQ:PGT:PID:PL  0/1:10,7:17:99:0|1:895_T_A:261,0,767
chrA01  1093    .       A       G       1117.16 PASS    GT:AD:DP:GQ:PGT:PID:PL  0/1:3,6:9:99:0|1:1093_A_G:243,0,108
chrA01  1103    .       C       T       1122.24 PASS    GT:AD:DP:GQ:PGT:PID:PL  0/1:3,7:10:99:0|1:1093_A_G:285,0,105

GT: Genotype, /分隔表示未定相, |表示已定相
PGT: phased Genotype, 邻近的位点是如何定相排列的,以最后两列为例:
chrA01 1093 A G 0|1
chrA01 1103 C T 0|1
竖线左边的碱基来源于一条染色体,竖线右边的碱基来源于另一条染色体,即A,C来自相同的染色体;G,T来源于另一条染色体。定相这一步需要结合多个样本的信息!
PID: 一个phasing group会有一个共用的group ID,并且这个ID是以第一个phased位点来定义的,比如上面两个phased位点组成的group的ID是1093_A_G。
AD: 每一个allele的深度
DP: 所有allele的总深度
GQ: Genotype Quality, -10*log10(基因型错误的概率)
PL: 每种基因型的似然值,越小越可信,比如最后一列285,0,105,分别对应基因型0/0,0/1,1/1,说明0/1为可能的基因型。


reference

The variant call format and VCFtools: https://academic.oup.com/bioinformatics/article/27/15/2156/402296
VCFtools--A set of tools written in Perl and C++ for working with VCF files:
https://vcftools.github.io/man_latest.html#EXAMPLES
VCFv4.2详解(英文版)
https://samtools.github.io/hts-specs/VCFv4.2.pdf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352