VCF文件格式说明

1. VCF介绍

VCF是用于描述SNP，INDEL和SV结果的文本文件。在GATK软件中得到最好的支持，当然samtools得到的结果也是VCF格式，和GATK的VCF格式有点差别。推荐打开软件：notepad++（https://notepad-plus.en.softonic.com/）

2. VCF的主体结构

VCF文件分为两部分内容：以“#”开头的注释部分；没有“#”开头的主体部分。

去掉了头部的注释行，只留下了代表每一行意义的注释行。

主体部分中每一行代表一个Variant的信息。

CHROM[1] POS[2] ID[3] REF[4] ALT[5] QUAL[6] FILTER[7] INFO[8] FORMAT[9] R01[10]

3. Variation

CHROM[1] 和 POS[2]：代表参考序列名和variant的位置；如果是INDEL的话，位置是INDEL的第一个碱基位置。

ID[3]：variant的ID。比如在dbSNP中有该SNP的id，则会在此行给出；若没有，则用'.'表示其为一个novel variant。

REF[4] 和 ALT[5]：参考序列的碱基和 Variant的碱基。

QUAL[6]：Phred格式(Phred_scaled)的质量值，表示在该位点存在variant的可能性；该值越高，则variant的可能性越大；计算方法：Phred值 = -10 * log (1-p) p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1，该位点为variant的概率为90%。

FILTER[7]：使用上一个QUAL值来进行过滤的话，是不够的。GATK能使用其它的方法来进行过滤，过滤结果中通过则该值为”PASS”;若variant不可靠，则该项不为”PASS”或”.”。

INFO[8]：这一行是variant的详细信息，内容很多，以下再具体详述。

FORMAT[9] 和 R01[10]：这两行合起来提供了’R01(某个基因名)′这个sample的基因型的信息。’NA12878′代表这该名称的样品，是由BAM文件中的@RG下的 SM 标签决定的。

4. 基因型信息{即FORMAT[9] 和 R01[10]}

GT：样品的基因型（genotype）。两个数字中间用’/'分开，这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele； 1 表示样品中variant的allele； 2表示有第二个variant的allele。因此： 0/0 表示sample中该位点为纯合的，和ref一致； 0/1 表示sample中该位点为杂合的，有ref和variant两个基因型； 1/1 表示sample中该位点为纯合的，和variant一致。

AD 和 DP：AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值，前者对应ref基因型，后者对应variant基因型； DP（Depth）为sample中该位点的覆盖度。

GQ：基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值，表示在该位点该基因型存在的可能性；该值越高，则Genotype的可能性越大；计算方法：Phred值 = -10 * log (1-p) p为基因型存在的概率。

PL：指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1)，这三种基因型的概率总和为1。和之前不一致，该值越大，表明为该种基因型的可能性越小。 Phred值 = -10 * log (p) p为基因型存在的概率。

5. VCF第8列的信息

该列信息最多了，都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的注释信息在VCF文件的头部注释中给出。以下是这些TAG的解释：

AC，AF 和 AN：AC(Allele Count) 表示该Allele的数目；AF(Allele Frequency) 表示Allele的频率； AN(Allele Number) 表示Allele的总数目。对于1个diploid sample而言：则基因型 0/1 表示sample为杂合子，Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变)，Allele的频率为0.5(双倍体的 sample在该位点只有50%的等位基因发生了突变)，总的Allele为2；基因型 1/1 则表示sample为纯合的，Allele数为2，Allele的频率为1，总的Allele为2。

DP：reads覆盖度。是一些reads被过滤掉后的覆盖度。

Dels：Fraction of Reads Containing Spanning Deletions。进行SNP和INDEL calling的结果中，有该TAG并且值为0表示该位点为SNP，没有则为INDEL。

FS：使用Fisher’s精确检验来检测strand bias而得到的Fhred格式的p值。该值越小越好。一般进行filter的时候，可以设置 FS < 10～20。

HaplotypeScore：Consistency of the site with at most two segregating haplotypes.

最多有2个分离的单倍型的一致性。

InbreedingCoeff：Inbreeding coefficient as estimated from the genotype likelihoods per-sample when compared against the Hard-Weinberg expectation.

与哈代温伯格的期望相比，近亲繁殖估计每个样品基因型的可能性。

MLEAC：Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed.

对于等位基因计数（不一定与AC相同），每个ALT 等位基因的最大似然估计，在相同的顺序被列出。

MLEAF：Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT alle in the same order as listed.

对于等位基因频率（不一定与AF相同），每个ALT 等位基因的最大似然期望，在相同的顺序被列出。

MQ：RMS Mapping Quality.

RMS Mapping质量。

MQ0：Total Mapping Quality Zero Reads.

总的Mapping 质量零Reads 。

MQRankSum：Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities.

对Alt vs 的Wilcoxon秩和检验的z 分数。参考片段映射质量。

QD：Variant Confidence/Quality by Depth.

Variant 通过深度的可信度和质量。

RPA：Number of times tandem repeat unit is repeated, for each allele (including reference).

对于每个等位基因（包括参考），大量的串联重复序列单位被重复。

RU：Tandem repeat unit (bases).

串联重复序列单元（基础）。

ReadPosRankSum：Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.

对Alt vs 的Wilcoxon秩和检验的z 分数。参考片段位置偏差。

STR：Variant is a short tandem repeat.

Variant是一个短的串联重复。

转自：https://www.jianshu.com/p/ff2eb5b38611

VCF文件格式说明

VCF文件格式说明

相关阅读更多精彩内容

友情链接更多精彩内容