vcftools

vcftools是一种可以对VCF文件和BCF文件进行格式转换及过滤的工具,其中很多过滤及计算功能我们可以自己使用perl或者python编写脚本实现,但都不如这个工具的运算速度快。

有些奇怪的是需要到网页上查看他的使用参数,Linux上没有参数查看
参考:vcftools使用手册

基本参数

输入参数

  • –vcf <input_filename> 支持v4.0、v4.1或者v4.2版本的VCF文件
  • –gzvcf <input_filename> 通过gzipped压缩过的VCF文件
  • –bcf <input_filename> BCF2文件

输出参数

  • –out <output_prefix> 输出文件,后面直接对输出文件命名
  • –stdout 可接管道符对输出结果进行重新定向
  • –temp <temporary_directory> 指定结果的输出目录

过滤参数

根据位置过滤

  • –chr <chromosome>
  • –not-chr <chromosome>
    包含或排除匹配的染色体位点
  • –from-bp
  • –to-bp
    这两个参数需要和–chr一起使用
    指定要处理的一系列站点的下限和上限
  • –positions<filename>
  • –exclude-positions <filename>
    根据文件中的位置列表包括或排除一组位点。输入文件的每一行应包含(制表符分隔的)染色体和位置
    ······

根据位点过滤

  • –snp <string>字符串的名称可以匹配dbSNP的数据,适合人类基因组,该指令可多次使用</string>
  • –snps<filename>
  • -exclude <filename>
    包括或排除文件中给出的SNP列表

变异类型过滤

  • –keep-only-indels 只保留indel标记
  • –remove-indels 删除indel标记

根据flag过滤

  • –remove-filtered-all Removes all sites with a FILTER flag other than PASS.
  • –keep-filtered
  • –remove-filtered

根据INFO过滤

  • –keep-INFO<string>
  • –remove-INFO<string>

根据ALLELE过滤

  • –maf <float> MAF最小值过滤
  • –max-maf <float> MAF最大值过滤

此处省去很多参数,具体参见vcftools官网

根据基因型数值过滤

  • –min-meanDP<float>
  • –max-meanDP <float>根据测序深度进行过滤
  • –hwe<float>
  • –max-missing <float>完整度,该参数介于0,1之间

根据材料过滤

  • –indv
  • –remove-indv
  • –keep<filename></filename>
  • –remove<filename></filename>
  • –max-indv

基因型过滤参数

  • –remove-filtered-geno-all 排除flag不为’.’和’PASS’的基因型
  • –remove-filtered-geno <string>排除flag为string的基因型</string>
  • –minGQ <float>排除GQ低于这个参数的基因型</float>
  • –minDP<float></float>
  • –maxDP<float></float>

计算统计

核算多样性统计

  • –site-pi 计算所有SNP
  • –window-pi
  • –window-pi-step

FST计算

  • –weir-fst-pop<filename></filename>
  • –fst-window-size
  • –fst-window-step

其它计算

  • –het
  • –hardy
  • –site-quality 主要用于提取VCF文件中每个位点的QUAL信```
  • --missing-indv
  • --missing-site 计算每个位点的缺失率
vcftools --vcf test.recode.vcf --missing-site  --out ms
  • –SNPdensity <integer>计算SNP在设定bin内的密度</integer>

...太多了详情见参考手册

输出格式

  • –recode
  • –recode-bcf
  • –recode-INFO
  • –recode-INFO-all
  • –contigs

格式转换

  • –012
  • –IMPUTE
  • –ldhat
  • –ldhat-geno
  • –BEAGLE-GL
  • –BEAGLE-PL
  • –plink
vcftools --vcf all.filter.vcf --plink --out aa ;
  • –plink-tped
  • –chrom-map

比较选项

  • DIFF VCF FILE
  • –diff<filename></filename>
  • –gzdiff<filename></filename>
  • –diff-bcf<filename></filename>
  • –diff-site
  • –diff-indv
  • –diff-site-discordance
  • –diff-indv-discordance
  • –diff-indv-map<filename></filename>
  • –diff-discordance-matrix
  • –diff-switch-error

实例

1.输出来自染色体1的输入vcf文件中所有位点的等位基因频率

vcftools --gzvcf input_file.vcf.gz --freq --chr 1 --out chr1_analysis

2.从输入vcf文件输出新的vcf文件,该文件删除任何indel位点

vcftools --vcf input_file.vcf --remove-indels --recode --recode-INFO-all --out SNPs_only

3.输出文件比较两个vcf文件中的站点

vcftools --gzvcf input_file1.vcf.gz --gzdiff input_file2.vcf.gz --diff-site --out in1_v_in2

4.将新的vcf文件输出到标准输出,没有任何具有过滤器标记的位点,然后使用gzip压缩它

vcftools --gzvcf input_file.vcf.gz --remove-filtered-all --recode --stdout | gzip -c > output_PASS_only.vcf.gz

5.为bcf文件中的每个站点输出Hardy-Weinberg p值,该站点没有任何缺失的基因型

vcftools --bcf input_file.bcf --hardy --max-missing 1.0 --out output_noMissing

6.在一系列位置输出核苷酸多样性

zcat input_file.vcf.gz | vcftools --vcf - --site-pi --positions SNP_list.txt --out nucleotide_diversity
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容