vcf_to_ped_convert.pl 使用指南

最近在做遗传统计学的作业,却惨遭ensembl背刺
具体表现为线上工具连接1kGenome数据库失效

Error with message: 
cannot open https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/integrated_call_samples_v3.20130502.ALL.panel No such file or directory at /net/isilonP/public/ro/ensweb-software/sharedsw/e108/1000G-tools/vcftoped/vcftoped.pl line 268.

不过在工具的index页面还看到了一个pl版本,并且提供一些可以设置的参数和一个例子

API参数例子

想想要不就把vcf和panel文件下载到本地,用.pl手动转换吧
此处以RET(10:43077069-43130351)为例

数据

vcf(chr10)下载地址: https://ftp.ensembl.org/pub/data_files/homo_sapiens/GRCh38/variation_genotype/ALL.chr10_GRCh38.genotypes.20170504.vcf.gz
tbi(chr10)下载地址: https://ftp.ensembl.org/pub/data_files/homo_sapiens/GRCh38/variation_genotype/ALL.chr10_GRCh38.genotypes.20170504.vcf.gz.tbi
panel下载地址:https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/integrated_call_samples_v3.20130502.ALL.panel
tbi是索引文件,如果工作路径没有与.vcf.gz相应的.tbi,这个perl脚本会要求用-tabix提供索引文件路径,从而调用tabix,进一步调用bcftools来创建.vcf.gz相应的.tbi。费时费力 而且中间装软件设置环境又是100年(别问我怎么知道的)

运行

注意:脚本要求perl环境5以上 我使用的是conda-forge里能安装的最新的5.34

perl vcf_to_ped_convert.pl \
-vcf ALL.chr10_GRCh38.genotypes.20170504.vcf.gz \
-sample_panel_file integrated_call_samples_v3.20130502.ALL.panel \
-region 10:43077000-43131000 \
-population CHS \
-output_info RET.info \
-output_ped RET.ped

补充说明

参数解释

-vcf [.vcf.gz文件]
-sample_panel_file [.panel文件]
-region [染色体:1234-12345]
-population [人群 CHS为中国南方]

可选参数

image.png

问题

.pl版本工具相比网页那样方便,网页工具可以只保留Biallelic
如果选择BRCA2这种基因,后续haploview会出现问题(haploview连锁分析时默认为只有两个等位基因)
不愧是遗传肿瘤易感明星基因

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容