最近在做遗传统计学的作业,却惨遭ensembl背刺
具体表现为线上工具连接1kGenome数据库失效
Error with message:
cannot open https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/integrated_call_samples_v3.20130502.ALL.panel No such file or directory at /net/isilonP/public/ro/ensweb-software/sharedsw/e108/1000G-tools/vcftoped/vcftoped.pl line 268.
不过在工具的index页面还看到了一个pl版本,并且提供一些可以设置的参数和一个例子
想想要不就把vcf和panel文件下载到本地,用.pl手动转换吧
此处以RET(10:43077069-43130351)为例
数据
vcf(chr10)下载地址: https://ftp.ensembl.org/pub/data_files/homo_sapiens/GRCh38/variation_genotype/ALL.chr10_GRCh38.genotypes.20170504.vcf.gz
tbi(chr10)下载地址: https://ftp.ensembl.org/pub/data_files/homo_sapiens/GRCh38/variation_genotype/ALL.chr10_GRCh38.genotypes.20170504.vcf.gz.tbi
panel下载地址:https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/integrated_call_samples_v3.20130502.ALL.panel
tbi是索引文件,如果工作路径没有与.vcf.gz相应的.tbi,这个perl脚本会要求用-tabix
提供索引文件路径,从而调用tabix,进一步调用bcftools来创建.vcf.gz相应的.tbi。费时费力 而且中间装软件设置环境又是100年(别问我怎么知道的)
运行
注意:脚本要求perl环境5以上 我使用的是conda-forge里能安装的最新的5.34
perl vcf_to_ped_convert.pl \
-vcf ALL.chr10_GRCh38.genotypes.20170504.vcf.gz \
-sample_panel_file integrated_call_samples_v3.20130502.ALL.panel \
-region 10:43077000-43131000 \
-population CHS \
-output_info RET.info \
-output_ped RET.ped
补充说明
参数解释
-vcf
[.vcf.gz文件]
-sample_panel_file
[.panel文件]
-region
[染色体:1234-12345]
-population
[人群 CHS为中国南方]
可选参数
问题
.pl版本工具相比网页那样方便,网页工具可以只保留Biallelic
如果选择BRCA2这种基因,后续haploview会出现问题(haploview连锁分析时默认为只有两个等位基因)
不愧是遗传肿瘤易感明星基因