LD过滤

#删除多等位基因的位点

bcftools view -M2 -v snps  - exclude SNP.filtered.vcf >  BSZ_ZY_bi.vcf

###plink过滤

#1 转换格式

plink --vcf file.vcf --recode --out file

#2 位点过滤

--mind 0.10  去除基因型丢失率大于10%的个体样本:

--geno 0.05  大于95%的个体都具有的变异位点才保留,其他去除:

--maf 0.01    次等位基因频率,频率较低的第二等位基因的频率(防止假阳性)。

--hwe 0.0001 保留符合Hardy—Weinbery 的变异位点

### LD过滤生成 vcf 格式(服务器上有LD.sh脚本)

plink2 --vcf zy_bsz-bi.vcf  --mind 0.10 --maf 0.05 --geno 0.05 --hwe 0.0001 \

--out zy_bsz_fi  --recode vcf-iid \

--allow-extra-chr --set-missing-var-ids @:# \

--keep-allele-order

plink2 --vcf zy_bsz_fi.vcf \

--indep-pairwise 50 10 0.2 \

--out tmp.ld --allow-extra-chr \

--set-missing-var-ids @:#

plink2 --vcf zy_bsz_fi.vcf \

--extract tmp.ld.prune.in \

--out all.LDfilter --recode vcf-iid \

--keep-allele-order --allow-extra-chr \

--set-missing-var-ids @:#

#3 stuctrue作图

bcftools view -M2 -v snps snp.vcf > zy-bi.vcf

perl randSnps.pl < zy-bi.vcf > zy_un.vcf

awk '{gsub(/gene/,""); print}'  zy_un.vcf >  zy1.vcf

awk '{gsub(/.a/,""); print}'  zy1.vcf>  zy_name.vcf

plink2 --vcf zy_name.vcf --make-bed --out ZY --allow-extra-chr --threads 12

for K in {2..12};

  do admixture --cv ZY.bed $K |tee log${K}.out;

  done

grep -h CV log*.out

#CV error (K=2): 0.40129

#V error (K=3): 0.48130

#CV error (K=4): 0.47680

#CV error (K=5): 0.58563

#CV error (K=6): 0.60299

#CV error (K=7): 0.67999

#CV error (K=8): 0.69322

#CV error (K=9): 0.53627

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 最近跑通了一遍GWAS分析,全程在linux操作,虽然具体还有好多需要微调的地方,先把代码整理分享出来mark一下...
    rapunzel0103阅读 35,733评论 45 170
  • 作者:rapunzel0103 链接:https://www.jianshu.com/p/53362fe881cd...
    大花熊阅读 13,259评论 5 25
  • 安装软件 admixtrue 文件 snp ##不能有multiallel bcftools view -M2 -...
    铃_0d92阅读 4,592评论 0 6
  • 写在前面:当学习某一重要文件格式时,更需要对此格式对应软件工具进行全面的学习(如sam/bam——samtools...
    Dawn_WangTP阅读 12,983评论 0 33
  • 按照前人的教程,跑了跑GWAS流程,作为初学者,欢迎大家提问,指教。 数据来源:A new regulator o...
    1yon阅读 9,509评论 0 10