用Beagle做基因型填充（Imputation）

在学习基因型填充之前需要了解一下什么是Phasing（基因定相、单倍体分型），主要是参考公众号碱基矿工中的一篇文章：人类基因组的Phasing原理是什么。建议多读几遍

Phasing和Imputation
1.Phasing后形成的单倍型参考序列集(Reference panel)是基因型推断（Imputation）必须的数据材料
2.除了Reference Panel的制造需要使用Phasing技术之外，对被研究的对象进行预先Phasing(Pre-phasing)也可以极大地提高基因型推断（Imputation）的准确性

为什么要做这一步

分析过程中不允许有缺失值；可以增加标记密度

怎么做的

基于单倍型，就是上面说的。

图片来源于这篇文献，Marchini, J., & Howie, B. (2010). Genotype imputation for genome-wide association studies. Nature Reviews Genetics, 11(7), 499–511. doi:10.1038/nrg2796
a: 0、2纯合，1杂合，一行表示一个二倍体个体的基因型
d, c: 分别对应前面说的Phasing和Imputation关系的1, 2点
b, f: 说明进行填充之后，增加了标记密度，有助于将显著的SNP挑出来

实战一下，用Beagle做基因型填充

官网：http://faculty.washington.edu/browning/beagle/beagle.html

Beagle包含了利用家系（Related individual Phasing）和LD Phasing的模块, 如果输入的vcf文件是没有phasing的，会先进行定相，然后填充。

下载
链接: http://faculty.washington.edu/browning/beagle/beagle.12Jul19.0df.jar
使用
Windows和Linux下的使用类似，前面已经装好了Java了，这里直接在Windows下面运行。

E:\imputation>java -Xmx894m -jar beagle.03Jul19.b33.jar gt=test.vcf out=test_out ne=281

运行完之后，同时生成结果文件和日志文件, 从日志中可以看出phasing用时比填充用时长

Cumulative Statistics:

Study markers:           3,092

Haplotype phasing time:        38 seconds
Total time:                    48 seconds

参数列表如下，详细解释见：http://faculty.washington.edu/browning/beagle/beagle_5.0_03Jul19.pdf

data parameters ...
  gt=<VCF file: use GT field>                        (optional)
  ref=<bref3 or VCF file with phased genotypes>      (optional)
  out=<output file prefix>                           (required)
  map=<PLINK map file with cM units>                 (optional)
  chrom=<[chrom] or [chrom]:[start]-[end]>           (optional)
  excludesamples=<file with 1 sample ID per line>    (optional)
  excludemarkers=<file with 1 marker ID per line>    (optional)

phasing parameters ...
  burnin=<number of burnin iterations>               (default=6)
  iterations=<number of phasing iterations>          (default=12)
  phase-states=<model states for phasing>            (default=280)
  phase-segment=<min haplotype segment length (cM)>  (default=4.0)

imputation parameters ...
  impute=<impute ungenotyped markers (true/false)>   (default=true)
  imp-states=<model states for imputation>           (default=1600)
  imp-segment=<min haplotype segment length (cM)>    (default=6.0)
  imp-cluster=<max cM in a marker cluster>           (default=0.005)
  imp-ap=<print posterior allele probabilities>      (default=false)
  imp-gp=<print posterior genotype probabilities>    (default=false)

general parameters ...
  ne=<effective population size>                     (default=1000000)
  err=<allele mismatch rate>                         (default=1.0E-4)
  window=<window length in cM>                       (default=40.0)
  overlap=<window overlap in cM>                     (default=4.0)
  seed=<random seed>                                 (default=-99999)
  nthreads=<number of threads>                       (default: machine-dependent)
  step=<IBS step length (cM)>                        (default=0.1)
  nsteps=<number of IBS steps>                       (default=7)

对比一下填充前后的vcf文件

除了缺失的位点被填充以外，基因型的分隔符也变了，变成了竖线|，这是定相之后的一个标志。

联想到以前做重测序的时候，试过几个样本联合call SNP，也在得到的vcf文件中看到过极少数位点基因型用|分隔，这应该就是利用群体内部样本之间的LD关系得到的部分phasing结果。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,490评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,581评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,830评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,957评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,974评论 6赞 393
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,754评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,464评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,357评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,847评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,995评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,137评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,819评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,482评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,023评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,149评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,409评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,086评论 2赞 355

用Beagle做基因型填充（Imputation）

为什么要做这一步

怎么做的

实战一下，用Beagle做基因型填充

推荐阅读更多精彩内容