GWAS质控对于后续关联分析及曼哈顿图和QQ图的结果至关重要,本文参考多种资料,试图评价质控对结果的影响,为大家分析GWAS结果做一个参考。
- 首先文献中认为从成千上万的病例和对照中移除少数人对整体几乎没有影响,并且从目前GWAS的大量基因分型SNP中除去小部分可能有关联的SNP也不会显著降低研究的整体效能,但研究中每个删除的SNP都有可能是一个被忽略的疾病关联,因此认为去除一个SNP的影响潜在地大于去除一个个体(尽管基因型插补可用于恢复这些SNP),故主张先在“每个被试”基础上实施QC,后在“每个SNP”基础上进行QC,以最大限度地提高研究中剩余的SNP数。这种方法可防止由于小部分基因分型差的个体而错误地去除某个SNP,但是可能会由于小部分基因分型差的SNP而错误地去除一些个体。
[图片上传中...(image.png-7e3fc5-1556010351113-0)]
一般质控步骤:
样本的质控(Per-individual QC)
1、删除性别错误的个体
通过X染色体杂合率计算性别,性别错误的个体可能存在DNA污染的问题
2、删除SNP缺失率过高或杂合率过高的个体,如>95%
- SNP缺失率过高说明DNA质量及分型质量不好;
- 杂合率过高说明样本可能有污染,过低说明样本可能有亲缘关系。一般case/control研究的样本都无亲缘关系,如果有一级或二级亲缘关系的样本,该家族基因型会导致整个群体基因型偏倚。
- 杂合率=(N − O)/N,N:非缺失基因型数量,O:观察到的个体纯合基因型数量,一般删除超过±3 SD的样本
3、删除有亲缘关系的样本 - 亲缘关系可以用identity by state(IBS)来衡量,计算之前首先要保证SNP是相互独立的,这就要先把基因组中连锁区域的SNP去掉(如HLA区域的SNP),一般设置滑动窗口(如 50 kb),计算该窗口内的SNP连锁率,将大于阈值(一般设置r2 > 0.2)的SNP都去掉。
- 一般IBS=1认为是同一个样本或同卵双胞胎,IBD = 0.5是一级亲属,IBD = 0.25是二级亲属,IBD = 0.125是三级亲属,另外有可能是样本污染或者分型错误导致。一般设置阈值为IBD > 0.1875。
4、人群层次矫正 - 混杂因素是造成case-control差异的主要原因,特别是人群层次(population stratification)。
- 校正人群层次方法最常用的是组成分分析(principal component analysis (PCA)),PCA将高维的数据提取为低维数据,以便用几个主成分来代表整个数据。
- 一般将前10个PCA成分作为协变量加入后面的关联分析模型,但是加入几个根据经验调整。
位点的质控(Per-marker QC)
位点质控是GWAS成功与否的核心,因为可能会把与疾病相关的SNP位点删掉。
1、删除缺失率过高的SNP位点
根据情况可以设置阈值为95%-98%。一般先设置个宽松的阈值,如0.2,经过样本质控后再设置比较严格的阈值,如0.02
2、删除偏离哈迪温伯格平衡的SNP位点(HWE)
偏离HWE的SNP位点可能是分型错误,但是case中偏离HWE的位点可能与表型相关,因此case和control阈值不一样。一般case设置为1e-6,control设置为1e-10;对于较小的数据可以设置为1e10-5。plink软件会自动只对control进行HWE质控。
3、删除case和control中缺失率不同的SNP位点
case和control中缺失率不同可能意味着case和control不是一批做出来的,删除这种位点可以有效减少混杂因素的影响。
4、删除等位基因频率(MAF)较小的SNP位点
芯片中MAF较小的SNP由于算法原因错误率较高,因此一般将MAF 1–2%以下的删除,但是样本量较小的话该阈值要提高,样本量小分型的准确度就小。另外MAF较小的位点不适用关联分析的统计方法。
候选基因方法研究的质控(Candidate-gene association)
- 候选基因方法研究的质控与GWAS不同,GWAS研究中99%的SNP位点与表型都无关,这些位点可以用来发现混杂因素,但是候选基因方法就不行。候选基因方法的SNP位点经过选择,本身位点较少,与表型无关的SNP也较少,因此不能通过位点的分型失败率和杂合率来评估DNA质量,群体信息和亲缘关系也没法评估。
- 可以进行的是对样本的质控,但是阈值需要根据SNP的数量进行调整。
- 如果实验样本与GWAS样本数量类似,仍然可以采用GWAS对位点的过滤方法
- 缺失率>5%,最好是检测分型的方法是否有问题,control中对HWE的过滤也可以执行。
基因型填补(imputation)
待补充
填补后质控(Post-imputation quality control)
- 千人基因组大概有83 million变异位点,经过填补后有许多质量不好的位点,需要过滤掉。
- 去除MAF = 0的位点
- 去除MAF<0.01 和 info>0.3的位点。info值用来衡量填充位点的质量,一般较差的位点info <0.15,较好的位点info >0.85。所以过滤阈值一般在0.15-0.85之间。对于同一个位点来说,MAF值越小,info值也越小。可以将MFA值和info值画出柱状图,找到一个比较好的阈值进行过滤。
- 去除缺失率过多的位点(98%以上)
相关软件
PLINK, GenABEL, GS2、snpMatrix
参考:Anderson CA, Pettersson FH, Clarke GM, Cardon LR, Morris AP, Zondervan KT. Data quality control in genetic case-control association studies. Nat Protoc 2010; 5: 1564-1573.
Marees AT, de Kluiver H, Stringer S, Vorspan F, Curis E, Marie-Claire C et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. Int J Meth Psych Res 2018; 27: e1608.