GWAS我做了很长时间,对这门技术我有很深的感情,而且在post-GWAS的时代到来之后,我也越发感觉这项技术其实有着广阔的应用空间,因此我想将这项技术及我在应用时所出现的bug讲深讲透,以飨后人。
全基因组关联分析(Genome wide association study,GWAS)是对多个个体在全基因组范围的遗传变异(标记)多态性进行检测(目前通常是单核苷酸多态性SNP),获得每个个体的基因型,进而将基因型与想要研究的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性(p值)筛选出最有可能影响该性状的遗传变异(标记),进而挖掘与性状变异相关的基因。
从上面这段话来看,GWAS所用到的数据有两种,一为基因型数据,载体一般是vcf文件(当然还有plink所用的ped和bed之类的文件);另外就是表型文件,一般为一列样品名,一列性状的txt文件。我们使用这两种文件通过一些数学计算即可得到与性状显著相关的遗传标记。这些遗传标记在之后可以用于开发育种相关的检测芯片,或者在医学诊断方面发挥其利用价值。而这两个方向一个面向动植物育种,一个面向人类的疾病治疗,在原理方面他们的差异并不显著,而在实际操作过程中有着较大差异,以至于一个物种的GWAS流程不应适用于其他的物种。
在此篇后面更想给大家展示的是人类疾病的GWAS相关研究,因为人类无可比拟的样本量(在医院的病理切片),以及无可质疑的必要性(什么物种可以与人类的疾病相比呢)。目前而言,针对于人类疾病开发的模型以及人类所进行的GWAS相关研究是其他物种的N倍。在人类中所发展的post-GWAS研究也相对更为深入,比如meta、PRS、以及最近大火的孟德尔随机化研究。
在GWAS原理方面,它所应用的是关联分析,其基础是连锁不平衡(linkage disequilibrium, LD)。当位于某一座位的特定等位基因与另一座位的某一等位基因,二者同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态。
两个相邻的基因A, B,它们的等位基因分别为a, b。后代群体中,实际观察到的单倍型基因型AB,出现的概率为 D,即LD的基本单位,度量观察到的单倍型频率与平衡状态下期望频率的偏差:
D= P(AB)= P(A)* P(B), 则A, B独立遗传;
D= P(AB)≠ P(A)* P(B),则A, B存在连锁不平衡。
GWAS研究,其实就是看在case和control群体中某个SNP是不是有频率的显著差异。如果频率在case中显著的高,那这个标记倾向于和性状相关的位点紧紧地绑在一起,遗传给后代,其周围的基因自然也可以作为影响性状的候选基因作为后续研究的对象
以上算是第一篇有关于GWAS的文章,希望大家多多支持,一键三连。
参考文献:
https://mp.weixin.qq.com/sbiz=Mzg2MDA2MDQzMQ==&mid=2247483991&idx=1&sn=c69e4db6124d6cafec175d529a05aa46&chksm=ce2d6c37f95ae521a84bc374e30ce2c6a8fa57d64156f79af542d5de123ea0840c4049b82b88&scene=21#wechat_redirect
https://zhuanlan.zhihu.com/p/200706168
https://www.jianshu.com/p/e060c55283c4