接触全基因组关联分析(GWAS)已经一年半有余,从刚开始对GWAS的全然无知到现在慢慢了解,越来越能体会到这项技术的了不起。同时,越来越多的科研工作者也在使用这项技术,然后就想借这个机会整理一下自己学习过程,写个关于GWAS的专题。顺便给大家分享一下关于GWAS的一些分析过程,注意事项,以及自己分析过程中一些经验和心得吧。如果中间有错误的地方,也欢迎大家批评指正。
大家如果想提前对GWAS有个全局的了解,或者想先简单分析一下,可以通过GitHub(https://github.com/MareesAT/GWA_tutorial/), 将示例文件下载至服务器,里面有完整的GWAS分析步骤以及运行命令,想练手的可以直接按照示例文件给的步骤运行一遍,了解一下GWAS分析的大致流程。
如果没有服务器的小伙伴想熟悉一下怎么办呢,安排。easyGWAS(https://easygwas.ethz.ch), 一款在线GWAS分析网站,该网站提供了一些公共数据,感兴趣的小伙伴也可以直接在该网站练手。
好吧,言归正传。本次作者会给大家简单介绍一些GWAS相关术语及相关事件。
首先,简单介绍一下GWAS一些相关术语吧。
GWAS: 全基因组关联分析(Genome-wide association studies),简称GWAS,最早遗传学中用来将特定遗传变异与特定疾病/性状联系起来的一种方法。现在发展为在全基因组范围对多个个体的遗传变异多态性进行检测,获得基因型,进而将基因型与表型进行群体水平的统计学分析,筛选出与对应表型显著关联的遗传变异,挖掘出与表型变异相关的基因。
SNP: 单核苷酸多态性(Single nucleotide polymorphism ),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。
MAF: 次要等位基因频率(Minor allele frequency),在给定群体中,第二常见的基因型(次等位基因)出现的基因频率就称为次等位基因频率。大多数研究的power 不足以检测表型与MAF 低的SNP 的关联,因此需要过滤这些SNP。
LD: 连锁不平衡(Linkage disequilibrium),给定种群中同一染色体上不同基因座等位基因之间非随机关联的一种度量。简单的说,只要两个基因不是完全独立地遗传,就会表现出某种程度的连锁。这种情况就叫连锁不平衡。连锁不平衡可以是同一条染色体上的不同区域,也可以是不同染色体上的。
SNP-level missingness:这是样本中缺少特定SNP信息的个体数量。具有高度缺失的SNP 可能导致偏差。
Individual-level missingness:特定个体缺少的SNP 数量。较高的缺失表明DNA 可能质量较差或存在技术问题。
Heterozygosity:杂合性, 对于特定SNP 的两种不同等位基因的携带。个体的杂合率是杂合基因型的比例。个体内高水平的杂合性可能表明样品质量低,而低水平的杂合性可能是近亲繁殖所致。
The Hardy–Weinberg (dis)equilibrium (HWE) law:"哈迪-温伯格定律”是指在理想状态下,各等位基因的频率在遗传中是稳定不变的,即保持着基因平衡。该定律运用在生物学、生态学、遗传学。条件:①种群足够大;②种群个体间随机交配;③没有突变;④没有选择;⑤没有迁移;⑥没有遗传漂变。
Population stratification :这是指研究中存在多个亚群体(例如,具有不同种族背景的个体)。因为等位基因频率在不同亚群之间可能不同,群体分层可能导致假阳性关联和/或掩盖真实关联。
Relatedness: 这表明一对个体在基因上的亲缘关系有多强。传统的GWAS假设群体中所有个体都是不相关的(即,没有一对个体的关系比二级亲属更切)。如果没有适当的校正,亲属的加入可能会导致SNP效应大小标准误差的有偏估计。
接下来稍微了解一下关于GWAS中外史上几个大事件。
2005年,罗氏公司推出了第一款二代测序仪罗氏454,生命科学开始进入高通量测序时代。后随着illumina系列测序平台的推出,极大降低了二代测序的价格,推动了高通量测序在生命科学各个领域的普及。
数据来源于 NCBI( https://www.ncbi.nlm.nih.gov)
2005年,国际上首个GWAS研究与年龄相关性黄斑变性相关,是耶鲁大学医学院流行病学与公共卫生系Josephine Hoh,洛克菲勒大学统计遗传学实验室Robert J. Klein等总计7家机构研究的以“Complement Factor H Polymorphism in Age-Related Macular Degeneration”为题发布在2005年的《Science》杂志上。研究包括96个病例样本以及50个对照样本,鉴定出了易感基因CFH(1q31)。
2009年,张学军教授团队(安徽医科大学皮肤遗传研究团队)在《NATURE GENETICS》 杂志上以“Psoriasis genome-wide association study identifies susceptibility variants within LCE gene cluster at 1q21”为题发表了中国第一篇GWAS论文,研究验证出了银屑病中欧洲报道的MHC和IL12B基因,发现了一个新的易感基因LCE。
这次分享就到这里,希望大家有所收获。同时因本人水平有限,如果文中有描述有误的地方,也希望大家谅解并及时提出,谢谢。
Note: 文中图片部分来自百度,谷歌,如果构成侵权,请联系小编删除。
祝大家五一快乐。
参考文献:
1.Marees AT, et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. Int. J. Methods Psychiatr. Res. 27, e1608 (2018).
2.百度百科