本教程是手把手教你如何使用eMAGMA的指南,eMAGMA是一种通过将SNP分配给组织特异性eGenes来进行eQTL基因测试的方法,如Gerring et al., 2019a, Gerring et al., 2019b所述。在这里,我们提供了使用eMAGMA方法的脚本和文件,该方法使用全基因组汇总统计数据生成与疾病相关的eGenes列表。在本教程中,我们将展示如何使用GWAS关于严重抑郁障碍(MDD)的汇总统计数据作为示例数据来应用eMAGMA;这些汇总统计数据可从精神病学基因组联合会(PGC)网站公开获得。
本教程分为两部分。第一部分进行基于eMAGMA基因的分析,该分析将eQTL参考数据集的SNP基因关联与GWAS汇总统计数据相结合。我们生成了注释文件,其中根据SNP与基因表达的关联将SNP分配给基因。SNP与基因的关联是组织特异性的,因此我们可以在组织水平上估计哪些基因与疾病的关联性更高。第二部分进行eMAGMA基因集分析,检测共表达网络中关联性的丰富程度。这项分析的目的是确定与疾病风险高度相关的模块(高度相关的基因集)。特定于组织的注释文件和共表达网络文件(适用于48个组织)作为本教程的一部分进行共享。本教程需要参考Gerring et al., 2009a中的描述来理解本教程中使用的方法和资源。
使用前须知
本教程可以在Unix中执行,假设用户熟悉Unix环境和命令行。您可以根据需要键入或复制、粘贴命令或重新组织命令。这是一个实践教程,理论解释最少。用户必须通读教程附带的出版物(Gerring et al. 2019a, Gerring et al., 2019b),因为他们为分析提供了理论背景。需要GWAS和GWA-summary分析的知识。我们之前已经通过另一个Github存储库https://github.com/MareesAT/GWA_tutorial (Marees et al., 2018)生成了关于执行GWAS分析的教程。
使用前数据准备
首先在你的工作目录下创建一个文件夹来准备:
$ cd /path/to-yourworking folder
$ mkdir eMAGMA
$ cd eMAGMA
本次的分析使用的MAGMA版本 v1.07b (de Leeuw, Neale, Heskes, & Posthuma, 2016). MAGMA and auxiliary files 可从以下网站下载: https://ctg.cncr.nl/software/magma.
需要两个辅助文件: 一个包含来自NCBI的蛋白质编码基因的基因位置的文件和一个基因组参考文件。对于本教程,我们使用构建37(hg19),它与(MDD2018_Excluding23andMe)摘要数据和欧洲人口的参考文件相匹配。36、37和38的的基因位置文件都可从MAGMA网站获得。您可以使用wget o curl将文件直接导入到您的目录中,例如:
订正:不同的系统下载的版本不一样,比如我用的mac则应该是:https://ctg.cncr.nl/software/MAGMA/prog/magma_v1.07b_mac.zip
MAGMA
wget https://ctg.cncr.nl/software/MAGMA/prog/magma_v1.07b_static.zip
Auxiliary files for 37(hg19)
wget https://ctg.cncr.nl/software/MAGMA/aux_files/NCBI37.3.zip
Reference data
wget https://ctg.cncr.nl/software/MAGMA/ref_data/g1000_eur.zip
GWAS summary = MDD2018_ex23andMe from PGC web site
https://www.med.unc.edu/pgc/results-and-downloads/
注意:如果您使用的是您自己的数据,请确保下载与您的数据的基因组构建相对应的辅助文件。
本教程提供了48个组织的基因注释和共表达网络,包括13个脑组织和全血。在本教程结束时,您将能够使用这些文件将eMAGMA方法应用于您自己的数据。
References
a Zachary F Gerring, Angela Mina-Vargas, Nicholas G Martin2, Eric R Gamazon3-5, Eske M Derks. eMAGMA: An eQTL-informed method to identify risk genes using genome-wide association study summary statistics. doi: https://doi.org/10.1101/854315.
b Gerring ZF, Gamazon ER, Derks EM, for the Major Depressive Disorder Working Group of the Psychiatric Genomics Consortium (2019) A gene co-expression network-based analysis of multiple brain tissues reveals novel genes and molecular pathways underlying major depression. PLOS Genetics 15(7): e1008245. https://doi.org/10.1371/journal.pgen.1008245
Marees, AT, de Kluiver, H, Stringer, S, et al. A tutorial on conducting genome‐wide association studies: Quality control and statistical analysis. Int J Methods Psychiatr Res. 2018; 27:e1608. https://doi.org/10.1002/mpr.1608
de Leeuw C, Mooij J, Heskes T, Posthuma D (2015): MAGMA: Generalized gene-set analysis of GWAS data. PLoS Comput Biol 11(4): e1004219. doi:10.1371/journal.pcbi.1004219