孟德尔随机化(Mendelian Randomization, MR)是流行病学研究中评估病因推断的数据分析技巧,它是利用与暴露因素具有强相关的遗传变异作为工具变量,来评估暴露因素与结局之间的因果关系。
随机临床实验(RCT)是检验因果关系的金标准,但其条件苛刻,无法广泛使用。其实验周期比较长,耗费成本较高且经常会遇到伦理学问题而受限。孟德尔随机化,利用遗传因素本身在人体中的随机分布,且遗传因素在受精卵形成时已经固定,不受后期环境因素影响,以近似RCT实验的原理去探讨暴露因素与结局之间的因果关系。
SNP是在DNA序列中等位基因位置上单个核苷酸发生的突变或多态性。人群中存在数百万计的遗传变异,最常见的遗传变异为单核苷酸多态性(SNP),也就是孟德尔随机化分析中的工具变量。
孟德尔随机化三大假设:
①关联性假设: SNP与暴露因素之间是强相关的。
②独立性假设: SNP与混杂因素之间是独立的。
③排他性假设: SNP只能通过暴露因素对结局产生作用。
孟德尔随机化适用场景:
①观察性研究发现两者有相关性,但因果关系并不明确。
②过往有研究证明过其因果关系,但结果有争议。
③过往研究没有做过孟德尔随机化方向。
④所研究课题一定要有临床意义。
孟德尔随机化分析流程
①获取暴露和结局的GWAS数据
常用网站:
ieu-open-gwas-project(https://gwas.mrcieu.ac.uk/)
GWAS-Catalog(https://www.ebi.ac.uk/gwas/)
UK-Biobank
(https://www.nealelab.is/uk-biobank)
FINNGEN
(https://www.finngen.fi/en/access_results)
②在暴露数据中挑选工具变量(通过关联性分析,挑选与暴露因素强相关的SNP作为工具变量,过滤条件是pvalue<5e-08,有些情况也可以适当放宽)
③去除连锁不平衡:连锁不平衡 (linkage disequilibrium)是指基因组位置相近的遗传变异更倾向于共同遗传。会导致分属两个或两个以上基因座位的等位基因同时出现在一条染色体上的几率,高于随机出现的频率。
kb:连锁不平衡的区域范围。在遗传学上认为在染色体上距离很近的遗传位点通常是“捆绑”在一起遗传给后代的,这也就导致距离很近的位点之间的r2会很大。
r2:介于0~1之间,r2=1表示两个SNP是完全的连锁不平衡的关系,r2=0则表示两个SNP是完全连锁平衡的关系,也就是说这两个SNP是完全随机分配的。
因为孟德尔随机化要求使用独立的SNP作为工具变量,我们需要根据r2对SNP进行筛选,这个过程叫做去除连锁不平衡。
④去除弱工具变量(工具变量与暴露因素不具有强相关性,或者工具变量只能解释小部分表型变异。筛选标准F检验值>10)
⑤去除混杂因素(http://www.phenoscanner.medschl.cam.ac.uk/)
通过搜索与工具变量相关的所有性状/疾病,如果其中有结局相关的风险因素,则需去掉这个工具变量。
⑥孟德尔随机化分析
or大于1时,代表暴露因素是结局的不利因素;or小于1时,代表暴露因素是结局的有利因素。一般情况我们根据Inverse variance weighted方法去判断是否为阳性结果
⑦异质性分析
来自不同的分析平台、实验、人群等的工具变量可能存在异质性,从而影响孟德尔随机化分析的结果。通过IVW和MR-Egger检验评估异质性,pvalue<0.05说明研究中存在异质性。
⑧多效性分析
如果工具变量通过暴露因素以外的其他因素影响结局发生时,说明工具变量具有多效性。多效性会导致独立性和排他性假设不成立。通过MR-Egger截距测试,可以检测数据的多效性,并且评估结果的稳健性。如果pvalue<0.05,说明数据存在多效性。(如果存在多效性就需要重新选择工具变量或者重新选择暴露和结局)
⑨结果可视化
判断结果是否显著的标准:IVW显著,其他方法与IVW方向一致。
⑩留一法敏感性分析
检验MR结果是否受某一个SNP驱动
以上是对孟德尔随机化
基本流程的一个简单介绍
后面我们会继续为大家分享
每个步骤的具体操作和一些注意事项
欢迎大家继续关注哦~