因果推断

1利用贝叶斯结构时间序列模型推断因果影响

INFERRING CAUSAL IMPACT USING BAYESIAN STRUCTURAL TIME-SERIES MODELS

本文提出了一种方法来推断市场干预的因果影响,如新产品的发布或广告宣传活动的开始。我们的方法通过明确地建模干预前后观察到的时间序列的反事实,将广泛使用的difference-indifferences approach推广到时间序列设置中。它在两个方面改进了现有的方法:它提供了一个完全贝叶斯时间序列估计的效果;它使用模型平均来构建最合适的合成控制来建模反事实。

治疗的因果影响是反应的观察值和在替代治疗下可能获得的(未观察到的)值之间的差异,即治疗对被治疗者的影响。构建反事实的一个强大的方法是基于将一组候选预测变量组合为一个单一的“合成控制”的想法[阿巴迪,戴蒙德和海恩穆勒(2010),阿巴迪和加尔德亚扎巴尔(2003)]。广义地说,有三种信息来源可用于建立一个充分的综合控制。第一个是在干预之前,反应本身的时间序列行为。第二种是在干预前可以预测目标序列的其他时间序列的行为。例如,这种控制系列可以基于没有接受干预的不同地区的同一产品,或基于反映整个行业活动的度量指标。在实践中,通常有许多这样的系列可用,而挑战是选择相关的子集作为同期控制使用。我们使用状态-空间时间序列模型结合了前三个信息源,其中状态的一个组成部分是对同期预测器的线性回归。我们的模型框架允许我们在一组潜在控制中进行选择,通过在回归系数集上放置一个峰值,并允许模型在一组控制上进行平均。


2 一种简单的回归变量选择的新方法,并应用于遗传精细定位。

A simple new approach to variable selection in regression, with application to genetic fine mapping

该方法基于一个新的模型——“单效应之和”模型,称为“SuSiE”——它来自于将回归系数的稀疏向量写成“单效应”向量的和,每个向量都有一个非零元素。我们还引入了一个相应的新的拟合程序-迭代贝叶斯逐步选择(IBSS),这是一个逐步选择方法的贝叶斯模拟。IBSS与传统的逐步方法相同的计算简单性和速度相同,但是,IBSS不是在每一步选择单个变量,而是计算变量的分布,以捕获选择变量的不确定性。

Keywords: Genetic fine mapping; Linear regression; Sparsity; Variable selection; Variational

inference

高度相关的变量对变量选择方法构成了明显的挑战,仅仅因为它们很难相互区分。实际上,在两个变量(例如,x1和x2)完全相关的极端情况下,根据回归分析,不可能声称一个变量应该选择相关变量而不是另一个变量。在一些应用中,这种模糊性很少导致实际问题。

用于预测的变量选择不影响预测精度,然而,在其他科学应用中,变量选择被用作帮助了解世界的手段,在这些应用中,高度相关变量产生的模糊性更成问题,因为科学结论取决于选择哪些变量。在这些应用程序中,承认应该选择哪些变量的不确定性是至关重要的。这需要一些方法可以得出结论,如“x1或x2是相关的,我们不能决定哪一个”,而不是任意选择其中一个变量而忽略另一个变量的方法。虽然这似乎是一个简单的目标,但在实践中,大多数现有的变量选择方法并不能令人满意地解决这个问题(进一步的讨论见第2节)。这些缺点激发了我们在这里的工作。

精细定位的目标是识别直接影响某些感兴趣的特征的遗传变异(例如,血液中的低密度脂蛋白胆固醇和细胞中的基因表达)。换句话说,精细映射的主要目标是了解一些世界,而不是建立一个更好的预测器。(这并不是说从遗传变异中预测性状并不重要;事实上,在预测遗传性状方面也有大量的工作,但这并不是精细定位的主要目标。)目前最成功的精细映射方法将该问题框架为一个变量选择问题,建立一个回归模型,其中回归结果是感兴趣的特征,候选预测变量是可用的遗传变异。在回归模型中执行变量选择可以识别出可能对性状产生因果影响的变异。精细的定位是具有挑战性的,因为由于一种被称为连锁不平衡的现象,这些变量(遗传变异)可能具有非常高度的相关性(Ott,1999)。事实上,典型的研究包含了许多对遗传变异,样本相关性超过0.99,甚至等于1。

BVSR是解决这些问题的一种很有吸引力的方法,因为在原则上,它可以评估变量所选择的不确定性,即使这些变量是高度相关的。然而,在实践中应用BVSR仍然很困难,至少有两个原因。首先,BVSR在计算上具有挑战性,通常需要实现复杂的马尔可夫链蒙特卡罗或随机搜索算法。其次,也许更重要的是,BVSR方法的输出通常是一个复杂的后验分布——或近似于后验分布的样本——而这可能很难提炼成容易解释的结果。

我们的方法与大多数现有的BVSR方法不同的一个关键特征是,它产生的“可信变量集”,量化当多个高度相关的变量相互竞争时,应该选择变量的不确定性。这些可信集被设计为尽可能小,同时每个集仍然捕获一个相关变量。可以说,这正是我们希望从基于马尔可夫链蒙特卡罗或随机搜索BVSR方法中获得的一种后验总结,但这样做需要对它们的输出进行非平凡的后处理。相比之下,我们的方法直接提供了这个后验总结,并且只需要很少额外的计算量

3 Bayesian model reduction and empirical Bayes for group (DCM) studies

本技术说明描述了一些贝叶斯程序,这些程序在第一个(主题内)水平上使用非线性模型,例如,动态因果模型,以及在随后的(主题间)水平上使用线性模型。它的重点是使用贝叶斯模型约简来精细地对单个数据集的多个模型或多个数据集的单个(层次或经验贝叶斯)模型的反演。对贝叶斯模型约简的这些应用允许人们考虑参数随机效应,并非常有效地推断出群体效应(在几秒钟内)。我们提供了这些程序的相对简单的理论背景,并使用一个工作的例子来说明它们的应用。这个例子使用了对精神分裂症的模拟不匹配负性研究。我们说明了在动态因果模型中,贝叶斯模型简化对违反(常用的)拉普拉斯假设的鲁棒性,并展示了它的递归应用如何促进关于组差异的经典和贝叶斯推断。最后,我们考虑了这些经验贝叶斯程序在分类中的应用。

本文介绍了一些利用非线性模型分析群体研究数据的潜在有用的程序;例如,神经生理时间序列的动态因果模型。它的关键贡献是精细化在非线性设置下涉及层次模型的反演或拟合的问题。这是通过使用贝叶斯模型约简来实现的,该约简允许人们在新的先验密度下计算模型参数上的后验密度,而不需要明确地再次反转模型。例如,我们可以对一组中的每个受试者建立一个非线性(动态因果)模型,然后使用单个受试者倒置参数的后验密度来评估组效应的后验密度。这种应用可以看作是标准汇总统计方法的推广;然而,与其仅仅使用点估计器作为第一个(受试者内部)水平效应的总结,我们可以将全后验密度带到第二个(受试者之间)水平。

一个常见的例子是通过将一个完整模型中的参数的先验均值和方差设置为零来关闭该参数。贝叶斯模型简化的重要方面是,模型只在先验上有所不同,这意味着简化模型的后验可以从完整模型的后验中推导出。Empirical Bayes refers to the Bayesian inversion or fitting of hierarchical models。如果一个特定主题数据的非线性模型的参数是通过向群均值中添加随机(高斯)效应来生成的,则可以应用本文的程序。至关重要的是,这些程序是非常有效的,因为模型的每个层次只需要以下层次参数上的后验密度。这意味着,人们可以倒置深层层次模型,而不必重新访问较低的层次。我们设想经验贝叶斯模型简化将主要应用于群体动态因果模型(DCM)研究,其中受试者根据行为、诊断或遗传等因素被分配到组(例如Bernal-Casas等人,2012)。然而,这里提出的想法并不仅限于DCM。它们可以应用于任何非线性模型,有趣的是,还可以应用于第一个(主题内)级别的任何反演方案。这对于利用使用随机方法评估第一一级后验的方案的计算投资尤其重要(Sengupta等人,2016)。贝叶斯模型简化解决了(或至少帧)组DCM研究的反演和解释中的一些问题。这些问题包括在评估贝叶斯模型比较的不同模型时的局部极大值问题,以及在模型及其参数水平上的随机(主体之间)效应之间的基本区别。与我们之前在受试者间水平上对随机模型效应的处理相比(Stephan et al.,2009),本文考虑了参数经验贝叶斯设置中的随机参数效应。我们还将研究关于群体效应的经典推理和贝叶斯推理之间的根本区别。最后,我们将简要地考虑单个受试者的贝叶斯分类和接触(留一项)交叉验证。

本文由四个部分组成。首先回顾了贝叶斯模型的约简,并介绍了它在层次或经验贝叶斯设置中的应用。本节回顾了基本理论,它推广了随机效应建模的传统方法。第二部分将第一个部分的理论应用于小组研究,为后续部分中使用的程序提供了具体的表达式。第三部分考虑贝叶斯模型使用一个基于(模拟)DCM研究的工作例子进行约简。本节的重点是贝叶斯模型约简在反演非线性模型时经常遇到的精细化(例如,局部极大值)问题中的效用。我们将看到,贝叶斯模型缩减比单独拟合到数据中的模型提供了更稳健的后验概率估计,因为它不太容易违反(例如,拉普拉斯)假设。

4 综述Evaluating the potential role of pleiotropy in Mendelian randomization studies

孟德尔随机化(MR)是一种通过使用自然遗传变异来模拟随机对照试验(RCT)来加强因果推理的方法。孟德尔随机化(Mendelian Randomization)是一种基于遗传变异的因果推断方法,其基本原理是利用自然界中的随机分配的基因型对表型的影响来推断生物学因素对疾病的影响。

要使用孟德尔随机化,需要满足以下三个假设前提:

关联性假设:基因与暴露因素之间有强相关性。这意味着,如果暴露因素的水平发生变化,那么基因型的分布也会随之改变。

独立性假设:基因与混杂因素之间是独立的。这意味着,基因型的分布不会受到混杂因素的影响。

排他性假设:基因只能通过暴露因素对结局产生作用,没有其他途径对结局产生影响。

孟德尔随机化通过以上三个假设前提,能够有效地推断生物学因素对疾病的影响,并且能够避免一些传统研究中存在的偏倚和混杂因素的影响。因此,孟德尔随机化在因果推断、基因与疾病关联研究等领域中得到了广泛的应用。尤其有影响的是GWAS汇总数据的增长(5,7)(见框1)。在这里,可以仅使用来自GWAS的汇总估计的数据来进行因果推断,从而导致许多战略优势(8)。首先,这些摘要关联(构成“数据”)是非一次性的,而且通常是免费和公开的,可能有成千上万的特征。这使得仅通过回收现有的结果就可以实现高通量的自动化。其次,基因组被用作性状之间的锚点,允许对可能从未在同一样本中记录过的一对性状对进行因果推断。这大大扩大了可能的因果推理测试的空间。第三,通过利用GWAS中的大量样本量,统计能力问题得到了改善,每个样本量都是单独进行的,以最大限度地提高特定特征的能力。它本质上用其他假设取代了传统的流行病学假设。

假设我们有一个单一的基因工具。这是一种常见的情况,特别是对于“组学”变量,如基因表达(19)、DNA甲基化(20)和蛋白质水平(21),在这些情况下,变量的基因组位置附近通常存在很强的遗传关联,通常被称为顺位效应。因果效应的估计可以从Wald比值中得到:snp结果效应的影响除以snp暴露效应(23)(附录1)。关于暴露是否与结果有因果关系的定性推断,最简单地通过测试仪器SNP是否与结果相关来获得。然而,只有如果snp-结果关联是由于通过暴露产生的垂直多效性,这一结果才可靠(见框2)。或者,它可能是由于水平多效性,即SNP通过独立的途径影响暴露和结果,或不同的因果变异(24),其中影响暴露的SNP与另一个独立影响结果的SNP处于连锁不平衡(LD)。评估不同的因果变异的可能性可以通过使用遗传共定位方法来实现(25)——那些试图评估两个性状是否在一个特定位点上共享一个相同的因果变异。虽然还不够,但两个性状之间共享的因果变异是它们有因果关系的必要条件。因此,在Mr中使用共定位至少对消除一些不可靠的关联是有价值的。一些共局域化方法现在已被广泛使用(24、26-31)。R/coloc(25)包使用一个区域内snp的汇总数据,并通过评估整个区域的效应大小模式的相似性来估计共享遗传因素的后验概率。联合似然映射(JLIM)方法(31)采用了类似的策略,但也要求这两个性状中的一个区域的snp之间的LD模式是可用的。(HEIDI)方法(30)稍微灵活一些——这是另一种使用LD信息的另一种共定位分析形式,但通常使用外部参考面板,在外部参考面板中,从LD模式的不同样本中估计效应大小。S-PrediXcan(32)采用了类似的策略,使用带有汇总数据的LD参考面板进行遗传共定位。有两个重要的因素可能导致这些方法的不准确性。首先,如果在顺式区域有多个有条件独立的因果变异(33-35),正如经常报道的那样(19,20,36),那么这可能导致错误地声明共享的因果变异。建议将这些方法与条件分析结合使用来缓解这个问题(25,30)。其次,如果在具有不同LD模式的群体中估计暴露效应和结果性状效应,那么效应大小的模式可能与潜在的遗传结构不一致。这个问题很难克服,理想情况下可以在独立样本中演示复制。

虽然可靠的共定位结果可以消除不同的因果变异,作为强snp结果关联的潜在解释,但在单一工具的情况下,垂直多效性不可能仅使用两个性状的汇总数据来证明(36)。三角测量法,即使用具有非重叠限制的不同方法(16,18)来评估同一问题的实践,必须在这个场景中应用。基于遗传中介的分析(37-40)比Mr(41-43)更容易出现混淆和测量误差的问题,但在某些情况下,可能存在垂直和水平多效性之间的分离。也可以使用评估效应一致性的网络构建(使用Mr的中介分析的另一种形式)(44)。

通常使用基于ld的聚集和剪枝来确保独立性(45)。在这些情况下,将类比扩展到rct,每个检测SNP都被认为是一个独立的实验(意义上它们独立地修改暴露),因此可以对每个实验的结果进行荟萃分析,以给出总体估计(7,46,47)。最简单的是,使用了固定效应逆方差加权(IVW)元分析方法,其中每个SNP对总体估计的贡献是其对结果的影响的方差的倒数。IVW分析的一个重要扩展是加权广义线性回归方法。

如果暴露影响结果,而SNP仅直接影响暴露,我们预计每个SNP对结果的影响与SNP对暴露的影响成正比。这个比例因子(因果效应)在snp之间是相同的,使得它们的个体因果比率估计是同质的。满足这一期望的snp越多,snp-结果关联仅仅因水平多效性(或不同的因果变异)而产生的可能性就越小(48)。值得注意的是,snp暴露和snp结果效应的比例可能是由于完全混淆而产生的——所有的snp暴露工具实际上都是由于另一个影响暴露和结果的特征而产生的。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容