https://www.yuque.com/docs/share/e876490e-9ac6-46e0-a891-48956a50ed8c?#(密码:hy77) 《Meta-analysis学习笔记(阅读到导论22章节前后)》
Meta分析基本原理
Meta分析为综合分析提供数学的严密计算,比如一些研究,单个检验时可能不存在统计学意义,但是执行meta分析可以知道它相对于其它研究的意义。从整体上,纳入一些看似有无效结论的研究,会得到和review不一样的结论,一个研究的p值和另一个研究的p值有截然不同的含义。
meta分析主要聚焦于:
每个研究的效应量而非p值
综合研究包含所有的效应,用以估计效应变异并区分真假。
Meta分析的要素
图1.一个Meta分析的基本要素范例
效应量
定义
即代表干预措施(自变量)的效应,也可以表示为两个变量的关系,表示为β。每个研究的效应量不一定相同。
效应量指标的选择原则:
可比性,效应量不随研究特征(样本量与协变量)改变而发生变化;
可获取性,从已经发表的文章中可以直接获取(或者可以通过源数据运算得到);
具有已知的样本分布(才能获得方差和置信区间);
具有可解释的内涵;
精度
每个研究的效应量可以通过置信区间(confidence interval)界定,置信区间越窄说明研究越精准。这通常由样本量决定。
研究权重
p值
p值降到0.05以下,95%的置信区间才会不包括无效假设的效应值。
综合效应
也就是综合所有研究的效应量、精度、p值。一般显示在最低行。综合效应是单个效应量的加权均值(权重*均值求和,加权平均),加权机制取决于对所有效应量的分布假设。
在固定模型中,假设:所有研究来自于同一个效应量总体。【效应关系一致,打个比方,只要是草地样本的eCO2对SOC的影响,关系系数都为SOC=A×M(eCO2)】
在随机模型中,假设:不同研究具有不同的效应量总体,综合效应就是效应量分布的均值。
综合效应的精度用菱形表示。
图2. 文献材料图1,下面的菱形就是综合效应,上面分类讨论的内容被认为是单类研究。
Meta分析中,要计算每个研究的效应量和方差,然后计算这些效应量的加权平均值,精读高的研究会有更高的权重,但是分配权重的原则取决于对效应分布的假设。
效应量的异质性与一致性
图1案例中的药物效应量是一致的,但一般很多研究的效应量并不一致。
如果研究之间的效应量一致,只关注综合效应即可,且注意纳入分析的研究都足够可信。如果效应量变化不大,仍然主要报告综合效应。
但大部分研究间,效应互不相同。
效应量的变异部分=效应差异+随机误差。
判定效应量是否一致取代判定p值是否一致可以更好的解释差异来源,有些抽样误差在分开讨论p值时容易被混淆成真实差异。
以上为概述内容。
效应量的计算(此部分涉及统计学原理推断,可略)
1、研究对象同量纲,原始均值差
不用进行标准化,直接利用原始均值差异(D)进行统计学分析。
倘若两个总体标准差不同,则D的方差等于:
D的标准误是V的平方根:
倘若σ1与σ2相等,则:
**配对对实验设计的D值:
也就是每一对都有差值,求平均即可。
n表示对数(实验对数,配对实验是配对的),S差值表示准差。
r表示配对实验中,两个个体的相关系数。
r=0的时候,则与独立实验无差异。
2、标准化均值差
即为标准化的均值差,样本均值差异除以总体标准差(假设总体标准差一致)。那么综合研究中,标准化均值差的样本估计值为:(以下公式不再采用Latex编译,字体略有差异)
Swithin是组内标准差,这个公式的假设前提为总体样本标准差相等。
d在小样本时会对δ估计偏高,需要用一个校正因子J:
df是自由度,两个独立组为n1+n2-2,该J值通常有小于0.007的误差,df>10则低于0.035%。则d值可以被校正为:
3、反应比
在结果一般不能为零的研究中,两组间的均值比能能作为效应量,在实验生态学的研究中,这种效应量指数被称为反应比(在连续测量尺度才会有意义)。-在没有自然测量单位与自然零点的测量中(诸如考试得分、态度测验、判断等),反应比没有什么意义。
反应比的计算通常利用对数转换进行计算,在结果中将对数逆转到原始表达。原理见下图:
当然,根据数据的类型差异,对效应量的运算和检验方法不尽相同。譬如还有(0,1)数据、数据之间存在相关关系等情况,在综合研究中,个体研究涉及不同的研究资料与与效应量的不同运算方式时,必要时需要进行效应量的转换。
(详细运算不再列出推导过程,见导论地6-7章节)
影响精确性的因素
精确性包括三个统计描述量:方差(偏离平均值的和)、标准误(方差开方)、置信区间;
方差Var
也就是
,这里基座VY,Y是效应量。
标准误SE
置信区间
假设效应量正态分布,那么95%置信区间为:
也可以计算一个统计检验量Z值:
Z值对应的p值与可信区间对应,只有可信区间不包含无效值,p
才会小于0.05。
影响因子
1、样本含量:如下图,样本含量每增加4倍,方差将缩小1/4;
正方形的面积和研究方差倒数成比例,编程与每个研究的标准误倒数成比例(公式同可推出),每个正方形的可信区间与该研究的标准误成比例。在赋权给每个研究的时候,可以假设方差与权重成反比。
2、研究设计:上面的例子比较了不同样本含量对精读的影响,但前提假设是随机独立样本设计。
不同的研究设计会对精确度有一定的影响,可以参考下表与森林图。
随机效应与固定效应
符号说明:
固定效应模型
该模型认为不同研究之间的差异源自抽样误差,存在一个真实效应,这一部分被称作固定效应。
换句话说,假设Meta分析中个研究影响效应值大小的因素应该是相同的,故而真实效应相同,所以称为固定效应,未知的真实值用θ表示。
抽样误差会引起观察值的差异,所以有如下图的观察值:
ε表示抽样误差。可估计误差的抽样分布:
在meta分析中从观察值估计研究群的效应值,为了获取精确的估计值,可以给每个研究加上权重(也就是方差的倒数)。计算公式如下(非LaTex语法):
权重(W):
加权均值(M):
综合效应方差(VM),综合效应标准误为方差开方(SEM)。
综合效应的0.95CI上下限以及推断真实效应值θ是否为0的假设检验统计量Z:
单侧检验与双侧检验:
(Z)是标准正态的累积分布曲线。Excel中表示为=Normsdist(Z);
随机效应模型
该模型认为不同研究的真实效应不同,因为研究对象和干预手段差异,研究之间存在不同的效应值。当研究数目(n)极大,不同研究的效应值可以假设为这些效应中的随机抽样(此部分称为随机效应)。随机效应的真值分布被假设为正态分布,如下图。
抽样误差不可能为0,因为样本量不可能无限大,抽样误差必然存在。真值在不同的研究中则有如下分布。
任何观察值与真值又会存在抽样误差,所以任何研究的观察效应值(Yi)应该由三部分组成:
其中,μ表示真值),ξ表示真实变化,ε表示抽样误差。
μ到θ的距离依赖于不同研究的真实效应值分布的标准差,θ到Y的距离依赖于样本效应值关于参数θ的分布,也就是每个观察效应值的方差。
在实际的meta分析中,从观察效应值开始去估计群体研究的总效应值,通过收集Y来获取μ。为了提高估计值的准确性,每个研究的权重为每个研究的方差的倒数。
研究内的方差与研究之间的方差组成了整个meta分析的总方差。
研究间的方差τ2的估算方法如下式:
*k是研究个数
随机效应模型的权重和研究总方差为:
权重均值M*与综合效应标准误::
综合效应的0.95CI上下限以及假设检验统计量Z:
单侧检验与双侧检验:
随机效应与固定效应的比较与选择(章节13,导论)
原理推导过程省略。
两个相同数据组应用不同研究方法的森林图对比:
简要概括关键点:
比较随机效应固定效应
综合效应定义与估算利用观察效应对所有效应值进行估算,取估算效应分布的均值假设真实效应一致,对单个效应进行估算
权重权重更平衡,大样本的研究会有相对小的权重,小样本会有相对大的权重大小样本量的研究,权重只取决于方差
标准误与置信区间更宽相对窄
适用研究发表文献中的数据同质实验
异质性的识别和定量
关于变异的一些基本点
1.变异大小可以用标准差和范围概率来描述,可以通过计算表达协变量对变异的解释程度。
2.观察到的效应变异实际包括:真实变异+随机误差
3.每项研究的真实效应不同:本身异质性+抽样误差
从观察变异中提取研究间的总变异
1.计算研究间的观察总变异
2.固定模型认为真实效应大小相同,则计算期望变异
3.两者间的差异就是异质性的大小
4.Q统计量用以描述观察变异与内部误差的比值(比绝对值的描述意义更强)
Q统计量
式中,Wi为i研究的权重,Yi是效应量,M是平均效应量。Q实际上是效应量的加权方差(加权平方和),可以进行标准化。
研究内误差Q的期望
df=k-1(也就是自由度)
Q标准化后与效应单位无关。
超频变异
Q-df
这就是各研究间的真是效应的变异大小。
检验异质性假设
假设所有研究的效应大小相等,没有差异,这为0假设。该假设成立,则统计量Q服从自由度为k-1的卡方分布,可以计算对应的P值。P<0.05则拒绝零假设。该检验只能检验显著性水平,不代表真实的方差,所以并不评估真是离散程度。
离散程度描述:估计τ2以及T
τ2指的是真实效应方差,当然它是指所有研究样本无限大,故而表示真值的存在。有限样本的估计值表示为T2,运算方法如下:
T2表现了绝对变异,如果观察方差小于期望值,Q<df,可以认为T2等于0。超额变异对T2的影响很大。
随机效应模型中,T2被用于赋权。
分母表示研究内方差与研究间方差的和。
离散程度描述:I2统计量
T统计量是绝对指标,还可以用相对指标进行量化,这样可以脱离单位的限制。I2统计量应运而生(Higgins, 2003)。
I2统计量不受自由度的影响。
异质性比较指标
置信区间与预测区间
预测区间PI定义:如果从总体随机抽样,得到的效应值可能落入的范围。
置信区间CI定义:置信区间是指由样本统计量所构造的总体参数的估计区间。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。
详细甄别这两个区间的含义可以参考《数理统计》中的推导过程,这里不再详细列出。
置信区间只包含参数估计值与实际值确实存在的(本质)差异所导致的误差;预测区间包括了模型可解释部分之外的误差。所以,预测区间的范围会比置信区间更大。
黄色部分的横线就是纳入了预测区间的部分。这个综合效应说明了两个信息:
95%的概率,平均效应量应该落入菱形内。
95%的概率新的研究效应量会落入两侧水平线所示的范围内。
***注意:研究述趋近于无穷,预测区间会接近μ±1.96τ。