Summary of How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice
研究过程中一个经典场景是:开开心心地解决了各种报错,跑出了一个没有任何omit,看起来还不错的结果,那么一个新的问题又来了,即,这个结果是啥玩意儿。
黄河泉老师的PPT里没有解释边际效应的结果图应该怎么看,于是就只好从原文找答案啦。
1 问题介绍
交叉项探讨的是 the relationship between an outcome Y and an independent variable/treatment D changes with a moderating variable X (Y,D,X三个变量的关系)
实证研究应用过程中经常犯的两个错误是:
- 模型设定错误,假设交叉项的影响是线性的
LIE
——实证数据往往并非如此理想
First, these models assume a linear interaction effect that changes at a constant rate with the moderator. - 调节变量缺乏共同支持[想不到更贴切的翻译]
lack of common support
Second, estimates of the conditional effects of the independent variable can be misleading if there is a lack of common support of the moderator.
错误1 Model misspecification: LIE假设
交叉项模型的普遍设定隐含了这个关键假设—— LIE: linear interaction effect assumption
表达式为
含义是
This linear interaction effect (LIE) assumption states that the
effect of D on Y can only linearly change with X at a constant rate given by . In other words, the LIE assumption implies that the heterogeneity in effects is such that as X increases by one unit, the effect of D on Y changes by and this change in the effect is constant across the whole range of X.
错误2 Insufficient common support in X
common support
又是个啥?
Ideally, to compute the marginal effect of D at a given value of the moderator, Xo, there needs to be
(1) a sufficient number of observations whose X values are close to Xo and
(2) variation in the treatment, D, at Xo.
If either of these two conditions fails, the conditional marginal effects estimates are based onextrapolation
orinterpolation
of the functional form to an area wherethere is no or only sparse data
and therefore the effect estimates are fragile and model dependent.
百度翻译一下:
理想情况下,为了计算处理变量D在给定的调节变量值Xo的边际效应,需要
- 有足够数量的观测值,它们的X值接近于Xo。
也就是说,使用的数据在Xo附近有足够多的观测值。 - 在X处的处理变量D是有变化的。
不满足以上的任何一个条件,那么条件边际效应的估计就是以函数形式对没有数据或极少量数据的区域的过度外推或内插,因此效果估计是脆弱的并且依赖于模型。[一针见血]
注:联系一下 Curse of dimensionality,就很好理解了。
Insufficient common support 经常出现于以下情况:
- D或X的分布是高度有偏的(highly skewed)
- D或X在二者的共同支持区域内没有变化(does not vary in some regions of the joint support of D and X)
2 模型
略。
总之作者经过一系列推导,针对以上两个问题进行证明,再一次论证了:
- 如果真实模型是非线性的而强行使用和线性模型,那么得到的结果是不一致和有偏的(conditional marginal effects estimates are inconsistent and biased);
- 如果不满足共同支持条件,那么结果高度依赖于模型。
3 检验诊断
问题提出来了,怎么解决呢?作者给出了一种非常简单又有效的办法:数据可视化。
Linear Interaction Diagnostic (LID) plots
- 第一步,将原始数据按X进行分组,画出Y-D的散点图。
如果X是类别变量,那么直接分组;如果X是连续变量,那么按照分位数等分成low, midium, high三组(binning approach)。 - 第二步,在散点图上用蓝色线进行线性回归拟合,用红色线进行LOESS拟合。
如果真实模型是线性的,那么两条线非常接近;反之,当真实模型是非线性的,两条线走势有明显差异。这是对错误1的检验。
此外,对比同一条拟合线在不同分组中的走势,还可以对交互项的作用方向做出初步判断。 - 第三步,在散点图上叠加X分布的box plot。散点图本身也提供了X分布的信息。
如果X在数据区间内都有分布而且比较均匀,比如25分位点到75分位点几乎占据整个区域,那么满足共同支持条件;反之,X集中在某个区间,在另外的区域数据很少或没有,则不满足共同支持条件。
如果交互作用是双向的(一般模型均如此),那么要把D与X互换再做一遍。也可以用generalized additive model (GAM)做三维的surface plot。
介绍完毕。分以下情形进行图示:
(1) linear marginal effect with a dichotomous treatment,
(2) linear marginal effect with a continuous treatment, and
(3) nonlinear marginal effect with adichotomous treatment.
4 估计量
光看图还是不够,数字到底比较可靠。于是,作者提供了两种估计量:Binning Estimator 和 Kernel Estimator,并且提供了将其可视化的程序 interflex
[天地良心]。
这里的 bias-variance trade-off 在于,一方面,这些估计量减少了缺乏共同支持造成的偏差;另一方面,如果交互项的影响确实是线性的,那么线性模型的结果比这些估计量更有效。
Binning Estimator
按照连续变量的分组方法进行估计,得到三个边际效应估计系数和置信区间。如图所示,
- 如果
(1)线性回归线与L,M,H大致重叠(至少在置信区间内)
(2)L,M,H在整个数据区间内分布比较均匀,不是集中在某个区域
那么请放心使用线性模型。 - 如果L,M,H错落有致,那么恭喜你喜提非线性模型,请参考作者提供的估计量。
Kernel Estimator
Binning Estimator是三个点,Kernel Estimator则呈现了数据区间内的完整曲线。
- 如果Kernel Estimator结果接近一条直线,则满足LIE假设;如果弯曲程度很大,那么LIE假设不满足,线性模型结果不一致。
- 置信区间越宽的区域,越缺乏共同支持。
5 数据
作者针对几本顶刊上的许多文章进行了验证(检验方法见下),结果一塌糊涂,只有4篇文章完全通过检验。
6 结果
作者报告了结果的4种典型情形,也是图示边际效应的应用实例:完美的线性边际效应[优秀]、由于情况1数据分布不均的缺乏共同支持、由于情况2的过度外推,以及非线性。[到了这里依然看不懂`interflex`结果图的可以参考原文此部分]
如何识别后三种情形?依次进行以下检验:
(1) H0:no statistically different treatment effects at typical low and typical high levels of the moderator——t test
whether the binning estimator at the median value in the low tercile of the moderator was statistically different from the effect estimate at the median of the high tercile of the moderator (p < .05, two-tailed)
即检验binning estimator的L与H是否具有显著性差异,拒绝原假设说明交互作用显著
(2) H0:no severe extrapolation——L-Kurtosis
whether the L-Kurtosis of the moderator exceeds a threshold that indicates severe extrapolation
(3) no nonlinear interaction effects——Wald test
H0:the interaction effect is indeed linear as claimed in the original study
在 interflex
的结果中,程序报告了Wald检验的p值。拒绝原假设说明存在非线性影响,但接受原假设不一定就满足LIE假设,尤其是在小样本的情况下。
结论
好啦,文章的主要内容就是针对线性交互模型中存在的LIE
和common support
两个主要问题,分析问题的由来(模型设定错误和数据不足)及可能的影响(估计量不一致且有偏或高度依赖模型),提出了问题的识别方法(LID plot)以及更普遍适用的估计量(Binning和Kernel),并且把新方法用于已有文章进行检验。
最后,作者建议分析交互作用的研究者采取以下安全措施:
- 画LID图以检查原始数据。X|D和D|X最好都画哦。
- 参考Binning估计量。
- 参考Kernel估计量。
- 谨慎使用线性交互模型。得到Binning或Kernel估计量支持才使用线性模型,并且应当在有充分的共同支持的数据区域计算边际效应。建立线性模型后还要再参考Brambor, Clark and Golder (2006)一文的使用指导。
彩蛋
论文作者的interflex使用指南
另外一种交互作用的图示方法
学习愉快~晚安!