Conformal Prediction for Network-Assisted Regression
尽管网络关联数据的预测具有重要的实际意义,但直到最近才开始在统计学中受到关注:例如,Hsieh和Lee [31], Zhu等[70]和Su等[60]都考虑协变量包含邻域效应的模型。Li等人[46]开发了适合使用内聚惩罚的预测模型,该模型可以在网络邻域上平滑地执行不同的预测。Le和Li[37]将内聚惩罚方法推广到包括截距向量位于低秩矩阵的跨度的情况。在经济学中,Manski[50]、Lee[38]、Bramoull ' e等[9]考虑了一些基于邻域统计量作为协变量的方法。
在机器学习中,深度神经网络已被用于图结构数据。早期的研究包括Gori等[22]和Scarselli等[56],Goyal和Ferrara[23]对其进行了全面的综述。网络深度学习的一种常见方法包括计算节点的低维嵌入,或者换句话说,拟合潜在变量模型,然后使用潜在变量作为特征。
一些流行的嵌入方法使用随机漫步对节点的邻域进行采样,如node2vec[25]和DeepWalk[53]。基于深度自编码器的方法产生嵌入,其中“相似”节点在嵌入空间中非常接近,如[66,11]。我们将重点关注由统计模型驱动的嵌入,但深度学习文献中使用的许多其他嵌入满足无条件有效性所需的温和规则条件;详情请参见4.1节。
【31】Hsieh, C.-S. and Lee, L. F. (2016). A social interactions model with endogenous
friendship formation and selectivity. Journal of Applied Econometrics, 31(2):301-319.
【70】Zhu, X., Pan, R., Li, G., Liu, Y., and Wang, H. (2017). Network vector autoregression. The Annals of Statistics, 45(3):1096 -1123.
A social interactions model with endogenous friendship formation and selectivity
在有关社会互动的经济学文献中,研究人员在实证应用中严重依赖于主力模型——线性均值模型。然而,Manski(1993)指出,这种线性社会互动模型存在反射问题,这使得研究者无法区分内生同伴效应和情境效应。最近引入的空间自回归(SAR)模型(Lee, 2007, 2010;Bramoulle et al ., 2009;Lin, 2010)将社会互动纳入研究,有助于解决反思问题。SAR模型使用空间权重矩阵(邻接矩阵;社会矩阵)代表个人之间的友谊网络。由于个体的朋友可能不会完全重叠,因此SAR模型会产生必要的非线性来估计模型中的内生同伴效应。SAR模型的实证应用现在包括同伴影响对学生学业成绩、体育和俱乐部活动以及不良行为的研究(Hauser et al., 2009;Calvo-Armengol et al ., 2009;Bramoulle et al ., 2009;Lin, 2010;Lee et al., 2010;Liu et al., 2014;Boucher et al., 2014;Patacchini and Zenou, 2012;Goldsmith-Pinkham and Imbens, 2013)。在社会互动研究中使用SAR模型时,研究者关注友谊形成的内生性如何影响互动效应的估计(Patacchini and Zenou, 2012;Goldsmith-Pinkham and Imbens, 2013)。如果存在影响友谊决策和经济结果的因素,但在SAR模型中没有适当指定,则空间权重矩阵的元素将与SAR模型的干扰项相关。因此,SAR模型的标准估计方法,如两阶段最小二乘(2SLS)方法和广义矩量法(GMM),通过将空间权重矩阵视为外生给定来构建工具变量或矩条件,以及最大似然(ML)方法,可能会对同伴效应和社会乘数提供有偏差的估计。这个问题的一个直观的解决方案是为空间权重矩阵找到一个工具变量(IV)。然而,如果不了解友谊纽带形成背后的机制,可能很难找到有效的工具。
本文的目标是纠正 SAR 模型中由内生空间权重矩阵导致的估计同伴效应的偏差。我们提出了一种参数化建模方法来纠正这种内生性问题,而不是寻找 IVs。在这种建模方法中,空间权重矩阵的条目被视为内生选择变量,并通过网络形成过程进行建模。
为了反映影响友谊决策和经济结果的不受控制因素的想法,我们在网络模型和 SAR 模型中指定了一些未观察到的变量。通过仿真,我们表明可以使用贝叶斯估计方法从该系统中估计出正确的同伴效应。Goldsmith-Pinkham 和 Imbens(2013 年)(以下简称 GPI)的一项独立研究使用了类似的方法,将不可观察量纳入网络形成和社交互动模型中。他们的方法在建模和结果方面与我们的不同。首先,GPI 中考虑的友谊链接是无向的,因此是互惠的。在本文中,我们建立了定向友谊链接模型,该链接与添加健康数据的实证应用更紧密地联系在一起,其中学生在没有达成共识的情况下单独命名他们的朋友。其次,为了捕获选择性,GPI 使用单个二进制不可观测值,而我们允许多维连续不可观测值。尽管对二元或连续不可观察量有不同的解释,但我们发现允许多维不可观察量很重要,因为单个不可观察量可能不一定捕获影响友谊选择和经济结果的关键因素。 GPI 没有发现任何友谊选择偏差的经验证据。
然而,在我们的实证结果中,当控制了足够的不可观察量维度时,内生同伴效应的选择偏差就会被揭示并纠正。利用估计的内生同伴效应的变化作为偏差校正的证据,我们进一步研究了我们系统下经济结果如何随着解释变量的变化而变化。遵循 LeSage 和 Pace (2009),我们将一些解释变量的总效应分解为直接效应和间接效应。
我们发现对直接效应的偏差修正的方向并不统一。有些直接效应的幅度要大得多,而有些则较小,尽管校正后发现内生效应较小。因此,一些政策影响可能会有所不同。
本文的其余部分安排如下。第 2 节介绍了网络形成的模型规范,并扩展了 SAR 模型以捕获基于未观察到的特征的可能的友谊选择。第 3 节讨论了所提出模型的贝叶斯估计方法。第 4 节包含模拟研究,以研究我们的贝叶斯马尔可夫链蒙特卡罗 (MCMC) 估计方法的采样特性。第 5 节包括使用 Add Health 数据对学生学业成绩进行的实证研究,第 6 节对本文进行总结。