第10章 面板数据回归

        本章介绍了控制某些实际上没有观测到的遗漏变量的方法。这种方法需要一种称为“面板数据”的特殊数据类型,其由每个观测单位或实体在两个或多个时期中观测得到,并通过研究因变量随时间的变化就可以消除个体间不同但时间上保持不变的遗漏变量效应。


一、面板数据

        面板数据(panel data,也称纵向数据,longitudinal data),是指n个不同个体在T个不同时期上的观测数据。

        如果数据集包含了变量XY的观测,则该数据可以表示为:(X_n,Y_n),\quad i=1,2,...,n,\quad t=1,2,...,T,其中第一个下标i表示观测个体,第二个下标t表示观测时间。


        一些其他面板数据的术语描述的是观测值是否有缺失。

        其中,平衡面板(balanced panel)指所有的观测值,即变量在每个个体和每一时期中都能被观测到。如果至少有一个个体在至少一个时期中的数据没有被观测到,则称为非平衡面板(unbalanced panel)。


二、具有两个时期的面板数据:“前后”比较

        当得到每个州T=2个时期上的数据后,我们就可以比较第一个时期和第二个时期的因变量取值,这种“前后”比较通过集中关注因变量的变化而实际上固定了随个体变化但不随时间变化的不可观测因素。

        当数据是在两个不同年份里观测得到的时候,这种“前后”分析很有效;但当T>2时不能直接应用这种“前后”比较方法。为了分析该面板数据集中的所有观测值,我们使用固定效应回归方法。


三、固定效应回归

        固定效应回归是一种控制面板数据中随个体变化但不随时间变化的遗漏变量的方法。不同于10.2节中的“前后”比较方法,固定效应回归适用于每个个体存在多个观测值的情形。

        固定效应模型有n个不同的截距,其中一个截距对应一个个体。我们可以用一系列二元指示变量来表示这些截距。它们包含了所有在个体间不同但不随时间变化的遗漏变量的影响。


        固定效应回归模型:Y_{it}=\beta_0+\beta_1X_{it}+\beta_2Z_i+u_{it}

    其中,因变量为Y_{it},可观测回归变量为X_{it},随个体变化但不随时间变化的不可观测回归变量为Z_i

        由于Z_i随个体变化但不随时间变化,因此模型可以解释为含有n个截距,其中一个截距对应一个个体。具体地,令\alpha_i=\beta_0+\beta_2Z_i,则有:Y_{it}=\alpha_i+\beta_1X_{it}+u_{it}

    其中,\alpha_1,\alpha_2,...,\alpha_n称为个体固定效应(entity fixed effects)


        估计和推断:

        原则上可由OLS估计固定效应回归模型的二元变量形式,但这个回归有k+n个回归变量,所以实际应用中这个OLS回归是冗长乏味的。

        计量经济学软件中包含特定的固定效应回归模型OLS估计程序。

    1.“个体中心化”OLS算法

        第一步,每个变量减去特定个体的平均值;

        第二步,利用“个体中心化”变量估计回归。

    2.”前后“回归 v.s. 固定效应估计

        T=2时,三种估计方法是等价的

    3.抽样分布、标准误差和统计推断

        在截面数据多元回归中,如果四个最小二乘假设成立,则OLS估计量的抽样分布在大样本下为正态分布,其中抽样分布的方差可由数据估计得到,且该方差估计量的平方根(标准误)可用于检验采用t统计量的假设及用于构造置信区间。


四、时间固定效应回归

        和个体固定效应能控制不随时间变化但随个体间不同的变量一样,时间固定效应能控制个体间相同但随时间变化的变量

        时间固定效应回归模型:Y_{it}=\beta_0+\beta_1X_{it}+\beta_2Z_i+\beta_3S_t+u_{it}

    其中S_t不可观测,随时间变化但不随个体变化


        我们暂时假设Z_i不出现

        一元回归变量X的时间固定效应回归模型:Y_{it}=\beta_1X_{it}+\lambda_t+u_{it}

    其中,\lambda_1,\lambda_2,...,\lambda_T称为时间固定效应(time fixed effects)


        联合个体与时间固定效应回归模型:Y_{it}=\beta_1X_{it}+\alpha_i+\lambda_t+u_{it}

    其中,\alpha_i位个体固定效应,\lambda_t为时间固定效应


五、固定效应回归假设和固定效应回归的标准误差

        固定效应回归假设

        个体固定效应的面板数据回归模型有五个假设,用一个可观测回归变量表述的五个假设为:

    ①\mathbb{E}(u_{it}|X_{i1},X_{i2},...,X_{iT},\alpha_i)=0

    ②(X_{i1},X_{i2},...,X_{iT},u_{i1},u_{i2},...,u_{iT}),\quad i=1,2,...,n是从联合总体中抽取的i.i.d样本

    ③大异常值不太可能出现,即(X_{it},u_{it})具有非零有限四阶矩

    ④不存在完全多重共线性

    ⑤给定回归变量条件下个体的误差项在时间上不相关,即对t\ne scov(u_{it},u_{is}|X_{i1},X_{i2},...,X_{iT},\alpha_i)=0


        第五个假设为给定回归变量条件下,固定效应模型中的误差u_{it}在时间上不相关。这个假设是新的,是不含时间尺度的截面数据没有的。理解这个假设的一种方法是牢记u_{it}是由决定Y_{it}但没有作为回归变量的随时间变化的因素组成的

        在某些应用中第五个假设不成立。若对t\ne s,有u_{it}u_{is}相关,即给定个体下u_{it}在时间上相关,则称u_{it}为自相关(autocorrelated)或序列相关(serially correlated)

        当u_{it}具有潜在异方差且在给定个体的不同时间上潜在相关时,正确的标准误差称为异方差和自相关一致标准误(heteroskedasticity and autocorrelation consistent standard errors,HAC)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。