期末了...所以比较忙,贴篇10月份的读书笔记
因果推断的关键是控制住干扰因果关系的可观察因素。如果该因素是观察不到的,那可以尝试使用前面的工具变量法。但是良好的工具变量一般不易找到,因此需要一些其他手段来处理这些不可观察的干扰因素:如个体固定效应、双重差分。
例如我们研究收入和教育间的关系:
教育年限会影响收入y,但是观察不到的因素u(个人能力等)也会通过教育年限影响收入y。此时我们估计出的参数β1就不准确(测度教育对收入的影响)。之所以不能准确估计出参数,原因主要是我们的信息不足,我们无法找到一个完全代表教育的信息来测量教育对收入的影响。
在横截面数据结构下,我们会选择工具变量更加准确地估计β1。在本例中我们可以引入母亲的教育年限来作为工具变量(根据已有的研究知道,母亲的教育年限会影响孩子的教育年限,但是母亲的教育年限不会影响到孩子个人的能力)。此时引入母亲教育年限这一个新信息会使使得信息更充分。
在面板数据中,我们引入固定效应的概念。个体固定效应指考虑个体在未受到干预时表现出的趋势特征,然后在处理组和控制组将这种趋势特征控制,最后比较两者的水平差异。
固定效应是针对面板数据的处理手段。面板数据和横截面数据的区别在于面板多了一个时间维度,即一个人处理能横向地和同时间的其他人比较,也可以纵向的很之前之后的自己比较。如果把一个人在不同时间的数据称为一组数据的话。那么前者称为组间差异、后者称为组内差异。此时,如果要估计出准确的参数,组间和组内的差异都要考虑到,不然这些扰动因素就会干扰到对参数的估计。
在本例中,因为多了时间维度的数据,我们对研究对象的信息掌握的更加充分了,在估计时不再需要借助该人以外的其他信息了。
固定效应的办法即给每个人单独创造出一个名义变量(0-1变量),这个名义变量可以看做是承载此人所有不随时间变化的特质的集合。当把这个名义变量代入回归方程进行回归时,相当于吸走了每个人不随时间变化的特质组间差异,只留下了组内差异。
上面我们研究的是个体固定效应模型,即解决了不随时间而变但随个体而异的遗漏变量问题。但还可能存在不随个体而变,但随时间而变的遗漏变量问题,此时需要引入时间固定效应模型。同样地我们以研究收入和教育的关系,考虑不同时间上有不同的教育政策影响人们受教育程度,为了简便不考虑个体层面的固定效应,即假设每个人能力上几乎没有差异。
以上我们讨论了单独的个体固定效应和单独的时间固定效应,即“单向固定效应”。如果同时考虑个体和时间固定效应,称为”双向固定效应“。此时我们可以通过检验这些虚拟变量的联合显著性来判断是否应该使用双向固定效应模型。
参考资料:
- 《基本无害的计量经济学》
- 固定效应模型与随机效应模型的区别
- 面板数据