虚拟变量是计量经济学研究中常用的用来反映定性因素变化的变量,例如季节变动、政策变动、宏观环境变化等等。之前对此有简单的了解,认为是非常简单直观的一种变量设定。直到最近写的论文中模型部分用到了虚拟变量,深入了解才发现问题多多。在充分搞清楚了“虚拟变量陷阱”之后,来适时地做一下总结,也算是温故知新。
虚拟变量的作用简单来说就是“数据分类器”,利用变量和变量的线性组合表示某一种特定的状态。
最容易让人感到比较难理解的就是“虚拟变量陷阱”了。首先是定义:如果模型中每个定性因素有m个相互排斥的类型, 且模型有截距项,则模型中只能引入m-1个虚拟变量, 否则会出现完全多重共线性,称为虚拟变量陷阱(dummy variable regression)。
理解这个问题可以从两个角度出发:
1.理性角度:重点放在为什么会出现“多重共线性上”,利用线性代数的知识就很容易理解。贴上人大经济论坛上一位网友的回答:
2.感性角度:通常直观上理解最好的方式就是举个栗子。譬如,我想知道某一天某购物网站的访问量的变化是否跟这一天是周几有关,以及有怎样的关系。一周有7天,想研究变化肯定需要先设定一个基准。所以我们需要抽出7天中的一天来作为这个基准,以便其他6天能跟这一天进行比较。可以设定虚拟变量为D2,D3,...,D7,当值为1时分别表示这天是周二,周三,...,周日,而都为0时即表示这天是周一。回归方程中虚拟变量前的系数也即是各自与基准类别比较的结果,即虚拟变量的系数的解释与其基准类有关。如果给周一也设定一个虚拟变量D1,那么等于将其和其他六天放在了同一个标准上,无法进行比较,而且当值为0时也没有任何意义,也无从得出虚拟变量的系数。
还有一个要注意的点:若模型包含多个定性变量,且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量的自由度,故应权衡进入模型中虚拟变量的个数以免超过样本观察值的个数。不过虚拟变量个数超过样本观测个数这种情况应该不太容易出现吧。。。0.0
暂时总结这么多,后续有继续学习的地方再补充~