一个疑惑:解释变量中类别变量的处理

我们知道,当分类自变量的类别大于两个的时候,需要建立一组虚拟变量(哑变量)来代表变量的归属性质。一般虚拟变量的数目比分类变量的数目少一个,少掉的那个就作为参照类(reference category),参照类的选取是随意的。

问题来了:为什么要这么做呢?如果把这个类别变量(尤其是有序变量)当做连续变量处理,有什么不对的地方吗?

举个栗子:教育变量在回归中作为控制变量。按教育程度由低到高依次记为 1~6,回归中把教育作为一个连续变量 edu 和作为 6 个哑变量 edu1~edu6 处理有何不同?

从系数含义来讲,作为连续变量的 edu, 其系数代表每提升一个教育程度对因变量的影响。由于结果中只有一个系数,其潜在假设是 edu1 和 edu2 对因变量影响的差异 = edu2 和 edu3 对因变量影响的差异 = edu3 和 edu4 对因变量影响的差异 = ……。现实中满足这种假设的情形极为少见。

若作为哑变量处理,参照类的系数为 0,其余哑变量的系数代表与参照类相比对因变量的影响多多少(高出的截距)。它允许各类之间的影响存在差异,可以刻画的情形更多,适用范围更广。

高级计量经济学(陈强著 第2版).png

从模型上看,作为连续变量处理的模型为
y = \alpha +\beta _{1} X_{1}+ \beta _{2} edu+\epsilon
作为虚拟变量处理的模型为
y = \alpha +\gamma_{i} edu_{i} + \beta _{1} X_{1} +\epsilon
引入虚拟变量的本质是对不同类别的子样本使用不同的截距项(引入虚拟变量的交乘项则是使用不同斜率)。该式子等价于
y = \left\{ \begin{array}{**lr**} \alpha + \beta _{1} X_{1} +\epsilon, & edu_{1}=1 & \\ \alpha +\gamma_{2} + \beta _{1} X_{1} +\epsilon, & edu_{2}=1\\ \alpha +\gamma_{3} + \beta _{1} X_{1} +\epsilon, & edu_{3}=1\\ \alpha +\gamma_{4} + \beta _{1} X_{1} +\epsilon, & edu_{4}=1\\ \alpha +\gamma_{5} + \beta _{1} X_{1} +\epsilon, & edu_{5}=1\\ \alpha +\gamma_{6} + \beta _{1} X_{1} +\epsilon, & edu_{6}=1\\ \end{array} \right.

回到问题上,在类别变量是有序的,且编码间隔为 1, 且已知相邻类别间对因变量的影响大致相等的情况下,作为连续变量处理的模型估计出来的系数 \beta_{2} 是不是无偏的?此时的 \beta_{2}\gamma_{i} 有什么关系?

(亲身实践表明,确实会有偏误,系数和 t 统计量都会偏大(负数的话绝对值更小)。在样本量较小、类别变量较多的情况下,比如用子样本回归,用连续变量处理会使不显著的会变为显著。另一个问题是:当模型中的哑变量太多,是否会降低系数的显著性?)

在通常情况下,虚拟变量往往用作控制变量。如果不关心 \beta_{2} 的系数准确性,这样的模型设定会不会影响核心解释变量的估计量 \beta_{1} 的准确性?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 2019-02-22,星期五,晴在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变...
    医博云天阅读 1,782评论 0 2
  • 数据预处理一方面提高数据的质量,另一方面是要让数据更好的适应特定的挖掘工具。统计发现,在数据挖掘过程中,数据预处理...
    熊定坤阅读 4,780评论 0 4
  • “数据科学竞赛到底比的是什么?”这个问题,问10个大神,大概会有9个人告诉你“特征工程+模型融合”。但是翻遍整个互...
    91160e77b9d6阅读 819评论 0 1
  • 以前觉得人要经常回忆, 因为回忆能让你不至于忘记自己从哪里来, 直到遇见一些人,经历一些事, 改变了回忆, 也改变...
    贱叔叔本尊阅读 346评论 0 0
  • 你,当你意识到你的存在时,无尽的虚空向你涌来。你是一个点,也许你是什么不可名状的东西的造物。 现在你开始创造,你听...
    珑少爷April阅读 66评论 0 1