2019-12-13

张静瑶(浙江海洋大学),E-mail 1132358871@qq.com


加入控制变量后我的变量符号变了


1 背景

1.1 问题的引入

两小儿辩车

  • 王小儿:我发现车越长越贵,比如,奥迪 A6L 就比 A4L 贵多;
  • 李小儿:那也未必,奥迪 R8 只有 4 米 4,但可以买两辆 A6L了。 还有,我二爸开的那个公交车,12 米,才 30 万!

在大家做实证分析的最初阶段,经常会有一个困扰:原本主效应很符合预期目标,但加入了一个或几个控制变量后,主效应要么符号变了,要么不显著了。可是,关键控制变量不加入的话,审稿人必然会提出质疑。这是怎么回事了?
要回答这个问题,让我们先从条件期望说起。

1.2 什么是条件期望

1.2.1 举例说明

春节临近,如何应对亲戚的“问候杀”,是一个亟待解决的现实问题。试想,举国欢庆的日子,大家齐坐一堂,面对读硕读博归家的你,七大姑问到:“大闺女,老大不小了,该干点正事谈个对象什么的呢,读那么多书干嘛呀”,你咽了咽口水“读书好啊,以后可以多挣钱孝敬您老人家”,话音未落,八大姑道:“哎呀瞎说,你看隔壁二狗子,高中没读完去做生意,现在赚老多钱了”….气氛顿时尴尬了,除了咽口水外,该怎么“杠”回去…

那就要了解条件期望的概念了:条件期望函数记为 E(Y_i|X_i),是关于 X_i 的函数,考虑到 X_i 是随机的,所以条件期望函数也是随机的。比如给定 X 为受教育水平的一个定值,如 X=12,那么 E(Y_i|X_i=12) 就是表示所有读 12 年书的个体,其收入水平的期望值。

1.2.2 用图说明

图片1

图中,横轴表示受教育水平,纵轴则为收入,在每一个给定的受教育水平下(如:受教育年限 12 年),收入服从一个近似正态的随机分布。可以看到,由于存在着无法忽视的个体差异,使得某些低教育者的收入要高于某些高教育者的收入,但通常而言,教育水平高的人赚的更多。

看到这里,学习过初级计量经济学的同学肯定会想到,对,是“个人能力”的影响,是“个人能力”让二狗子和大闺女产生了收入的差异。确实如此,那么“个人能力”便是一个需要控制的重要变量。

2 Stata 实操

2.1 回到原例

2.1.1 加入控制变量和不加控制变量的回归分析结果做对比

让我们回到“小儿辩车”的引子。调入官方自带的汽车数据,研究汽车长度 length 对汽车价格 price 的影响。在多元回归中,加入的控制变量分别为里程数 mpg 和汽车重量 weight

. sysuse "auto.dta", clear
. cap eststo clear
. eststo: reg price length
. eststo: reg price length mpg weight
. esttab, nogap 
. reganat price length mpg weight, dis(length) ///
.              biscat biline scheme(s2color)  

2.1.2 回归结果

--------------------------------------------
                      (1)             (2)   
                    price           price   
--------------------------------------------
length              57.20***       -104.9** 
                   (4.06)         (-2.64)   
mpg                                -86.79   
                                  (-1.03)   
weight                              4.365***
                                   (3.74)   
_cons             -4584.9*        14542.4** 
                  (-1.72)          (2.47)   
--------------------------------------------
N                      74              74   
--------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01

对比 length 的系数可见,在一元回归时该系数显著为正(57.2),而加入控制变量后,系数为负(-104.9)并在 10% 的水平下显著。

2.1.3 利用 reganat 命令对多元回归模型进行图解检验。

图片2

虚线拟合线表示了不加入控制变量时 length 的影响,而实线是加入控制变量之后的。由之初的右上倾斜变为右下倾斜,这是一个本质性地改变。

2.2.1 原因分析

事实上,在多元回归 Y_i=\alpha+\beta_1x_i+\beta_2x_2+e_i 中,系数\beta_1 更准确的应该被称为偏回归系数,表示在剔除掉 x_2 的“贡献”后,x_1y 的影响。若 x_1x_2 并不独立,那么错误的使用一元回归 Y_i=\alpha+\beta_1x_i+e_i,系数 \beta_1 中就包含了 x_2 的一部分“贡献”。

2.2.2 通过实例演示

先进行正常的多元回归,加入主效应变量 length 和控制变量 mpg weight

  • sysuse auto.dta, clear
  • reg price length mpg weight
  • est store m1

接着,我们利用解构回归(regression anatomy)来“解读”正常的多元回归:1.先用 length 对控制变量 mpg weight 进行回归,然后可以得到一个残差项。2. 再用被解释变量对上一步的残差项进行回归。

. reg length mpg weight
. predict e, res
. reg price e
. est store m2
. esttab m1 m2 , nogap.  

2.2.3 估计结果

--------------------------------------------
                      (1)             (2)   
                    price           price   
--------------------------------------------
length         -104.9***       
                 (-2.64)        
mpg             -86.79                 
                  (-1.03)   
weight           4.365***
                  (3.74)   
e                                        -104.9*
                                        (-2.22)  
_cons           14542.4*          6165.3***
                    (2.47)            (18.46)   
--------------------------------------------
N                      74              74   
--------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01

可以看到,最后得到的主效应估计结果一致,均为 -104.9 。在用 length 对控制变量 mpg weight 回归后得到的残差项,表示 length 剔除了其他解释变量对自己的影响的“结果”,将其再与被解释变量的回归就是一个“净”的效应。

3 结语

可见,加入控制变量后,我们关心的估计系数是否会产生变化,取决于与控制变量之间的独立性。

我们列出将会出现的四种情形

  • 与控制变量之间完全独立,则加入控制变量对估计系数无影响(情形 1)
图片3
  • 与控制变量之间高度相关,则加入控制变量与的估计系数都不显著(情形 2)
图片4
  • 与控制变量之间相关,且完全通过控制变量的“途径”来影响被解释变量,则估计系数不显著(情形 3)
图片5
  • 与控制变量之间相关,则加入控制变量后,主要解释变量的估计系数会出现大小和符号变化。具体变化取决于与控制变量间的正负相关性。(情形4)
图片6
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容

  • 来源: http://www.douban.com/group/topic/14820131/ 调整变量格式: f...
    MC1229阅读 6,907评论 0 5
  • 张静瑶(浙江海洋大学),1132358871@qq.com 加入控制变量后我的变量符号变了 1 背景 1.1 问题...
    张静瑶a阅读 1,201评论 0 0
  • 1.管理内存 js的内存分配 在编写JavaScript程序时,开发人员不再关心内存使用问题,所需内存的分配以及无...
    lena_b870阅读 103评论 0 0
  • get:点击网址,超链接,method后面写get,查询最大255字符,是以明文形式进行传输的,传输不了中文(传中...
    刘昌林11阅读 214评论 0 0
  • 本来想写反人性的。 算了,太过于核心,以后再写吧! 有点小气,也可能是自我的小气,可能也没什么好重要的。 但在我看...
    22岁的天才阿坤阅读 104评论 0 1