断点回归

大家都知道湖北和湖南是由于分别在洞庭湖北边和南边而得名。我的家乡是湖北省会城市——英雄城市武汉市,2019年人均收入11.55万(2020年人均GDP由于疫情大幅下滑)。如果我从武汉市开车南下,来到温泉圣地——湖北咸宁市,你可能发现人均GDP下降了,例如,下降到湖北2020年人均GDP的7.4万元,如果我继续开车南下,来到洞庭湖边,发现人均收入还在下降。当我跨过洞庭湖进入湖南省,发现收入下降了15%(湖南2020年年的人均GDP为6.3万元)。但是我仅仅只是打开车门,跑到湖南去买了一杯“茶颜悦色”,年收入少了1.1万元左右。

这是怎么回事?肯定不是因为买了一杯“茶颜悦色”而导致了收入的大幅下降,那是因为什么呢?湖北和湖南最明显的差别肯定就是省界线。省界线明确区分了湖北和湖南。但是,我们可以肯定的是,两湖地区人均收入的下降,肯定不仅仅只是因为边界线的距离。有一点还是可以想象得到,如果没有省界线,湖北湖南人的收入可能还是有差异,但差异非常有可能缩小,因此,边界线的划分可能对两湖地区的人均收入贡献较大。这就是断点回归的思想:比较边界线(断点)两侧的人均收入(结果变量),如果没有边界,人均收入可能非常接近。

自然界真的很神奇,非常的平滑:我从武汉回深圳,要么火车飞机4-5个小时,要么开车11个小时,我多么想“咻”得一下,瞬间传送到深圳,但是这是不可能,空间距离1200公里不多不少;参天大树总要经历播种、发芽、成长等一天天的成长过程,我们不能“拔苗助长”;财富积累也需要一步一步辛勤地劳动,暴发户是很少的;宇宙也非常的平滑,从地球到月球,到火星,都需要经历漫长的时间,除非遇到“黑洞”。因此,“罗马不是一天建成的”,精通计量,做出好的研究也是一样,需要持续数年,甚至数十载的静心积累与思考。

如果我们看到一个事物或现象出现“跳跃”、“尖峰”,或者其它奇怪的特征时,我们首先要质疑它们很可能不是自然的发展,而是人为的。那么,有趣的问题出现了,如果这些事物/现象仍然按照自然的方式发展(反事实),两者会有什么差异呢?这就是在探索人为干预的效应,这种人为导致的“跳跃”也是断点回归设计的核心内容。

下面,我们来看一个例子——酒精会害人吗?

我国法律法规并没有明确规定饮酒的最低年龄,只是明确禁止向未成年人销售酒精类饮品,例如酒。但是,过年的时候,家里的一些人为了逗孩子,会用筷子稍微蘸点白酒给婴幼儿常常,然后看到小孩子们辣得抽搐的表情,全家都乐呵呵的,这是为了活跃气氛,尚可。我自己不喝酒,但仍记得一句广告语:“某酒虽好,可不要贪杯哟!”

根据世卫组织统计,全球人们首次饮酒的年龄为12岁,大约有80%的粘人会在15岁前就开始定期饮用酒精类饮料。因为年轻人“很容易贪杯”,所以很多国家和地区都明确规定了最低饮酒年龄,例如,美国法定最低饮酒年龄21岁,巴西为18岁。那么,美国是否过于谨慎,应该降低法定最低饮酒年龄?还是其他国家应该提高法定最低饮酒年龄?如何判断这个问题,标准就是饮酒的社会影响是什么?有大多?Carpenter and Dobkin(2009)就从死亡率的角度研究了酒精类消费对死亡率的影响,也可以参见Carpenter and Dobkin(2011)对该问题的回顾。

从公共福利的角度来看,我们要秉持以人为本,希望尽可能地降低死亡率,而饮酒有可能会提高死亡率,所以就要限制酒精类产品的消费,最低饮酒年龄的法律法规就是这类政策措施。那么,法定最低饮酒年龄的规定对死亡率有什么影响呢?

但从饮酒这个事来说,任何年龄都可以尝试一下,例如,过年逗孩子。但法定最低饮酒年龄可能就让饮酒这件事在不同年龄间发生了某种“跳跃”。还记得吗?“跳跃”可能并不是自然形成的现象,很有可能是人为的。美国规定21岁才可以饮酒,所以21岁前不能公开饮酒,21岁后,饮酒的概率就大增了。这个时候,我们就可以使用断点回归来识别法定最低饮酒年龄对死亡率的效应。我们使用Matheus Facure Alves(2022)提供的饮酒数据,其中包括平均年龄(agecell)、所有原因造成的死亡率(all)、交通事故造成的死亡率(mva)、自杀的死亡率(suicide)。我们首先来看看,不同年龄段的死亡率:

//加载数据
use "/Users/xuwenli/Library/CloudStorage/OneDrive-个人/DSGE建模及软件编程/教学大纲与讲稿/应用计量经济学讲稿/应用计量经济学讲稿与code/RD/drinking.dta",replace


//作散点图,观测跳跃
* 所有的死亡率
twoway scatter all agecell, xline(21,lp(dash)) saving(all)

* 交通死亡率
twoway scatter mva agecell, xline(21,lp(dash)) saving(mva)

* 自杀死亡率
twoway scatter suicide agecell,xline(21,lp(dash)) saving(suicide)

graph combine all.gph mva.gph suicide.gph,col(1)

图1 不同年龄段的死亡率:总死亡率、交通事故死亡率和自杀死亡率

从图1可以明显看出,只要超过法定饮酒年龄21岁,所有原因导致的死亡率都“跳跃”般地上升了。这给了我们初步的、直观的经验证据。但对于评估最低饮酒年龄限制对死亡率的效应,这些证据还不够。

年龄是连续变化的,但是死亡率在21岁处跳跃,所以肯定有什么东西存在根本性的差异。
可以肯定的是,我们观察到的差异不仅仅只有年龄差异,还有就是21岁上下对饮酒的限制。这个就是断点回归背后的逻辑:仅仅比较断点两边的死亡率,如果没有这个21岁的断点,21岁上下的人可能具有基本类似的特征,如果死亡率存在差异,我们就可以认为是最低饮酒年龄政策引起的差异。因此,断点回归关注的是,断点处发生的处理/政策,在断点的一边,没有处理发生,而另一边有处理发生。

断点回归有几个核心的概念:

  • 驱动变量(Running/forcing variable):决定是否接受处理的变量,例如,你的绩点在4.8以上,就可以保研,那么,绩点就是一个驱动变量。
  • 断点(Cutoff):决定是否接受处理的驱动变量的阈值,例如,保研的断点就是4.8,在4.8以上就可以保研,4.8以下就没有保研资格;
  • 带宽(Bandwidth):断点两边一定范围内的人基本类似,这个范围就是带宽,在这个范围以外的人可能就存在一定差异,例如,4.6、4.7绩点和4.8、4.9绩点的学生在综合素质方面可能差不多,而4绩点的学生可能成绩就差得较多。另一个例子就是比较洞庭湖两侧的人均收入,如果我们再开车往南走,可能就到了广东边,广东是全国最富裕的省份之一,所以这个时候距离洞庭湖太远了,也没有可比性,因为广东太富有了,所以我们将比较的对象限定在洞庭湖两边各100公里范围,来比较这个范围内的人均收入,这个100公里就是带宽。

因此,可以将断点看做是一个局部随机试验,得到局部平均处理效应LATE。所以断点研究设计关注:(1)驱动变量如何影响结果;(2)在带宽内,断点附近的观测值;(3)比较接受处理和未接受处理的结果,得到处理差异。

断点回归对数据的要求:第一,要求处理配置规则是已知的,明确的——平滑性假设:虽然,我们感兴趣的是处理变量对结果的效应,但实际上,我们估计的是断点的效应,然后,把这个效应(模糊断点下,部分)归于处理,因此,如果断点处还有其它东西变化,那么,就会很麻烦;第二,在一定带宽内,驱动变量在断点两侧是随机配置的,不被操纵,例如,期末考试的时候,总有一些学生找老师打分,如果“跑步分高”,那保研对学生未来的影响效应就识别不出来了;第三,设置断点值的人,不能根据接受处理的人来做出调整和响应;第四,大样本量是RDD的特征,因为要挑选一定范围内的样本来比较,因此,严重限制了样本量,会使得估计不精确,如果引入更多的数据,又会带来误差。实践中,可以在做断点回归前,先做做power分析来看看是否有足够的观测值来精确估计因果效应。

图2 清晰断点回归的因果图

断点回归为什么好?从图2中就可以明显看出来,我们感兴趣的是,处理---结果的效应,但是驱动变量、控制变量都可能混淆处理效应,从而识别不干净,但是,理论上来讲,断点回归可以控制住“驱动变量”,从而关闭所有混淆因子路径,进而干净地识别处理效应。

那么,断点回归具体怎么做呢?且听下回分解!

未完待续。。。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容