稳健回归及其SAS实现

稳健回归:是一类方法的总称,主要是针对异常值的处理方法。该方法的主要目的是检测异常点,并在有异常点的情况下给出模型的稳健估计。

基本思想:是对不同数据点给予不同权重,残差小的给予较大的权重,残差大的给予较小权重,以减小异常值对模型的影响。

SAS中关于稳健回归的估计方法主要有:

  • M估计:由Huber1973年提出,是较早的一种处理异常点的方法,该法统计效率较高,但在异常点较多的时估计效果不佳。
  • LTS估计:由Rousseeuw1984年提出,可用于处理高杠杠值问题。
  • S估计:由Yashi1987年提出,该法具有比LTS估计更高的统计效率。
  • MM估计:由Yashi1987年提出,是对S估计的进一步发展,它将M估计与LTS估计/S估计结合起来,综合了上述估计方法的优点。目前MM估计应用越来越广,可能是应用得最多的一种稳健回归技术。

稳健回归的SAS程序主要通过proc robustreg过程实现:

proc robustreg <option(s)>;
     model 因变量=自变量 </option(s)>;
run;

proc robustreg options:
method = : 指定稳健估计方法,可选的有M、LTS、S、MM,默认为 mehod = M;
model options:
diagnostics:进行异常点检测
leverage:检测并列出杠杠点

SAS分析程序举例

首先采用线性回归对数据进行异常点诊断分析,然后采用稳健回归对数据进行分析,程序如下:

SAS分析程序.png

一般线性回归的结果可分为两部分。

第一部分为模型拟合结果,如下图,表明x对y的影响无统计学意义(t=-0.20, p=0.8433)

模型拟合结果.png

第二部分是观测的影响分析结果。如下图:

  • 学生化残差(student residual):反映了因变量的异常点;
  • 杠杆值(hat diag H):反映了自变量的异常点;
  • Cook's D值和DFFITS:综合反映了强影响点。
观测的影响分析结果.png

从结果分析看出:

  • 第1号观测的学生化残差绝对值远远大于其它观测,而杠杆值并不是非常高,提示其因变量为异常点;
  • 第6号观测的杠杆值远远大于其它观测,而学生化残差并不高,提示其自变量为异常点;
  • Cook's D值和DFFITS则显示,第1号和第6号的值均高于其它观测的值,提示这两个观测可能为强影响点。
Studentized Residuals and Cook's D for y.png

一般线性回归分析可知存在强影响点,且其值较大,因此我们采用稳健回归对数据进行分析。

稳健回归分析结果主要分为五部分。

第一部分是对变量的简单统计描述,如下:

绝对离差中位数(MAD)是稳健的变量尺度,标准差与MAD差值越大,提示可能存在异常。

结果分析显示:y的标准差与MAD的差值比x的更大,提示y更有可能存在异常值。


变量的简单统计描述.png

第二部分是MM估计的概括性描述,如下:

  • 结果显示:最高的失效点为0.2667,估计率为0.85。
  • 失效点通常来讲就是所需的估计方法在数据有多少异常点时仍可保持模型的稳健。失效点所占比例越高,表明估计方法越稳健。
  • MM估计默认的估计率为0.85。如果指定估计率,可通过以下语句实现
proc robustreg method=mm(eff=0.9);
MM估计的概括性描述.png

第三部分是参数估计结果。

给出了参数的MM估计、标准误、95%可信区间、卡方值及相应的P值。

参数估计结果.png

第四部分为数据诊断结果,如下:

  • 杠杆点主要根据稳健MCD距离(robust MCD distance)判断,当该值大于诊断界值(cutoff)时,即判断为杠杆点,并以“*”标识;
  • 离群点主要根据稳健残差(robust residual)判断,当该值的绝对值大于诊断界值(cutoff)时,即判断为离群点,并以“*”标识;

结果显示:

  • 第1号判断为离群点;
  • 第6号判断为高杠杆点,且同时为离群点。
数据诊断结果.png

第五部分为模型拟合结果。

这部分主要用于模型的比较,单看一个意义不大。

模型拟合结果2.png

根据以上结果,稳健回归所得方程为y=421.8446+17.0256x。与普通线性回归所得结果相差较大。这一点可结合散点图理解。

线性回归拟合.png
稳健回归拟合.png

从上面两个图,明显地看到两个点脱离其它点,第1号观测主要是偏离y的均值较大,第6号观测主要偏离x均值,但同时也偏离y均值。如果仅有第1号为异常,而第6号正常,那么直线上升趋势更为明显,即回归系数会变大。而第6号将整个方程拉了下来,使普通线性回归估计的回归系数变成了负值。由于第6号既是高杠杠点又是离群点,因此它是一个强影响点,正是它的存在,导致整个方程发生了重大改变。

总结

So,当数据中存在高杠杠点、离群点甚至强影响点时,普通线性回归受他们的影响特别大,很有可能由于一两个数据的影响而偏离了实际,而稳健回归则避免了这种误导。

本例中,稳健回归给出的估计结果更加符合实际,因为数据总体仍是一种直线上升的趋势。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容