回归分析的常见误用,有没有你犯过的错

说起回归分析,尤其是线性回归,想必大家一定已经有所了解。无论是研究影响关系或是预测数据走势,回归分析都是十分可靠的方法,也因而受到了研究人员的青睐。

但,回归分析同样也很容易被错误地使用。回归分析有很多条件限制,初学者往往在没有意识到这些条件限制之前,就已经得出了自认为正确的结果,并以此作为最终的结论。

这样误用分析方法的例子在现实研究中,并不少见。本文,就来向大家展示几个关于回归分析的常见误用场景,看看你有没有犯过这些“错误”?

 

场景一:

红星大学的李华收集了100份问卷数据,并选择线性回归分析来分析大学生的垃圾分类行为及其影响因素,其中自变量为影响因素,因变量Y为‘您是否特意按照垃圾分类标识进行分类?’。

问卷题项


纠正: 线性回归中,因变量为定量数据

一个老生常谈的问题。在使用回归之前,首先应该确定Y是否为定量数据,例如:

某公司的销售额

问卷满意度得分

考试成绩

身高

...

由于案例中Y为分类数据,并且只分为两项,因而应使用二元Logit回归分析。

如果Y是性别这类——定类数据,可以使用logistic回归;如果Y是频次这类——计数资料,可选择Poisson回归;如果Y是生存资料,可选择Cox回归

使用路径:SPSSAU>医学研究


同时如果是问卷数据,想使用回归分析,那么在问卷设计阶段就要确保设计了因变量对应的问题,以免正式分析时缺少因变量,造成无法分析的尴尬局面。


场景二:

XX外国语大学的韩梅梅,想要研究本校学生英语四级成绩的影响因素,调查收集了200份数据。其中影响因素包括性别、专业、高考成绩、父母教育水平等。由于Y为定量数据因此选择线性回归分析方法。她将性别、专业、高考成绩、父母教育水平作为自变量,四级成绩作为因变量放入回归方程分析。


纠正:自变量中如果有需要分析的定类数据,需进行哑变量的设置

由于案例中性别、专业均为定类数据,并且是作为核心研究变量纳入模型,因而分析时应先进行哑变量设置再分析。

原则上回归分析对自变量的数据类型没有要求,可以是定量数据也可以是定类数据。自变量中如果有定类数据是作为控制变量纳入模型,可直接放入模型;如果是定类数据且需要分析,此时则需要进行虚拟变量(也称哑变量)设置。


场景三:

XX师范大学的李雷,收集了一份关于学习动机的影响因素研究数据。在没有进行任何预处理的情况下,就直接进行回归分析。

 

纠正:分析前首先应当对数据进行预处理,首先可通过散点图观察变量间的关系情况,如存在异常值结合实际情况考虑是否需要剔除。

回归分析对异常值较为敏感,异常值的存在可能会使回归模型产生偏差,影响分析结果。首先可通过散点图等观察数据中是否存在异常值。

如上图所示,异常值影响了分析结果。将其删除后重新分析,此时拟合线与之前相比有明显的移动。说明异常值确实对模型产生较大影响。

除了上述鉴别异常值的方法,还可以通过箱线图、描述分析、正态图等检验异常值。


SPSSAU 异常值处理

SPSSAU提供四种异常值的判定标准分别是:缺失数字、小于设定标准的数字、大于设定标准的数字、大于3个标准差。用户可以在系统中直接操作删除异常值。



上述问题的出现主要是由于对分析方法的使用了解的不够清楚,分析前应该多加注意。当解决掉这些“初级”问题后,不要掉以轻心,因为这并不意味着你可以得到一份有效的回归分析结果。


问题四:共线性问题

共线性问题是指一个解释变量(X)的变化引起另一个解释变量(X)地变化。严重的共线性问题会导致数据研究出来严重偏差甚至完全相反的结论,因而需要解决此问题。

解决方法:这个在之前的文章里有详细总结过,这里就不展开说明了。有需要可以点击链接阅读(https://www.jianshu.com/p/858732b7eae6


问题五:残差分析

残差分析在回归分析中,是很重要的一个部分。残差分析主要包括分析残差的正态性、独立性以及方差齐性。

残差正态性:在分析时可保存残差项,然后使用“正态图”直观检测残差正态性情况,如果残差直观上满足正态性,说明模型构建较好,反之说明模型构建较差。如果残差正态性非常糟糕,建议重新构建模型,比如对Y取对数后再次构建模型等。


SPSSAU 正态图

自相关性:如果D-W值在2附近(1.7~2.3之间),则说明没有自相关性,模型构建良好,反之若D-W值明显偏离2,则说明具有自相关性,模型构建较差。自相关问题产生时建议对因变量Y数据进行查看。

异方差性:可将保存的残差项,分别与模型的自变量X或者因变量Y,作散点图,查看散点是否有明显的规律性,比如自变量X值越大,残差项越大/越小,这时此说明有规律性,模型具有异方差性,模型构建较差。如果有明显的异方差性,建议重新构建模型,比如对Y取对数后再次构建模型等。


SPSSAU 残差图


问题六:样本量

为了保证模型的稳定,入选的样本不能太少,一般情况下,样本量应该至少是自变量的20倍以上才较为稳定。


以上都是一些在日常分析中容易忽略的问题,虽然都是一些细小的步骤,但只有通过这些处理判断,得到的结果才更加真实可信。


以上案例如有雷同可能是巧合

更多干货内容登录SPSSAU官网查看

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容