多元线性回归

1. 模型简介

模型思想

多元线性回归(multiple linear regression) 模型的目的是构建一个回归方程,利用多个自变量估计因变量,从而解释和预测因变量的值。多元线性回归模型中的因变量和大多数自变量为定量值,某些定性指标需要转换为定量值才能应用到回归方程中。

意义

事物的联系也是多方面的,而影响事物发展的因素是多样的。由多个自变量的最优组合共同来估计因变量,比单一的自变量预测更有效,更符合实际。

比如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三酯等多种指标的影响。但很多情况下,由于自变量的单位是不一样的,需要做标准化处理。比如在消费水平预测模型中,工资水平、受教育程度、职业、地区、家庭负担等因素都会影响到消费水平,而这些影响因素的单位和量级肯定是不同的,虽然不会影响自变量的重要程度,但是对回归系数的大小还是有直接影响作用的。标准化回归系数没有单位,其值越大,说明该自变量对因变量的影响越大。

2. 多元线性回归模型

一般形式

一般形式

其中,Y为因变量,X为自变量,上式中共有k个自变量和一个常数项。如果自变量经过标准化处理,则上式没有常数项,换句话说,Y的期望值与自变量的函数关系如下:


多元总体线性回归方程

上式也被称为多元总体线性回归方程。
如果有n组观测数据,则可以采用方程组形式表示


n组观测值

多元线性回归方程组

其矩阵形式为:
矩阵形式

简化形式见下式:


矩阵表示的简化形式

条件

使用多元线性回归必须满足如下的几个条件:(1) 因变量Y和自变量X之间具有线性关系。(2) 各观测值Y相互独立。(3) 残差e服从均值为0,方差为δ^2的正态分布,也就是对自变量的任意一组观测值,因变量Y具有相同的方差,且服从正态分布。

参数估计

多元线性回归方程有k+1个待估计的系数

k+1个待估计的系数

利用一组观测值可以对它们进行估计,常用的参数估计方法是最小二乘法。普通最小二乘法过最小化误差的平方和寻找最佳函数,常用矩阵运算求解系数矩阵。
系数矩阵估计

假设利用上式计算得到了估计的系数矩阵β,则可以进一步计算样本拟合值或回归值。
样本拟合

其中,Y的某个分量的拟合函数为
拟合值Yi

对于真实的样本观测值和拟合值之间的差值,我们称为残差
残差公式

最小二乘法的思想就是使得样本数据的残差平方和最小,进而得到最优的回归系数。即使得
残差平方和

取得最小值。利用上式对k+1个系数求偏导数,并使得导数为0,即求得β的普通最小二乘估计量。矩阵计算公式参考上边系数矩阵估计方程。

3. 模型检验与评价

方差分析
我们假设系数全为0,利用传统的假设检验方法,计算F检验或t检验统计量,验证回归方程是否有统计学意义。如果利用excel或spss,可以得到如下图所示的回归方差分析表。

回归方差分析表

如果F值大于置信边界值,或P小于0.01,则认为系数不全相等且回归方程有统计学意义。
决定系数
决定系数R^2,取值范围为[0,1],代表自变量能够解释因变量的比例,其值越接近1,说明模型对数据的拟合程度越好。
决定系数计算公式

复相关系数
可以用来度量因变量Y和自变量X之间的线性相关程度,亦即观察值和估计值之间的相关程度。其值R为决定系数的平方根。
偏回归平方和
指的是在固定其他k-1个自变量的条件下,某一自变量对因变量Y的贡献程度或影响程度。相当于在回归方程中剔除某自变量后引起回归平方和的减少量,或者在k-1个自变量的基础上增加某自变量后引起的回归平方和的增加量。
偏回归系数

SS回(X)指的是偏回归平方和,其值越大说明相应的自变量越重要。
t检验方法与偏回归平方和检验等价,利用假设检验的形式验证某自变量是否对因变量有显著的影响作用,其验证方法与F检验类似,t检验统计量的计算公式如下:
t检验统计量

4. 案例解析

暂时先分享几个其他人的博客吧。
首先是最简单的例子,可以手工计算的小栗子,请参考这个课件,一边讲概念,一边进行具体的计算。
然后是利用SPSS这个统计软件的案例,软件功能强大,但是使用起来还要多看说明,不然有些功能还是不知道怎么实现。
再然后是强大的统计编程R语言的解读,强大的绘图功能可以方便我们做出很多好看的分析图表来,比如下面这张图。

期货黑色品系价格预测曲线

最后是Python语言的实现博客简易篇提升篇,两篇的难易程度不同,大家可以自行选择。

参考文献

[1]. 课件-多元线性回归分析-结合例子来讲,容易理解
[2]. 百度百科-多元线性回归-简单介绍
[3]. 博客-多元线性回归-公式很详细

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容