机器学习A-Z~多元线性回归

之前的文章已经讲述了简单线性回归的概念和代码实现,现在来继续看看多元线性回归。所谓多元线性回归其实就是自变量的个数变多了,之前的简单线性回归方程可以表示为:y=b_0 +bx,那么在多元中则是y=b_0+b_1x_1+b_2x_2+...+b_nx_n

线性回归的几个前置条件

在正式使用多元线性回归之前,我们先谈谈关于线性回归的几个前置条件,首先,在线性回归中有几个重要的假设如下所示:

  1. Linearity 线性 (数据呈线性关系)
  2. Homoscedasticity 同方差性(数据要有相同的方差)
  3. Multivariate normality 多元正态分布 (数据要呈现多元正态分布)
  4. Independence of errors 误差独立 (各个维度上的误差相互独立)
  5. Lack of multicollinearity 无多重共线性 (没有一个自变量和另外的自变量存在线性关系)

也就是说我们在使用线性回归时,要考虑到实际情况是否吻合上述的几种假设,否则可能会导致拟合的模型不准确。

除此之外,之前数据预处理的时候也提到过一个叫做虚拟变量的概念,现在对其进行详细的讲解。来看下面的数据集(同样由于篇幅问题只提供部分):

R&D Spend Administration Marketing Spend State Profit
165349.2 136897.8 471784.1 New York 192261.83
162597.7 151377.59 443898.53 California 191792.06
153441.51 101145.55 407934.54 Florida 191050.39
144372.41 118671.85 383199.62 New York 182901.99

这组数据集反映的是公司的研发投入,行政支出,市场支出以及所在地点对于公司的收益的影响。其中所在地点这个变量是个分类变量,没有数值的概念,因此无法对其进行排序或者带入方程。数据预处理中,我们使用了虚拟变量对其进行重新编码,那么对于这组数据我们也可以做同样的操作,也就是说State这列数据可以拆分成三列:

New York California Florida
1 0 0
0 1 0
0 0 1
1 0 0

假设R&D Spend对应的自变量为x_1,Administration对应的是x_2,Marketing Spend对应的是x_3,虚拟编码对应的是D_1,D_2,D_3。但是对于虚拟编码,任意一个编码都能用另外两个来表示,比如是否是Florida,那么如果New York和California如果存在1,则肯定不是Florida,否则就是Florida。那么可以定义其多元线性回归方程为:
y = b_0 + b_1*x_1 + b_2*x_2 + b_3*x_3 + b_4*D_1 + b_5*D_2
这里顺便一提,我们这里给予虚拟变量的值是0和1,那么如果是(100,0)或者(-1,1)可以吗?答案是肯定的,比如说(100,0),那我们在方程中将前面的参数D缩小一百倍,达到的效果其实是一样的。

接下来想想,如果把我们删掉的b_6*D_3加上那么这个方程对不对呢?其实这里就是虚拟变量的一个陷阱。回过头看看上面所说的关于回归问题的几个假设,第五条,无多重共线性这个性质我们是否满足了?任意一个变量实际上都可以用其他的变量来表示,比如D_3=1-D_1-D_2,那么就不符合无多重共线性这个要求了。因此,在使用虚拟变量的时候一定要注意实际上使用的虚拟变量的数量应该是始终都要忽略掉一个的。

如何构建一个多元线性回归模型

接下来我们再谈谈如何一步一步地去构建一个多元线性回归模型。在实际应用中,往往会遇到对于一个因变量y,有很多的自变量x1,x2等等,但这些自变量不是所有的都是对这个y的预测很有帮助因素,我们需要从其中剔除掉无用的元素来得到最合适的模型,那么此时就有一个问题,如何来选择这些自变量呢?这里有五种方法来建立模型:

  1. All-in
  2. Backward Elimination 反向淘汰
  3. Forward Selection 顺向选择
  4. Bidirectional Elimination 双向淘汰
  5. Score Comparison 信息量比较

其中的2,3,4三种方式,也是我们最常用的,叫做Step Regression也就是逐步回归,它们的算法是类似的,只是应用的顺序有点不同。接下来一种种的介绍这几种方法。

All-in

所谓All-in,就是把所有我们认为的自变量全扔进去,一般有这几种情况使用:

  • Prior Knowledge 我们已经提前知道了所有的信息,知道这些所有自变量都会对模型结果有影响
  • You have to 上级需要你必须使用这些自变量
  • Preparing for Backward Elimination 为反向淘汰做准备

All-in这个方法很简单,但一般都是一些特殊情况下或者一些外力干涉时才会使用,这种方法不作推荐。

Backward Elimination

反向淘汰这个算法的精髓在于对于每一个这个模型的自变量来说,他对我们的模型的预测结果其实是有影响力的,用统计学上的一个概念叫做P-value来形容它的影响力。在这里我们先定义它的这个影响力是否显著的一个门槛也就是一个significance level(SL),先定义为0.05。接着第二步使用所有的自变量来拟合出一个模型。第三步,对于这个模型当中的每一个自变量都来计算它的P值(P-value),来显示它对我们模型有多大的影响力,然后我们取这个最高的P值,假设这个P>SL,就继续往第四步,否则就算法结束。那么第四步,最高的P值对应的那个自变量我们就要将它从我们的模型中去除。第五步,去除了一个自变量后,在用剩下的自变量重新对模型进行拟合,因此这里就是一个第三步到第五步的一个循环,直到所有剩下的P值都比SL要小,这样就说明模型已经拟合好了。步骤详情如下:

Backward Elimination

Forward Selection

顺向选择和反向淘汰的算法思想很接近,只是顺序有了个颠倒。这里第一步还是先定一个显著性的门槛SL=0.05.第二步,我们在这边对每个自变量x_n都进行简单线性回归拟合,分别得到它们的P值,然后取得它们中最低的。第三步对于这个最低的P值,我们的结论就是这个自变量它对我们将要拟合的模型的影响是最大的,所以说,我们会保留这个自变量。接下来第四步我们再看剩下的自变量当中加上哪一个会给我们带来最小的P值,假如说新的P值比我们之前定义的SL小,那就重新回到第三步,也就是第三步又加入了一个新的变量然后在接下来剩下的变量当中,重新找最大的P值,然后继续加到模型当中,以此类推,直到剩下来的还没有被加入模型当中的变量它们的P值全部大于SL,也就是说剩下的变量对于模型有可能产生的影响不够显著,那对这些就不予采纳,这个时候模型就拟合好了。步骤详情如下:

Forward Selection

Bidirectional Elimination

所谓双向淘汰,其实就是对之前的两种算法的结合。在第一步中,我们需要选择两个显著性门槛:一个旧的变量是否应该被剔除和一个新的还没有被采纳的变量是否应当进入我们的模型。在第二步中,我们要进行顺向选择,来决定是否采纳一个新的自变量。第三步要进行反向淘汰,也就是我们可能要剔除旧的变量,然后在第二第三步之间进行循环,由于已经定义了两个门槛,但出现新的出不去,旧的进不来时,就说明模型已经拟合好了。步骤详情如下:

Bidirectional Elimination

Score Comparison

最后一种,信息量比较。所谓信息量,就是对于一个多元线性回归模型的一个评价方式。比如说给它进行打分。那么就有很多种打分方式。比如最常见的一种,叫做Akaike criterion.对于所有可能的模型,我们对它们进行逐一的打分,对于多元线性回归,如果有N个自变量,那么就有2^N-1个不同的模型,对这些模型打分后选择分数最高的模型。那这里就会有一个问题,如果N很大的时候,模型的数量就会非常庞大。所以说这个方法虽然直觉上很好理解,但自变量数量很大时就不适合使用这种方法。

Score Comparison

Coding

接下来就要进行代码编写了,首先还是老样子,先进行数据预处理,将数据导入并对分类数据进行虚拟编码,然后将数据集划分成训练集和测试集。上面有提及过虚拟编码的陷阱,实际上我们使用的包中已经避开了这个陷阱,但为了强调这个问题,这里也对其进行处理一下:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.linear_model import LinearRegression
import statsmodels.formula.api as sm
import numpy as np

data_path = '../data/50_Startups.csv'

dataset = pd.read_csv(data_path)
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values

labelencoder_X = LabelEncoder()
X[:, 3] = labelencoder_X.fit_transform(X[:, 3])
onehotencoder = OneHotEncoder(categorical_features=[3])
X = onehotencoder.fit_transform(X).toarray()

# Avoiding the Dummy Variable Trap
X = X[:, 1:]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

预处理结束后,就来进行拟合线性回归模型,这里第一步拟合线性回归模型的方式和之前的简单线性回归是一样的。

# Fitting Multiple Linear Regression to the Training set
regressor = LinearRegression()
regressor.fit(X_train, y_train)

# Predicting the Test set results
y_pred = regressor.predict(X_test)

目前我们拟合的模型使用的方法是上述提到的All-in方法,但这个方法并不是最好的,这里我们使用Backward Elimination来对回归器进行优化,使用的工具是statsmodels.formula.api。再然后我们还要做一件事情,在多元线性回归时,很多时候模型里面都会有一个常数b_0,相当于b_0*1。但在用到的标准库的函数里面是不包含这个常数项的,因此我们需要在包含自变量的矩阵中加上一列,这一列全部都是1,b_0就是它的系数。代码如下:

X_train = np.append(arr=np.ones((40, 1)), values=X_train, axis=1)

接下来要真正开始反向淘汰了,首先创建一个矩阵X_opt,包含了最佳的自变量选择,第一步实际上是所有的自变量,之后的不断循环后会渐渐淘汰其中的自变量。

X_opt = X_train[:, [0, 1, 2, 3, 4, 5]]

这里为什么用X_train[:, [0, 1, 2, 3, 4, 5]]而不是直接X_train呢?这是因为后面会进行不断的淘汰,会不断删除其中的列,后续的代码就能看出来了。

创建完X_opt后,接下来就要用它来拟合新的回归器regressor_OLS。这里用的sm.OLS方法的参数解释一下:endog对应的是因变量,这里就是y_train,exog指的是自变量,因此这里就是X_opt。

regressor_OLS = sm.OLS(endog=y_train, exog=X_opt).fit()
regressor_OLS.summary()

然后使用summary()方法,这个方法能给我们提供很多回归器的信息,执行后得到结果如下:

image

这里能看到所有自变量对用的P值,其中最大的是x_2,就是这个公司是否在加利福利亚洲,然后我们剔除x_2,再继续拟合,得到summary,根据结果不断剔除自变量直到最终的P值都小于我们定义的SL=0.05.代码如下:

X_opt = X_train[:, [0, 1, 3, 4, 5]]
regressor_OLS = sm.OLS(endog=y_train, exog=X_opt).fit()
regressor_OLS.summary()

X_opt = X_train[:, [0, 3, 4, 5]]
regressor_OLS = sm.OLS(endog=y_train, exog=X_opt).fit()
regressor_OLS.summary()

X_opt = X_train[:, [0, 3, 5]]
regressor_OLS = sm.OLS(endog=y_train, exog=X_opt).fit()
regressor_OLS.summary()

X_opt = X_train[:, [0, 3]]
regressor_OLS = sm.OLS(endog=y_train, exog=X_opt).fit()
regressor_OLS.summary()

最终得到的结果是:

image

那么根据这个结果可以得到的结论就是一家公司的收益主要跟公司的研发投入有关。当然其实其中也有其他的自变量对应了很低的P值,如果自己一步步运行这段代码会发现行政的投入对应的P值也只有0.07不算很高,如何更好的判断线性回归模型的优劣后面还会有其他的方法来判断。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351

推荐阅读更多精彩内容