Excel-线性回归实现

1 数据准备

  • 数据清理
    给定任何数据集,我们必须确保数据是干净的,没有偏差(bias)。在此演示中,我们假设数据是清理过的,并且对我们任意变量都没有任何偏差。你可以在创建分析数据集 课程中学习有关清理数据的更多信息。

2 选择目标变量和预测变量

一旦有了干净的数据集,为多元线性回归做准备的下一项是理解每个预测变量和目标变量之间的关系。我们可以通过绘制每个预测变量和目标变量之间的散点图来直观地做到这一点。

重要1:因为线性回归模型假定我们的数值预测变量与预测变量之间存在线性关系。好的实践方法是,在使变量通过线性回归模型之前,先分析单个变量。

重要2: 确保预测变量之间没有高度相关, 也即不存在多重共线性是指变量之间彼此相关的预测变量。

  • 方法1:Seaborn 包含的 pairplot , 可以让我们观察每个变量之间的关系
  • 方法2:辨别预测值之间是否具有相关性 , 除了我们看到的散点图 , 还有方差膨胀因子 简写为 VIF
如果预测变量时分类变量
image.png

区域是具有四个值的分类变量:西部、中西部、东北部、东南部。使用所谓的虚拟变量(dummy variables)。虚拟变量只能取两个值,一般是 0 或 1

  1. 要表示西部、中西部、东北和东南部四个类别,你需要添加三个虚拟变量。我们为中西部、东南部和西部各创建一个。
image.png

Expenditures = β0 + β1 Avg_Income + β2 Pct_Under_18 + β3 midwest + β4 southeast + β5 west

  1. 将分类变量转换为虚拟变量之后,我们需要先确认这些虚拟变量与被预测变量之间是具有线性相关性的,然后才可以将这些变量导入线性回归模型。
数据拆分(训练和测试)

3 建立模型

计算线性回归的步骤

第 1 步:

打开数据表, 确保在 Microsoft Excel 中激活 Analysis ToolPak 加载项。你可以在此找到说明。

第 2 步:

简单线性回归: 使用斜率(Slope)函数 SLOPE(data_y, data_x)。在名为 data_y的第一个字段中包含目标变量的值,并在名为 data_x 的第二个字段中包含预测变量的值。结果应该为 0.1833。
使用截距(Intercept)函数 INTERCEPT(data_y, data_x),对相同的字段使用相同的值。结果应该为 -11.055。
现在,我们得出此直线的方程为:
y = 0.1833x - 11.055
多元线性回归: 在 Excel 中,选择“数据分析”(Data Analysis)。在弹出窗口中选择“回归”(Regression),然后选择确定。

第 3 步

输入 Y 范围应该为目标变量的范围,输入 X 范围应为预测变量的数据范围

第 4 步

点击确定运行模型并查看结果。可以快速看到线性方程的系数

第5步 评估方程

我们来通过一个手动计算来演示它是如何工作的。我们从以下回归方程开始。

学校开支 = -468 + (0.067 x 平均收入) + (1349 x 18 岁以下人口百分比) -14.4(if type: 中西部) - 9.3(if type: 东南部) + 16.5(if type: 西部)
假如说有一个州的平均收入为 4011 美元,18 岁以下的人口百分比为 32.5%,位于东北部区域。计算步骤如下。

学校开支 = -468 + (0.067 x 平均收入) + (1349 x 18 岁以下人口百分比) - (14.4 x 中西部) - (9.3 x 东南部) + (16.5 x 西部)
学校开支 = -468 + (0.067 x 4011) + (1349 x 0.325) - (14.4 x 0) - (9.3 x 0) + (16.5 x 0)
学校开支 = -468 + 268.737 + 438.425 - 0 - 0 + 0
学校开支 = 239.162
我们将插入数值,并像这样给它们乘以各自的系数。然后对于区域虚拟变量,由于该州在东北部,我们将为每一个插入 0 值。求解此方程会得到预测的学校支出约为 239 美元。

4 验证

现在我们已经执行了分析并运行了线性回归模型,我们需要验证模型的结果。计算出的线性表达式是否能很好地拟合我们的数据?

第 1 步:相关性

使用相关函数 CORREL(data_y, data_x),我们可以计算目标变量和预测变量之间的相关性。该值通常称为 r。r 的范围为 -1 到 +1。r 越接近 +1 或 -1,x 和 y 之间的相关性越高。在我们的例子中,r 的值为 0.987,表示强相关。

第 2 步:计算 R 平方

虽然强相关很好,但我们真正想知道的是,数据在直线上的拟合表现如何。好在,我们可以通过计算决定系数(coefficient of determination)或 R 平方(记为 R² 或 r²),来了解此公式在逼近数据方面的表现有多好。R 平方是取值在 0 和 1 之间的一个系数。R 平方可以解读为,模型解释的观察值变差的百分比,或模型的解释力。R 平方接近 1 意味着模型解释了目标变量的几乎所有变差。R 平方接近 0 意味着模型几乎未解释目标变量的任何变差。(注:目标变量 y 的取值波动称为“变差”)

解读 R 平方的注意事项

你如何解读 R 平方在很大程度上取决于你要建模的问题和你使用的数据。对于棘手的问题,R 平方很低可能是可以接受的。而且,较高的 R 平方也有可能由于模型不佳导致的。但是一般来说,R 平方越高越好,特别是当你添加和删除预测变量来决定最强的预测模型时。要了解有关解读 R 平方的更多信息,请参阅此处

R 平方与调整的 R 平方(Adjusted R-Squared)

调整的 R 平方应该被用于多元线性回归,因为在模型中添加额外变量时出现了一种现象。简而言之,包含的变量越多,R 平方越高 —— 即使附加变量和目标变量之间没有关系。因此,我们使用调整的 R 平方。


image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容