1 数据准备
- 数据清理
给定任何数据集,我们必须确保数据是干净的,没有偏差(bias)。在此演示中,我们假设数据是清理过的,并且对我们任意变量都没有任何偏差。你可以在创建分析数据集 课程中学习有关清理数据的更多信息。
2 选择目标变量和预测变量
一旦有了干净的数据集,为多元线性回归做准备的下一项是理解每个预测变量和目标变量之间的关系。我们可以通过绘制每个预测变量和目标变量之间的散点图来直观地做到这一点。
重要1:因为线性回归模型假定我们的数值预测变量与预测变量之间存在线性关系。好的实践方法是,在使变量通过线性回归模型之前,先分析单个变量。
重要2: 确保预测变量之间没有高度相关, 也即不存在多重共线性是指变量之间彼此相关的预测变量。
- 方法1:Seaborn 包含的 pairplot , 可以让我们观察每个变量之间的关系
- 方法2:辨别预测值之间是否具有相关性 , 除了我们看到的散点图 , 还有方差膨胀因子 简写为 VIF
如果预测变量时分类变量
区域是具有四个值的分类变量:西部、中西部、东北部、东南部。使用所谓的虚拟变量(dummy variables)。虚拟变量只能取两个值,一般是 0 或 1
- 要表示西部、中西部、东北和东南部四个类别,你需要添加三个虚拟变量。我们为中西部、东南部和西部各创建一个。
Expenditures = β0 + β1 Avg_Income + β2 Pct_Under_18 + β3 midwest + β4 southeast + β5 west
- 将分类变量转换为虚拟变量之后,我们需要先确认这些虚拟变量与被预测变量之间是具有线性相关性的,然后才可以将这些变量导入线性回归模型。
数据拆分(训练和测试)
3 建立模型
计算线性回归的步骤
第 1 步:
打开数据表, 确保在 Microsoft Excel 中激活 Analysis ToolPak 加载项。你可以在此找到说明。
第 2 步:
简单线性回归: 使用斜率(Slope)函数 SLOPE(data_y, data_x)。在名为 data_y的第一个字段中包含目标变量的值,并在名为 data_x 的第二个字段中包含预测变量的值。结果应该为 0.1833。
使用截距(Intercept)函数 INTERCEPT(data_y, data_x),对相同的字段使用相同的值。结果应该为 -11.055。
现在,我们得出此直线的方程为:
y = 0.1833x - 11.055
多元线性回归: 在 Excel 中,选择“数据分析”(Data Analysis)。在弹出窗口中选择“回归”(Regression),然后选择确定。
第 3 步
输入 Y 范围应该为目标变量的范围,输入 X 范围应为预测变量的数据范围
第 4 步
点击确定运行模型并查看结果。可以快速看到线性方程的系数
第5步 评估方程
我们来通过一个手动计算来演示它是如何工作的。我们从以下回归方程开始。
学校开支 = -468 + (0.067 x 平均收入) + (1349 x 18 岁以下人口百分比) -14.4(if type: 中西部) - 9.3(if type: 东南部) + 16.5(if type: 西部)
假如说有一个州的平均收入为 4011 美元,18 岁以下的人口百分比为 32.5%,位于东北部区域。计算步骤如下。
学校开支 = -468 + (0.067 x 平均收入) + (1349 x 18 岁以下人口百分比) - (14.4 x 中西部) - (9.3 x 东南部) + (16.5 x 西部)
学校开支 = -468 + (0.067 x 4011) + (1349 x 0.325) - (14.4 x 0) - (9.3 x 0) + (16.5 x 0)
学校开支 = -468 + 268.737 + 438.425 - 0 - 0 + 0
学校开支 = 239.162
我们将插入数值,并像这样给它们乘以各自的系数。然后对于区域虚拟变量,由于该州在东北部,我们将为每一个插入 0 值。求解此方程会得到预测的学校支出约为 239 美元。
4 验证
现在我们已经执行了分析并运行了线性回归模型,我们需要验证模型的结果。计算出的线性表达式是否能很好地拟合我们的数据?
第 1 步:相关性
使用相关函数 CORREL(data_y, data_x),我们可以计算目标变量和预测变量之间的相关性。该值通常称为 r。r 的范围为 -1 到 +1。r 越接近 +1 或 -1,x 和 y 之间的相关性越高。在我们的例子中,r 的值为 0.987,表示强相关。
第 2 步:计算 R 平方
虽然强相关很好,但我们真正想知道的是,数据在直线上的拟合表现如何。好在,我们可以通过计算决定系数(coefficient of determination)或 R 平方(记为 R² 或 r²),来了解此公式在逼近数据方面的表现有多好。R 平方是取值在 0 和 1 之间的一个系数。R 平方可以解读为,模型解释的观察值变差的百分比,或模型的解释力。R 平方接近 1 意味着模型解释了目标变量的几乎所有变差。R 平方接近 0 意味着模型几乎未解释目标变量的任何变差。(注:目标变量 y 的取值波动称为“变差”)
解读 R 平方的注意事项
你如何解读 R 平方在很大程度上取决于你要建模的问题和你使用的数据。对于棘手的问题,R 平方很低可能是可以接受的。而且,较高的 R 平方也有可能由于模型不佳导致的。但是一般来说,R 平方越高越好,特别是当你添加和删除预测变量来决定最强的预测模型时。要了解有关解读 R 平方的更多信息,请参阅此处。
R 平方与调整的 R 平方(Adjusted R-Squared)
调整的 R 平方应该被用于多元线性回归,因为在模型中添加额外变量时出现了一种现象。简而言之,包含的变量越多,R 平方越高 —— 即使附加变量和目标变量之间没有关系。因此,我们使用调整的 R 平方。