第 1 步:相关性
使用相关函数 CORREL(data_y, data_x),我们可以计算目标变量和预测变量之间的相关性。该值通常称为 r。r 的范围为 -1 到 +1。r 越接近 +1 或 -1,x 和 y 之间的相关性越高。在我们的例子中,r 的值为 0.987,表示强相关。
第 2 步:计算 R 平方
虽然强相关很好,但我们真正想知道的是,数据在直线上的拟合表现如何。好在,我们可以通过计算决定系数(coefficient of determination)或 R 平方(记为 R² 或 r²),来了解此公式在逼近数据方面的表现有多好。
R 平方是取值在 0 和 1 之间的一个系数。R 平方可以解读为,模型解释的观察值变差的百分比,或模型的解释力。R 平方接近 1 意味着模型解释了目标变量的几乎所有变差。R 平方接近 0 意味着模型几乎未解释目标变量的任何变差。(注:目标变量 y 的取值波动称为“变差”)
解读 R 平方的注意事项
你如何解读 R 平方在很大程度上取决于你要建模的问题和你使用的数据。对于棘手的问题,R 平方很低可能是可以接受的。而且,较高的 R 平方也有可能由于模型不佳导致的。但是一般来说,R 平方越高越好,特别是当你添加和删除预测变量来决定最强的预测模型时
excel函数:
斜率函数:SLOPE(data_y, data_x)
截距: INTERCEPT(data_y, data_x)
相关性:CORREL(data_y, data_x)
r方:rsq(data_y, data_x)
解释回归结果
以下是线性回归结果。几乎任何回归工具都会类似地报告结果。不要被数字的量级吓到;我们将演示最重要的值以及如何解释和应用它们。有三个值尤其重要:系数估计值(coefficient estimates)、p 值(p-values)和 R 平方。
系数估计值(coefficient estimates)
还记得我们的回归方程 Y = B0+B1X1+B2X2…吗?这些系数是 B 的估计值。它们代表每个预测变量与目标变量之间的关系的大小。例如,员工人数的系数指在其他所有变量保持不变的情况下,每增加一名员工,将增加约 0.1 工单。一个更简单的思考方式是,我们可以预期,每 10 名员工将产生 1 张工单。
P 值(P Value)
The p 值是观察结果(系数估计值)偶然发生的概率,并且预测变量与目标变量之间没有实际关系。换句话说,p 值是系数为零的概率。p 值越低,预测变量和目标变量之间存在关系的概率就越高。当 p 值较高时,则不应该依赖于系数估计。当预测变量的 p 值低于 0.05 时,其与目标变量之间的关系被认为具有统计学意义。
统计显著性(Statistical Significance)
“统计显著性是一种不可能随机发生的结果,而是很可能归因于某个具体原因。” —— 投资百科。
除 p 值外,右边的星也表示具有统计显著性。星 (*) 越多表示显著性越高。在我们的例子中,我们看到预测变量是显著的,其中员工人数和合同价值是最显著的。通常,我们要从模型中删除不能统计显著地预测目标变量的变量。
R 平方
在我们的例子中,R 平方为 0.9651,调整的 R 平方为 0.9558。因此,我们通过增加类别改进了模型。在现实问题中,我们可能会使用不同的预测变量运行模型,或者看看我们是否有额外的信息添加到模型。
记住,R 平方的取值范围为 0 到 1,表示由预测变量变化解释的目标变量的变化量。R 平方越高,模型的解释力就越高。
既然我们有一个较强的模型,便可以进行分析了。