我们有了17行观测值,每行是降水量和产量两个数值。
去掉左下角和右上角的离群点。然后剩下的点做回归。因为被最前端和最后端的两个疑似离群点影响,有一
点轻微的曲线形状。所以,有必要进行数据转换并删除无关观测值
请看参数估计,模型告诉我们,yield等于0.72538加上0.49808乘以
content。可以确定,content每变动1个单位,yield会增加0.49808个单位。F统计量是用来检
验原假设的,原假设认为模型的所有系数都是0。
线性回归必须通过假设检验,其中的假设可以总结如下。 线性:预测变量与响应变量之间的关系是线性的。如果线性关系不能清晰呈现,可以对
变量X或Y进行数据转换(对数转换、多项式转换、指数转换等)以解决问题。
误差不相关:在时间序列和面板数据中,en = betan1是一个常见问题;如果误差是相关的,
那么你就有可能建立一个非常不规范的模型。
同方差性:误差是正态分布的,并具有相同的方差。这意味着对于不同的输入值,误差
的方差是个固定值。如果违背了这个假设,参数估计就有可能产生偏差,导致对显著性
的统计检验结果过高或者过低,从而得到错误的结论。这种情况就称为异方差性。
非共线性:两个预测变量之间不存在线性关系,也就是说,特征之间不应该存在相关性。
同样地,共线性也会导致估计偏差。
存在异常值:异常值会严重影响参数估计。理想情况下,必须在使用线性回归拟合模型
之前就除去异常值。正如我们在Anscombe数据集那个例子中看到的,异常值也会导致具
有偏差的估计结果。