预测怀俄明州蛇河降水量和农作物产量

我们有了17行观测值,每行是降水量和产量两个数值。


去掉左下角和右上角的离群点。然后剩下的点做回归。因为被最前端和最后端的两个疑似离群点影响,有一 点轻微的曲线形状。所以,有必要进行数据转换并删除无关观测值

请看参数估计,模型告诉我们,yield等于0.72538加上0.49808乘以

content。可以确定,content每变动1个单位,yield会增加0.49808个单位。F统计量是用来检

验原假设的,原假设认为模型的所有系数都是0。


线性回归必须通过假设检验,其中的假设可以总结如下。  线性:预测变量与响应变量之间的关系是线性的。如果线性关系不能清晰呈现,可以对 变量X或Y进行数据转换(对数转换、多项式转换、指数转换等)以解决问题。  误差不相关:在时间序列和面板数据中,en = betan1是一个常见问题;如果误差是相关的, 那么你就有可能建立一个非常不规范的模型。  同方差性:误差是正态分布的,并具有相同的方差。这意味着对于不同的输入值,误差 的方差是个固定值。如果违背了这个假设,参数估计就有可能产生偏差,导致对显著性 的统计检验结果过高或者过低,从而得到错误的结论。这种情况就称为异方差性。  非共线性:两个预测变量之间不存在线性关系,也就是说,特征之间不应该存在相关性。 同样地,共线性也会导致估计偏差。  存在异常值:异常值会严重影响参数估计。理想情况下,必须在使用线性回归拟合模型 之前就除去异常值。正如我们在Anscombe数据集那个例子中看到的,异常值也会导致具 有偏差的估计结果。



©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 降水量是指从天空中落下的雨水,降到地面以后在不渗透、不流失、不蒸发的情况下积聚的水层高度。 降水量...
    海鸥zxw阅读 857评论 0 1
  • R语言与数据挖掘:公式;数据;方法 R语言特征 对大小写敏感 通常,数字,字母,. 和 _都是允许的(在一些国家还...
    __一蓑烟雨__阅读 1,711评论 0 5
  • 总结 线性回归是有监督学习里最常见也是最简单的一种形式,可以分为一元线性回归和多元线性回归,适用情况为是连续型数据...
    忘词x阅读 3,045评论 0 0
  • 回归,最初是遗传学中的一个名词,是由生物学家兼统计学家高尔顿首先提出来的。他在研究人类的身高时,发现高个子回归于人...
    黄成甲阅读 46,338评论 0 61
  • 根据对全球气象站收集的数据的新分析,目前世界上一年内测得的降水量的一半仅在12天内下降。到世纪末,气候模型预测,这...
    榴莲气象阅读 377评论 0 2