大师兄的应用回归分析学习笔记(二):一元线性回归(一)

一、一元回归模型

  • 一元线性回归是描述两个变量之间统计关系最简单的回归模型。
1. 模型的实际背景
  • 在实际问题研究中,经常需要研究某一现象欲影响它的某一最主要因素的关系。
  • 非确定线性关系:两个变量之间有密切关系,但它们之间密切的程度达不到一个变量唯一确定另一个变量。
2. 数学形式
  • y = \beta_0 + \beta_1 x + \epsilon
  • x的变化引起y的线性变化,即\beta_0 + \beta_1 x
  • 其它的一切随机因素为\epsilon
  • y为被解释变量(因变量)
  • x为解释变量(自变量)
  • \beta_0\beta_1是未知参数,\beta_0为回归常数,\beta_1为回归系数。
  • 通常假定\epsilon满足:\begin{cases} E(\epsilon)=0 \\ var(\epsilon) = \delta^2 \end{cases}
  • E(\epsilon)表示数学期望
  • var(\epsilon)表示方差
  • 回归方程:E(y|x) = \beta_0 + \beta_1 x,从平均意义上表达了变量y与x的统计规律性。
  • 回归分析的主要任务就是通过n组样本观测值(x_1,y_i)(i=1,2,...,n)\beta_0,\beta_1进行估计,一般用\hat\beta_0,\hat\beta_1表示估计值。
  • 一元线性经验回归方程:\hat y = \hat\beta_0 + \hat\beta_1 x
  • \hat\beta_0表示经验回归直线在纵轴上的截距,如果x\neq0,\hat\beta_0只是作为回归方程中的分开项,没有具体意义。
  • \hat\beta_1表示经验回归直线的斜率,在实际应用中表示自变量x增加一个单位时,因变量y平均增加数量
  • 实际中,为了方便对参数做区间估计假设检验,假定误差项\epsilon服从正态分布,即\epsilon\sim N(0,\delta^2)

二、参数\beta_0,\beta_1的估计

1. 普通最小二乘估计
  • 为了由样本数据得到回归参数\beta_0\beta_1的理想估计值,通常使用普通最小二乘估计(ordinary least estimation, OLSE)
  • 最小二乘法就是寻找参数\beta_0,\beta_1的估计值\hat\beta_0,\hat\beta_1
  • 对每一个样本观测值(x_i,y_i),最小二乘法考虑观测值y_i,与其回归值E(y_i) = \beta_0 +\beta_1 x_i的离差越小越好。
  • 离差平方和达到极小,满足:Q(\hat\beta_0,\hat\beta_1) = \sum^n_{i=1}(y_i-\hat\beta_0 - \hat\beta_1 x_i)^2 = \underset{\beta_0,\beta_1}{\min}\sum^n_{i=1}(y_i-\hat\beta_0 - \hat\beta_1 x_i)^2
  • 求出的\hat\beta_0,\hat\beta_1称为回归参数\beta_0,\beta_1最小二乘估计
  • \hat y_i = \hat\beta_0 + \hat\beta_1 x_iy_i(i=1,2,...,n)回归拟合值
  • e_i = y_i - \hat y_iy_i (i=1,2,...,n)残差
  • 从几何关系上看,用一段线性回归方程拟合n个样本观测点,要求回归直线\hat y_i = \hat\beta_0 + \hat\beta_1 x_i位于这n个样本点中间,或者说n个样本点最靠近这条回归直线。
  • 残差平方和\sum^n_{i=1}e^2_i = \sum^n_{i=1}(y_i - \hat\beta_0 - \hat\beta_1 x_i)^2从整体上刻画了n个样本观测点到回归直线\hat y_i = \hat\beta_0 + \hat\beta_1 x_i距离的长短。
  • 从物理学角度看,回归直线通过样本的重心。
  • 为了确定回归直线就是使它与所有样本数据点都比较靠近,为了刻画这种靠近程度,人们曾设想用绝对残差和,即\sum^n_{i=1}|e_i| = \sum^n_{i=1}|y_i - \hat y_i|来度量观测值与回归直线的接近程度,但是绝对残差在数学处理上比较麻烦,所以在经典的回归分析中,都用残差平方和方式来描述因变量观测值与回归直线的偏离程度。
2. 最大似然估计
  • 最大似然估计(maximum likelihood estimation, MLE)是利用总体的分布密度或概率分布的表达式及样本所提供的信息求未知参数估计量的一种方法,也可以作为回归参数的估计方法。
  • 比如已知事件A发生的概率p只可能是0.01或0.1,若在一次实验中时间A发生了,自然应当认为事件A发生的概率p是0.1,而不是0.01。把这种考虑问题的方法一般化,就得到最大似然准则。
  • 对连续型随机变量,似然函数就是样本的联合分布密度函数;对离散型随机变量,似然函数就是样本的联合概率函数。
  • 一元线性回归模型参数的最大似然估计,如果已经得到样本观测值(x_i,y_i)(i=1,2,...,n),其中x_i为非随机变量,y_1,y_2,...,y_n为随机样本,假设\epsilon \sim N(0,\delta^2)时,
  • y_i服从正态分布y_i \sim N(\beta_0 + \beta_1 x_i,\delta^2)
  • y_i的分部密度为f_i(y_i) = \frac{1}{\sqrt{2\pi\delta}}exp\{-\frac{1}{2\delta^2}[y_i - (\beta_0 + \beta_1 x_1)]^2\},i=1,2,...,n
  • y_1,y_2,...,y_n似然函数为:L(\beta_0,\beta_1,\delta^2) = \Pi^n_{i=1}f_i(y_i)= 2(\pi\delta^2)^{-\frac{\pi}{2}}exp\{-\frac{1}{2\delta^2}\sum^n_{i=1}[y_i - (\beta_0 + \beta_1 x_1)]^2\}
  • \delta^2 的有偏估计值:\hat\delta^2 = \frac{1}{n}\sum^n_{i=1}(y_i - \hat y_i)^2 = \frac{1}{n}\sum^n_{i=1}[y_i - (\hat\beta_0 + \hat\beta_1 x_i)]^2
    • \delta^2 的无偏估计值:\hat\delta^2 = \frac{1}{n-2}\sum^n_{i=1}(y_i - \hat y_i)^2 = \frac{1}{n-2}\sum^n_{i=1}[y_i - (\hat\beta_0 + \hat\beta_1 x_i)]^2

三、 最小二乘估计的性质

1. 线性
  • 线性指的是估计量\hat\beta_0,\hat\beta_1为随机变量y的线性函数。
  • 因为y_i为随机变量,所以作为y_i的线性组合\hat\beta_0,\hat\beta_1也是随机变量,各有其概率分布、均值、方差、标准差及两者的协方差。
2. 无偏性
  • 无偏估计的意义是,如果屡次变更数据,反复求\beta_0,\beta_1的估计值,则这两个估计量没有高估或低估的系统趋向,他们的平均值将趋于\beta_0,\beta_1
  • 这表明回归值\hat y是E(y)的无偏估计,也说明\hat y与真实值y的平均值是相同的。
3. \hat\beta_0,\hat\beta_1的方差
  • 一个估计量是无偏的,只揭示了估计量优良性的一个方面,通常还应关心估计量本身的波动状况,所以需要进一步研究它的方差。
  • var(\hat\beta_1) = \sum^n_{i=1}[\frac{x_i-\bar x}{\sum^n_{j=1}(x_j-\bar x)^2}]^2var(y_i) = \frac{\delta^2}{\sum^n_{j=1}(x_j - \bar x)^2}
  • var(\hat\beta_1)反映了\beta_1的波动,即差异度。
  • \beta_1不仅与随机误差的方差delta^2有关,而且与自变量x的取值离散程度有关。如果x的取值比较分散,即x的波动较大,则\beta_1的波动就小,比较稳定。
  • var(\hat\beta_0) = [\frac{1}{n} + \frac{(\bar x)^2}{\sum(x_i - \bar x)^2}]\delta^2
  • 可见回归常数\beta_0的方差不仅与随机误差的方差\delta^2和自变量x的取值离散程度有关,而且同样本数据的个数n有关。
  • n越大var(\hat \beta_0)越小
  • 所以要使\beta_0,\beta_1的估计值\hat\beta_0,\hat\beta_1更稳定,在收集数据时,就应该考虑x的取值尽可能分散一些,样本量也应该尽可能一些。
  • 由于\hat\beta_0,\hat\beta_1服从正态分布,有
  • \hat\beta_0 \sim N(\beta_0,(\frac{1}{n} +\frac{(\bar x)^2}{L_{xx}})\delta^2)
  • \hat\beta_1 \sim N(\beta_1,\frac{\delta^2}{L_{xx}})
  • \hat\beta_0,\hat\beta_1的协方差:cov(\hat\beta_0,\hat\beta_1) = -\frac{\bar x}{L_{xx}}\delta^2,说明\bar x=0时,\hat\beta_0和\hat\beta_1不相关,在正态假定下独立;在\bar x\neq 0时不独立。
  • 根据高斯-马尔科夫条件可以证明,\hat\beta_0和\hat\beta_1分别是\beta_0和\beta_1的最佳线性无偏估计(beat linear unbiased estimator,BLUE),也称为最小方差线性无偏估计。
  • 对固定的x_0来讲\hat y_0 = \hat\beta_0 + \hat\beta_1 x_0也是y_1,y_2,...,y_n的线性组合,且\hat y_0 \sim N(\beta_0 + \beta_1 x_0,(\frac{1}{n} + \frac{(x_0 - \bar x)^2}{L{xx}})\delta^2)
  • 可见\bar y_0是E(y_0)的无偏估计
  • \bar y_0的方差随给定的x_0值与\overline x的距离|x_0 - \overline x|的增大而增大。
  • 说明在实际应用回归方程进行控制和预测时,给定的x_0值不能偏离样本均值太多,否则无论用回归方程做因素分析还是预测效果都不会理想。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 大师兄的应用回归分析学习笔记(二):一元线性回归(一)[https://www.jianshu.com/p/546...
    superkmi阅读 260评论 0 2
  • 准备 ①导入文件查看默认存储路径,再将csv文档存入文件夹打开:(使用逗号作为小数点、分号作为字段分隔符的地区中使...
    小新122阅读 2,253评论 0 1
  • 一元线性回归 昨天简单的写了一下回归模型、参数假设和参数估计的办法,今天学习参数的性质和极大似然估计。 参数 β1...
    cry15阅读 1,679评论 0 0
  • 参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾...
    愚盆阅读 3,175评论 0 1
  • 第5章 多元线性回归 5.1 二元线性回归 一元线性回归会遗漏变量 Xi1中,i表示第i个个体,1表示是第一个解释...
    mhhhpl阅读 10,301评论 1 0