一元线性回归
昨天简单的写了一下回归模型、参数假设和参数估计的办法,今天学习参数的性质和极大似然估计。
参数 β1、β2的性质
因为y是随机变量,组成y的β1、β2也是随机变量。那么β1、β2也有概率分布、均值、方差、协方差。
- 线性
β1、β2是关于y的线性函数 - 无偏性
- E(y) = y_mean
- E(β1) = β1
- E(β2) = β2
β1、β2都是无偏估计,其意义在于屡次更改数据,反复求β1、β2的估计量,这两个估计量都没有高估或低估的系统趋势。
- β1 、β2的方差
- var(β1) = σ^2 / sum((x_i - x)^2)
- var(β2) = [1/n + x^2 / sum((x_i - x)^2)] * σ^2
- cov(β1,β2) = -x / Lxx * σ^2
Lxx = sum((x_i - x_mean)^2)
由var(β1)、var(β2)我们知道β1不仅与σ^2 有关,还与x的离散程度有关。β2不仅与σ^2、x的离散程度有关,还与数据量n有关。那么在收集数据时就应该注意x的值应该尽可能分散、样本量应该大一些。
在之前的模型假设中有这样两个条件:E(ε) = 0 、Cov(ε1,ε2) = 0。而他们对应的是高斯-马尔可夫条件:
- E(ε_i) = 0 , i =1,2,3,4....
- Cov(ε_i,ε_j) = { σ^2 ,i == j }、{ 0,i != j } ,i、j = 1,2,3,4....
在此条件下可以得出β1、β2是最佳线性无偏估计(BLUE),也称最小方差线性无偏估计
最后在固定x0的情况下y0 = β1 * x0 + β2,y0的方差随给定的x0与x_mean的距离增大而增大。那么在实际中应用回归方程进行控制与预测时,给定x0不能太偏离x_mean,否则效果不理想。
极大似然估计
极大似然估计其实就是对于发生的事件是当作概率最大的看待。
极大似然估计最后求出来的是β1、β2、σ^2。而β1、β2估计出来的值与最小二乘一样就不做阐述。 σ^2 = sum(e_i^2) / n ,e是残差。这个估计量是有偏估计。