一元回归模型
回归模型
- y = β1 * x + β2 + ε
- ε ~ N(0,σ^2)
模型解释:
β1:斜率、β2:截距、 ε:随机变量
注: 每一个x都有一个对应的随机变量ε
模型假设
- E(ε) = 0
- D(ε) = σ^2
- Cov(ε1,ε2) = 0
- ε ~ N
回归模型是一个多总体的模型x的水平不同,因变量y的分布也不同
参数估计
我们希望最后回归出来的直线能够比较好的描述问题,即散点均匀的分布在回归的直线左右。这里会引入一个概念——‘残差’。
- 残差
我们回归出来的方程是一条确定的直线,但现实是随机的。所以实际的(x,y)总是落在回归方程附近。那么实际值记为y1,理论值记为y2。那么残差=y1-y2。 - 最小二乘估计
考虑到残差有正有负,我们将残差的平方进行求和。那么最小的残差平方和对应的 β1、β2是我们希望回归出来的参数,记作Q( β1,β2)。这种方法也叫做最小二乘法。
Q( β1,β2) = sum((y1 - y1)^2) = sum((y1 - β1 * x + β2)^2)- β1 = sum((x - x_mean) * (y - y_mean)) / sum((x - x_mean)^2)
- β2 = y_mean - β1 * x_mean
名词解释:sum()是求和、x_mean、y_mean是x、y的均值。
今天先就这样,明天学习β1、β2参数的性质,极大似然估计,显著性检验和残差分析。