线性回归-置信区间为何在中部收窄?

前言

不知道你是否见过这样的图:

企鹅分组.png

这是对三组数据的线性回归,来自经典数据集“帕尔默群岛的企鹅”

  • 横轴(bill_depth)表示嘴峰深度。
  • 纵轴(bill_length)表示嘴峰长度。
  • 不同颜色表示不同种类的企鹅。
    在看到这样的图时,你是否会有疑问:置信区间为什么会出现两边宽,中间窄的情况咧?
    我们从线性模型开始

线性模型

假设响应变量Y和自变量X_1, X_2, X_3...X_k存在简单线性关系(两者可以用最简单的线性模型描述):
Y = \beta_0 + \beta_1X + \varepsilon
其中\beta_0 , \beta_1回归参数(回归系数)\varepsilon误差项
根据这个式子我们可以得到预测值与自变量之间的关系:
\hat{y}_i = \hat{\beta_1}x_i +\hat{\beta_0}

最小二乘估参数

  • 定义残差e_i = y_i - \hat{y}_i

如果我们找到一条直线,使得每个预测值和实际值之间的差的平方和(或者绝对值、正负项和)最小,也就是残差平方和最小, 此时的直线最接近实际的数据,由此而来只需要计算残差平方和(residual sum of squares ,RSS),并求其取最小值时的\beta_0 , \beta_1, 即可找到拟合直线,前人已经计算过了,使RSS最小的参数估计值是:
\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^{n} (x_i - \overline{x})^2}
\hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x}

置信区间

某一个预测值\hat{y}的置信区间CI_\hat{y}(confidence interval)可以用以下的式子表达:
CI_{\hat{y}} = \hat{y} \pm t_{\alpha/2, n-2} \cdot SE_{\hat{y}}
其中某一个预测值\hat{y}的标准误差SE_\hat{y}(standard error)可以用以下的式子表达:
SE_{\hat{y}} = S \sqrt{1 + \frac{1}{n} + \frac{(x - \overline{x})^2}{\sum (x_i - \overline{x})^2}}
其中:

  • S 是残差的标准误。
  • n 是样本大小。
  • \overline{x} 是自变量的均值。
  • x 是特定的自变量。

合在一起就得到了预测值置信区间的表达式:
CI_{\hat{y}} = (\beta_0 + \beta_1x) \pm t_{\alpha/2, n-2} \cdot S \sqrt{1 + \frac{1}{n} + \frac{(x - \overline{x})^2}{\sum (x_i - \overline{x})^2}}

结论

由上式可知当x取到\overline{x}附近时,(x - \overline{x})^2逐渐变小,使得偏差部分整体变小,那么此时的置信区间就会变小,反映在图上就是中间窄、两边宽了;

还有一种直观的理解是:左侧点对右侧预测值的影响没有那么大,右侧点对左侧预测值的影响也没有那么大,但是两边的点都会为预测中间的值作出贡献,因此中间的预测值实际上是在获得了更多信息(两侧的点)后预测得到的,加上回归直线一定会过(\overline{x}, \overline{y})点,所以预测中间值的信心就很足,置信区间就窄一点。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容