前言

不知道你是否见过这样的图：

企鹅分组.png

这是对三组数据的线性回归，来自经典数据集“帕尔默群岛的企鹅”

横轴（bill_depth）表示嘴峰深度。
纵轴（bill_length）表示嘴峰长度。
不同颜色表示不同种类的企鹅。
在看到这样的图时，你是否会有疑问：置信区间为什么会出现两边宽，中间窄的情况咧？
我们从线性模型开始

线性模型

假设响应变量 $Y$ 和自变量 $X_1, X_2, X_3...X_k$ 存在简单线性关系（两者可以用最简单的线性模型描述）：
$Y = \beta_0 + \beta_1X + \varepsilon$
其中 $\beta_0 , \beta_1$ 是回归参数（回归系数）， $\varepsilon$ 是误差项。
根据这个式子我们可以得到预测值与自变量之间的关系：
$\hat{y}_i = \hat{\beta_1}x_i +\hat{\beta_0}$

最小二乘估参数

定义残差 $e_i = y_i - \hat{y}_i$

如果我们找到一条直线，使得每个预测值和实际值之间的差的平方和（或者绝对值、正负项和）最小，也就是残差平方和最小，此时的直线最接近实际的数据，由此而来只需要计算残差平方和（residual sum of squares ,RSS），并求其取最小值时的 $\beta_0 , \beta_1$ ，即可找到拟合直线，前人已经计算过了，使RSS最小的参数估计值是：
$\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^{n} (x_i - \overline{x})^2}$
$\hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x}$

置信区间

某一个预测值 $\hat{y}$ 的置信区间 $CI_\hat{y}$ （confidence interval）可以用以下的式子表达：
$CI_{\hat{y}} = \hat{y} \pm t_{\alpha/2, n-2} \cdot SE_{\hat{y}}$
其中某一个预测值 $\hat{y}$ 的标准误差 $SE_\hat{y}$ （standard error）可以用以下的式子表达：
$SE_{\hat{y}} = S \sqrt{1 + \frac{1}{n} + \frac{(x - \overline{x})^2}{\sum (x_i - \overline{x})^2}}$
其中：

$S$ 是残差的标准误。
$n$ 是样本大小。
$\overline{x}$ 是自变量的均值。
$x$ 是特定的自变量。

合在一起就得到了预测值置信区间的表达式：
$CI_{\hat{y}} = (\beta_0 + \beta_1x) \pm t_{\alpha/2, n-2} \cdot S \sqrt{1 + \frac{1}{n} + \frac{(x - \overline{x})^2}{\sum (x_i - \overline{x})^2}}$

结论

由上式可知当 $x$ 取到 $\overline{x}$ 附近时， $(x - \overline{x})^2$ 逐渐变小，使得偏差部分整体变小，那么此时的置信区间就会变小，反映在图上就是中间窄、两边宽了；

还有一种直观的理解是：左侧点对右侧预测值的影响没有那么大，右侧点对左侧预测值的影响也没有那么大，但是两边的点都会为预测中间的值作出贡献，因此中间的预测值实际上是在获得了更多信息（两侧的点）后预测得到的，加上回归直线一定会过 $(\overline{x}, \overline{y})$ 点，所以预测中间值的信心就很足，置信区间就窄一点。

线性回归-置信区间为何在中部收窄？

线性回归-置信区间为何在中部收窄？

前言

线性模型

最小二乘估参数

置信区间

结论

推荐阅读更多精彩内容