回归分析基本假设

置信区间 `置信区间是随机变量`

置信水平：95%置信区间，从总体中对样本进行随机采样，计算参数的置信区间，那么100次这样的独立过程，有95%的概率计算出的区间包括真实参数值。

置信水平固定，样本量越多，置信区间越窄。

方差及标准差

衡量数据集中样本分布的离散程度

协方差 `相关系数`

衡量样本之间的相关性

回归分析的基本假设 `LINE`

Linearity 线性

应变量和每个自变量都是线性关系。
若不满足，会导致很大的泛化误差。
If patterns are not linear, it would be worthwhile to explore data transformations.

Indpendence 独立性

对于所有的观测值，它们的误差项相互之间是独立的。
若不满足，即很强的自相关性；假设同一样本存在自相关性(序列相关性)，测得的标准差往往会偏小，进而会导致置信区间变窄。

Normality 正态性

误差项服从正态分布；
Most statistic tests rely on normal distribution assumption.
Univariate normality doesn't ensure multivariate normality, but it helps.

Equal-variance 等方差

总体回归函数中的随机误差项具有相同的方差，即模型满足同方差性。
Just by ensuring normality in some variables, we solved the homoscedasticity problem.

自变量之间相互独立

若不满足，多重共线性（Multicollinearity），导致标准差偏大，置信区间变宽；可通过正则化方法消除（L1/L2 norm）。

最后编辑于：2018.05.30 11:27:26

回归分析基本假设

置信区间 置信区间是随机变量

方差及标准差

协方差 相关系数

回归分析的基本假设 LINE

推荐阅读更多精彩内容

置信区间 `置信区间是随机变量`

协方差 `相关系数`

回归分析的基本假设 `LINE`