置信区间 置信区间是随机变量
置信水平:95%置信区间,从总体中对样本进行随机采样,计算参数的置信区间,那么100次这样的独立过程,有95%的概率计算出的区间包括真实参数值。
置信水平固定,样本量越多,置信区间越窄。
方差及标准差
衡量数据集中样本分布的离散程度
协方差 相关系数
衡量样本之间的相关性
回归分析的基本假设 LINE
- Linearity 线性
应变量和每个自变量都是线性关系。
若不满足,会导致很大的泛化误差。
If patterns are not linear, it would be worthwhile to explore data transformations.
- Indpendence 独立性
对于所有的观测值,它们的误差项相互之间是独立的。
若不满足,即很强的自相关性;假设同一样本存在自相关性(序列相关性),测得的标准差往往会偏小,进而会导致置信区间变窄。
- Normality 正态性
误差项服从正态分布;
Most statistic tests rely on normal distribution assumption.
Univariate normality doesn't ensure multivariate normality, but it helps.
- Equal-variance 等方差
总体回归函数中的随机误差项具有相同的方差,即模型满足同方差性。
Just by ensuring normality in some variables, we solved the homoscedasticity problem.
- 自变量之间相互独立
若不满足,多重共线性(Multicollinearity),导致标准差偏大,置信区间变宽;可通过正则化方法消除(L1/L2 norm)。