一、简单线性回归
1.我们研究回归分析时要查看变量间是否存在相关性,线性相关公式为
但是这个地方要注意,这个系数为线性相关系数,不能说明非线性关系的相关性(至于非线性相关的相关性度量方式会在以后的简文中讲解),并且r只能度量变量间的相关程度,不能确定变量间的因果关系和直线公式。
2.随机扰动项u
u表示模型误差及模型拟合之外的未知影响因素的影响和变量的观测误差等
3.线性回归的假设
& u服从正态分布;u无自相关的假定;
正态分布即均值为0,方差一定,无相关性则是协方差为0(协方差0是无相关,但是不相关不一定协方差为0,两个不是充分不必要条件)
& 对u的假定可以用来假定因变量Y
随机扰动项与解释变量X不相关,且线性回归中,一般假定X为定性变量,是非随机的,所以Y与u的假定相同
4.最小二乘法
线性回归系数使用最小二乘法计算,使用样本概率最大估计样本剩余平方和的最小为最小二乘法,即使预测y与真实y之间的误差平方和达到最小
用微积分求解之后得到参数估计如下:
而线性回归的公式为y = B1+B2X,这里用B代替参数
5.最小二乘法和线性回归的统计特性
无偏性:系数估计值的均值与系数真实的均值相等;
有效性:系数估计具有无偏性和最小方差;
一致性:当n足够大时,系数估计值与真实值的差值小于任何一个给定的正数;
6.线性回归性质
回归线通过样本均值
估计值Y的均值和实际y的均值相等
剩余项e的均值为0
xy与u不相关;
7.线性回归拟合优度检验
& 总方差分解:
ESS回归平方和:预测Y与真实y均值的差值平方和
TSS离差平方和:样本观测值与平均值的差值平方和
RSS残差平方和:样本观测与预测的差值平方和
TSS=RSS+ESS
& 可决系数:
可决系数的推导及意义,直接上图
由推导公式可知,其实可决系数是最小二乘法的可以量化的度量,可决系数越大越好
8.回归系数区间估计和假设检验
真的是在纸上画图方便理解,所以还是上图吧,毕竟简书画图不方便
二、多元线性回归
虽然说在意义上,多元更有实际意义,是假定其他变量都不变情况下这一个变量的影响的度量,且叫做偏自相关系数,但是理论依据和理论推导都是相同的,这里就不再重复讲解
不过毕竟是多元,和一元总有不一样的地方,那我们就简单说下不一样的地方
1.可决系数 vs 修正可决系数
推导公式见下图
2.回归方程显著性检验用F检验
回归系数依然使用t检验
最后,回归前面设置了很多假设,所以在模型拟合完之后要查看u的分布,并进行模型和参数检验。
线性回归的使用方面很多,像公司做的预测,还有多变量时间序列其实使用的都是回归,这个在数值预测中非常常见,应用较广,同时,如果变量间不是线性关系,可以对y变量转换log之后进行回归查看效果,做回归之前可以先作图探索数据变化关系