重点归纳
关系
函数关系:确定性关系,y=3+10*x
相关关系:非确定性关系
相关系数
一元线性回归模型
- 参数
Y=α+βX+ε
截距项α
斜率β
误差项ε
例子:商品销量s关于电视广告费用t的回归方程:s=10+3.4*t(单位:万元)
- 如何确定参数
lm()线性模型函数
- 求模型系数
coef(a)
(Intercept) x
-140.36436 1.15906
- 提取模型公式
formula(a)
y ~ x
- 计算残差平方和(什么是残差平方和)
deviance(a)
[1] 64.82657
- 绘画模型诊断图(很强大,显示残差、拟合值和一些诊断情况)
plot(a)
- 计算残差
residuals(a)
1 2 3 4 5 6 7
-0.8349544 1.5288044 -2.9262307 -1.2899895 -0.8128086 1.2328296 2.8690708
8 9 10 11 12
1.2784678 2.6422265 -3.0396529 3.0737693 -3.7215322
- 计算方差分析表
anova(a)
- 提取模型汇总资料
summary(a)
- 作出预测
z=data.frame(x=185)
predict(a,z)
1
74.0618
predict(a,z,interval="prediction", level=0.95)
fit lwr upr
1 74.0618 65.9862 82.13739
内推插值不外推归纳
多元线性回归模型
- 参数估计
最小二乘法:不一元回归方程的算法相似
虚拟变量
- 虚拟变量的定义
- 虚拟变量的作用
- 虚拟变量的设置
- 虚拟变量的使用
应该选择哪些变量?
- RSS(残差平方和)不R2(相关系数平方)选择法:遍历所有可能的组合,选出使RSS最小,R2最大的模型
- AIC(Akaike information criterion)准则不BIC(Bayesian information criterion)准则
AIC=n ln (RSSp/n)+2p
n为变量总个数,p为选出的变量个数,AIC越小越好
逐步回归
向前引入法:从一元回归开始,逐步增加变量,使指标值达到最优为止
向后剔除法:从全变量回归方程开始,逐步删去某个变量,使指标值达到最优为止
逐步筛选法:综合上述两种方法
step()函数 forward backward both
sl=step(s,direction="forward")
回归诊断
- 样本是否符合正态分布假设?
正态性检验:函数shapiro.test( X$X1)
P>0.05,正态性分布
- 是否存在离群值导致模型产生较大误差?
- 线性模型是否合理?
- 误差是否满足独立性、等方差、正态分布等假设条件?
- 是否存在多重共线性?