首发于公众号:可乐的数据分析之路
高尔顿发现了“向平均回归”,一个总体中在某一时期具有某一极端特征的个体在未来的某一时期将减弱它的极端性,比如非常矮小的父辈倾向于有偏高的子代,而非常高大的父辈则倾向于有偏矮的子代。这些都是“回归效应”
之前也写过回归分析的文章,今天再说回归分析:
细说回归分析
变量间的度量
对于数值型自变量和数值型因变量之间的分析方法就要用到相关与回归分析。变量间的关系有两种:函数关系和相关关系。
函数关系
函数关系是一一对应的确定关系,因变量y随自变量x的变化而变化,比如销售额和销量之间的关系,就是线性函数关系。
相关关系
但是很多时候变量之间的关系是不确定的,这种不确定的数量关系就是相关关系。比如父母身高和子女身高,一个变量的取值不能由另一个变量唯一确定。
1.画散点图
通过散点图可以直观地看到变量之间的关系。
2.计算相关系数
发现有线性关系后,可以通过计算相关系数得出变量之间相关关系的强度。
需要注意的是:
- r=0只能说明变量之间没有线性相关关系,但不能说变量之间没有任何关系。
- 变量之间的相关关系不等于因果关系
3.相关系数的显著性检验
对相关系数进行显著性检验,以此来判断样本所反映的关系能否代表总体。
这里用t检验
- 提出假设
H0:总体相关系数等于0,结果不显著
H1:总体相关系数不等于0,结果显著 - 计算检验统计量
- 决策
一元线性回归
前面在讲相关关系如何分析,回归分析主要解决的是:
- 用数学表达式将变量间的数量关系描述出来
- 确定一个/几个变量对另一个/几个变量的影响程度
- 根据一个/几个变量的取值来估计预测另一个变量的取值
回归模型
只涉及一个变量的称为一元回归,且变量之间为线性关系的称为一元线性回归,其回归方程可以表示为:
[图片上传失败...(image-1adf9f-1607152509731)]
其图示是一条直线,实际上描述其关系的直线有很多条,究竟用哪条来代表两个变量之间的线性关系呢?这里就需要一个原则,就是最小二乘法。通过最小二乘法得到的回归线能使离差平方和达到最小,但不一定是拟合数据的最佳直线。
回归分析的计算量很大,通常我们可以依靠Excel、Python等工具来辅助我们计算分析。
判定系数R平方
判定系数是对估计的回归方程拟合程度的度量。R平方的取值范围是[0,1],R平方越接近于1,表示回归直线拟合的程度越好。
显著性检验
在得到了估计方程后,不能马上用来预测,因为该方程是根据样本数据得到的,它是否能真实地反映总体的关系,还需要进行两方面的检验:
1.线性关系的检验
检验自变量和因变量之间的线性关系是否显著。用F检验。
- 提出假设
H0:两个变量之间的线性关系不显著 - 计算检验统计量F
significance F用于检验的显著性F,也就是P值 - 决策
若significance F小于给定的显著性水平则拒绝H0,两个变量之间的线性关系显著。
2.回归系数的检验
检验自变量对因变量的影响是否显著。用t检验
- 提出假设
H0:自变量对因变量的影响不显著
H1:自变量对因变量的影响显著 - 计算检验统计量t
P-value,直接与给定的显著性水平比较 - 决策
若P-value小于显著性水平,则拒绝H0,自变量对因变量的影响显著。
多元线性回归
一个因变量与多个自变量之间的回归关系就是多元回归,若因变量与自变量之间为线性关系,则为多元线性回归。
回归模型
多重判定系数
也用R平方来表示,意义与一元线性回归中的R平方类似,
显著性检验
在一元线性回归中,线性关系的检验和回归系数的检验是等价的,因为只有一个自变量。但在多元线性回归中,就不等价了
1.线性关系的检验
这里用F检验说明的是总体的显著性,总的多元回归方程是否具有线性关系,若要判断每个自变量对因变量的影响是否显著,则需要分别进行t检验
2. 回归系数的检验
t检验分别对每个自变量与因变量进行回归系数的检验,判断其影响程度,如果某个自变量没有通过检验,则说明该自变量对因变量的影响不显著,就没有必要将该自变量放进回归模型当中了。
举个例子
[图片上传失败...(image-3c0f76-1607152509731)]
多重共线性
多元线性回归中,可能会遇到自变量之间彼此相关的问题,这就是多重共线性。
多重共线性导致的主要问题是对单个回归系数的解释和检验
如何判别多重共线性?
- 计算自变量之间的相关系数
- 对相关系数进行显著性检验
如何处理多重共线性?
- 将相关的自变量从模型中剔除
- 若一定要保留,则对因变量的推断应限定在自变量样本值的范围内