本章为MOOC《多元统计分析与R语言建模》课程的第4章,内容明显比前两章多多了。
4.1变量间的关系分析
变量间的关系及分析方法
两变量线性相关系数
- 样本的线性相关系数
-
相关系数的假设检验步骤:
- 建立假设检验:
- 计算相关系数的值:
- 计算值,作结论:若,便可在的水准上拒绝,接受。
R语言函数
- 相关系数计算函数
cor(x,y=NULL,method=c("pearson","kendall","spearman"))
x为数值向量、矩阵或者数据框,y为空或数值向量、矩阵或数据框;- 相关系数假设检验函数
cor.test(x,y)
两变量间的回归分析
回归分析研究两边量之间的依存关系,变量区分出自变量和因变量,并研究确定自变量和因变量之间的具体关系的方程形式,即回归模型,其中以一条直线方程表明两边量依存关系的模型叫单变量(一元)线性回归模型。其主要步骤包扩:建立回归模型、求解回归模型中的参数、对回归模型进行检验等。
直线方程模型为:
一元线性回归模型的参数估计(最小二乘法):
回归系数的假设检验,方法有二:
(1) 方差分析:
也就是对整个模型进行检验,大致步骤如下:
建立假设检验::所有回归系数都等于0,=0.05;
-
计算统计量:
其中:
-
计算P值,作结论:若,便可于的水平处拒绝,即回归系数具有统计学意义,因变量与自变量之间存在直线回归关系。
(2) t检验:
也就是单独对回归系数进行检验,相对应的零假设就是某个回归系数等于零。统计量为:
其中:
- R语言函数
- 线性拟合函数:
lm(formula,data)
- 添加回归线:
abline(model)
- 模型方差分析:
anova(model)
- 回归系数t检验:
summary(model)
4.2 多元线性回归分析
多元回归参数的最小二乘估计
从多元线性模型的回归矩阵形式可知,若模型的参数已获得,则,于是残差,根据最小二乘的原理,所选择的估计方法应是估计值与观察值之间的残差在所有样本点上达到最小,即使:
达到最小,根据微积分求极值的原理,对求导且等于0,可求得使达到最小的,这就是所谓的最小二乘(LS)法。
多元回归参数的统计检验
多元回归的假设检验同样也可用方差分析以及t分析,只不过统计量的计算方法有所不同:
- 多元回归方差分析:
其中:
方差分解为:
- 回归系数的t检验:
标准化回归系数
在多元线性回归方程中,由于各自变量的单位不同,得到的回归系数也就有不同的量纲,因此,回归系数的大小只能表明变量与因变量在数量上的关系,而不能表示各自变量在回归方程的重要性。要比较各个自变量的重要性必须消除单位的影响,为此,在做线性回归时需要对变量值作标准化的变换,即变量减去其均值并除以其标准差的估计,由此得到的回归系数被称为标准化系数。
因为标准化系数没有单位,可用其绝对值大小来说明多元回归模型中各自变量的相对重要性,标准化系数的含义是当自变量增加一个单位时,因变量增加或减少的单位数,它与原来未标准化的多元回归系数的关系为:
可以看出,标准化系数不仅与自变量的回归系数相关,而且与这个自变量的波动程度有关。如果波动程度较大(自变量的标准差较大),自变量就会显得较为重要,否则就显得不太重要。然而在利用上式求解标准化系数时,没有考虑各变量间是否存在交互作用。
- R语言函数
library(mvstats)
coef.sd(model) #计算标准化回归系数
4.3 多元相关分析
在相关分析中,研究较多的是两个变量之间的关系,称为简单相关;当涉及到的变量为3个或以上时,称为偏相关或复相关。
设样本矩阵为:
此时任意两个变量间相关系数构成的矩阵为:
其中为任意两变量之间的简单相关系数:
- R语言函数
- 多元数据相关系数矩阵计算函数:
cor()
- 相关矩阵检验函数:
mvstats::corrtest()
复相关分析
在实际分析中,一个变量的变化往往要受到多种变量的综合影响,这时就需要采用复相关分析方法。所谓复相关,就是研究多个变量同时与某个变量之间的相关关系,度量复相关程度的指标是复相关系数。
假定回归模型为:
复相关系数计算公式为:
决定系数为:
- R语言代码
- 显示多元线性回归模型决定系数:
R2= summary(model)$r.sq
- 显示多元数据复相关系数:
R = sqrt(R2)