多元相关与回归分析及R使用 - part1

本章为MOOC《多元统计分析与R语言建模》课程的第4章，内容明显比前两章多多了。

4.1变量间的关系分析

变量间的关系及分析方法

2020-02-19 17-52-35屏幕截图.png

两变量线性相关系数

样本的线性相关系数

$r = \frac {s_{xy}}{\sqrt{{s_x^2}{s_y^2}}} = \frac {l_{xy}}{\sqrt{l_{xx}l_{yy}}} = \frac {\sum{(x-\overline x)(y - \overline{y})}}{\sqrt{(x-\overline x)^2(y - \overline y)^2}}$

相关系数的假设检验步骤：
- 建立假设检验： $H_0:\rho = 0,H_1:\rho ≠ 0, \alpha = 0.05$
- 计算相关系数 $r$ 的 $t$ 值： $t = \frac{r-0}{\sqrt{\frac {1-r^2}{n-2}}}$
- 计算 $P$ 值，作结论：若 $P < 0.05$ ，便可在 $\alpha = 0.05$ 的水准上拒绝 $H_0$ ，接受 $H_1$ 。
R语言函数

相关系数计算函数
cor(x,y=NULL,method=c("pearson","kendall","spearman"))
x为数值向量、矩阵或者数据框，y为空或数值向量、矩阵或数据框；

相关系数假设检验函数
cor.test(x,y)

两变量间的回归分析

回归分析研究两边量之间的依存关系，变量区分出自变量和因变量，并研究确定自变量和因变量之间的具体关系的方程形式，即回归模型，其中以一条直线方程表明两边量依存关系的模型叫单变量（一元）线性回归模型。其主要步骤包扩：建立回归模型、求解回归模型中的参数、对回归模型进行检验等。

直线方程模型为： $\hat y = \alpha + bx$
一元线性回归模型的参数估计（最小二乘法）：
$b = \frac {\sum_{i=1}^n{(x_i - \overline x)(y_i - \overline y)}}{\sum_{i=1}^n{(x_i - \overline x)^2}} , \alpha = \overline y - b\overline x$
回归系数的假设检验，方法有二：

（1）方差分析：

也就是对整个模型进行检验，大致步骤如下：

建立假设检验： $H_0$ ：所有回归系数都等于0， $\alpha$ =0.05；
计算统计量 $F$ ：

$F = \frac{MS_R}{MS_E}$

其中：

$MS_R = \frac {SS_R}{df_R},MS_E = \frac {SS_E}{df_E} \\ SS_R = \sum_{i=1}^n{(\hat y_i - \overline y)} = b\sum_{i=1}^n{(y_i - \overline y )(x_i - \overline x)} = bl_{xy} \\ SS_E = \sum_{i=1}^n{(y_i - \overline y_i)^2 - \sum_{i=1}^n{(\hat y_i - \overline y)^2}}$
计算P值，作结论：若 $P < 0.05$ ，便可于 $\alpha = 0.05$ 的水平处拒绝 $H_0$ ，即回归系数具有统计学意义，因变量与自变量之间存在直线回归关系。

（2） t检验：

也就是单独对回归系数进行检验，相对应的零假设就是某个回归系数等于零。统计量为：

$t = \frac{b - \beta}{s_b}\ \tilde{~}\ t(n-2)$
其中：

$S_b = \frac{S_{y,x}}{\sqrt{\sum_{i=1}^n(x_i - \overline x)}} = \frac{S_{y,x}}{\sqrt{l_{xx}}} \\ S_{y,x} = \sqrt{\frac{\sum_{i=1}^n(y_i - \hat y_i)^2}{n-2}} = \sqrt{\frac{SSE}{n-2}}= \sqrt{MSE}$

R语言函数

线性拟合函数：
lm(formula,data)

添加回归线：
abline(model)

模型方差分析：
anova(model)

回归系数t检验：
summary(model)

4.2 多元线性回归分析

多元回归参数的最小二乘估计

从多元线性模型的回归矩阵形式 $y = \mathbf{X}\beta + \epsilon$ 可知，若模型的参数 $\beta$ 已获得，则 $\hat y = \mathbf X \hat \beta$ ，于是残差 $e_i = y_i - \hat y_i$ ，根据最小二乘的原理，所选择的估计方法应是估计值 $\hat y_i$ 与观察值 $y_i$ 之间的残差 $e_i$ 在所有样本点上达到最小，即使：
$Q = \sum_{I=1}^n(y_i - \hat{y}^2) = e^{'}e = (y - \mathbf{X}\hat \beta)^{'}(y-\mathbf{X}\hat{\beta})$ 达到最小，根据微积分求极值的原理， $Q$ 对 $\beta$ 求导且等于0，可求得使 $Q$ 达到最小的 $\hat \beta$ ，这就是所谓的最小二乘（LS）法。

多元回归参数的统计检验

多元回归的假设检验同样也可用方差分析以及t分析，只不过统计量的计算方法有所不同：

多元回归方差分析：

$F = \frac{MS_R}{MS_E}\ \tilde{~}\ F (p,n - p - 1)$

其中：

$MS_R =\frac{SS_R}{df_R} = \sum_{i=1}^n{\frac{(\hat{y_i} - \overline{y})^2}{p}}$ $MS_E = \frac{SS_E}{df_E}$
方差分解为：
$SS_r = \sum_{i=1}^n(y_i - \overline{y})^2 = \sum_{i=1}^n(y_i - \hat{y_i})^2 + \sum_{i=1}^n(\hat{y_i} - \overline{y})^2 = SS_R + SS_E$

回归系数的t检验：

$t_j = \frac{\hat{\beta_j} - \beta_j}{s_{\hat{\beta_j}}},j=1,2,\cdots,p$

标准化回归系数

在多元线性回归方程中，由于各自变量的单位不同，得到的回归系数也就有不同的量纲，因此，回归系数的大小只能表明变量与因变量在数量上的关系，而不能表示各自变量在回归方程的重要性。要比较各个自变量的重要性必须消除单位的影响，为此，在做线性回归时需要对变量值作标准化的变换，即变量减去其均值并除以其标准差的估计，由此得到的回归系数被称为标准化系数。

因为标准化系数没有单位，可用其绝对值大小来说明多元回归模型中各自变量的相对重要性，标准化系数的含义是当自变量增加一个单位时，因变量增加或减少的单位数，它与原来未标准化的多元回归系数的关系为：

$\hat{\beta}^{'} = \hat{\beta_i}\frac{s_i}{s_y}(i = 1,2,\cdots,p)$

可以看出，标准化系数不仅与自变量的回归系数相关，而且与这个自变量的波动程度有关。如果波动程度较大（自变量的标准差较大），自变量就会显得较为重要，否则就显得不太重要。然而在利用上式求解标准化系数时，没有考虑各变量间是否存在交互作用。

R语言函数

library(mvstats)
coef.sd(model) #计算标准化回归系数

4.3 多元相关分析

在相关分析中，研究较多的是两个变量之间的关系，称为简单相关；当涉及到的变量为3个或以上时，称为偏相关或复相关。

设样本矩阵为：
$\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \cdots & \cdots & \cdots & \cdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix}$

此时任意两个变量间相关系数构成的矩阵为：

$R ={\begin{bmatrix} r_{11} & r_{12} & \cdots & r_{1p} \\ r_{21} & r_{22} & \cdots & r_{2p} \\ \cdots & \cdots & \cdots & \cdots \\ r_{p1} & r_{p2} & \cdots & r_{pp} \end{bmatrix} } = {\begin{bmatrix} 1 & r_{12} & \cdots & r_{1p} \\ r_{21} & 1 & \cdots & r_{2p} \\ \cdots & \cdots & \cdots & \cdots \\ r_{p1} & r_{p2} & \cdots & 1 \end{bmatrix} } = (r_{ij})_{p*p}$

其中 $r{ij}$ 为任意两变量之间的简单相关系数：

$r_{ij} = \frac{\sum_{ij}(x_i - \overline{x})(y_i - \overline{y})}{\sqrt{\sum_i(x_i - \overline{x})^2 \sum_j(y_j - \overline{y})^2}}$

R语言函数

多元数据相关系数矩阵计算函数：cor()

相关矩阵检验函数：mvstats::corrtest()

复相关分析

在实际分析中，一个变量的变化往往要受到多种变量的综合影响，这时就需要采用复相关分析方法。所谓复相关，就是研究多个变量同时与某个变量之间的相关关系，度量复相关程度的指标是复相关系数。

假定回归模型为：

$y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_px_p + e$
$\hat y = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p$

复相关系数计算公式为：
$R = \sqrt{\frac{\sum{(\hat{y_i} - \overline{y})^2}}{\sum{(y_i - \overline y})^2}} = \sqrt{\frac{SS_R}{SS_T}}$
决定系数为：
$R^2 = \frac{SS_R}{SS_T}$

R语言代码

显示多元线性回归模型决定系数：R2= summary(model)$r.sq

显示多元数据复相关系数：R = sqrt(R2)

最后编辑于：2020.02.25 14:45:58

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,509评论 6赞 504
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,806评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,875评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,441评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,488评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,365评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,190评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,062评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,500评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,706评论 3赞 335
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,834评论 1赞 347
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,559评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,167评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,779评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,912评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,958评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,779评论 2赞 354