1. ANOVA原理及应用- 矩阵运算

详见Applied Linear Statistical Models 5th Edition, Part one, 5.5 Linear dependence and rank of matrix
R/SAS/Python代码见后续发布

1. 复习矩阵基本概念

1.单位矩阵(Identity matrix): 对角阵(row=column),切主对角线上全为1. 可记做IrIc
2.对称阵(Symmetric): aij=aji, 沿主对角线对称
3.幂等矩阵(Idempotent) : A2 = A

如果A为幂等矩阵,(I-A)也为幂等矩阵

4.正交矩阵(Orthogonal):

P为正交阵如果
(i)P为square (ii)PP'=I (iii)P'P=I

5. 转置(transpose)

(A+B)T=AT+BT
(AB)T=BTAT
(ABC)T=CTBTAT

6. 矩阵的秩(rank)

rk(A) equals the number of linearly independent column (row) of A
回归分析中默认使用满值矩阵

7. 矩阵的逆(Inverse)

AA-1=A(-1)A = I
(AB)-1=B-1A-1

2. 矩阵在线性回归的应用

(1)Simple linear regression

假设线性模型为: Yi01Xi+ei, i=1,…,n
上式可以写成 Y = X * β + e 的形式,中间含X的矩阵为Design matrix
\begin{bmatrix} Y1 \\\vdots \\Yn \end{bmatrix} = \begin{bmatrix} 1&X1 \\\vdots&\vdots \\1&Xn \end{bmatrix} \begin{bmatrix} β0 \\β1 \end{bmatrix} \begin{bmatrix} e1 \\\vdots \\en \end{bmatrix}\tag{4}

(1)e,Var(e)和\hat{Var}(e)

e=Y-\hat{Y}=Y-HY=(I-H)Y
由于线性回归模型前提假设E(e)=0, Var(e)= \left[\begin{matrix}σ^2& \cdots &0 \\\vdots & \ddots & \vdots \\0& \cdots &σ^2 \\\end{matrix}\right]
Var(e)=Var[(I-H)Y] 得出
\hat{Var}(e)=MSE(I-H)

(2)Var(Y)

Var{Y}=E{[Y-E(Y)][Y-E(Y)]T}
假设样本数量为n,由n个X得出对应n个Y, Y是一个n*1的矩阵;Y-E(Y)也是一个n*1的矩阵
那么Var{Y}为 n*1 * 1*n 也就是n*n的阵, 也叫variance-covariance matrix

(3) \hat{β} = (XTX)-1XTY

由normal equation得出
\hat{Y}-X\hat{θ}=ε的形式均可求导得出最优解(参数估计) \hat{θ} = (X^TX)^{-1}X^TY 使ε(random error)最小.

(4)Hat matrix

\hat{Y}=X\hat{β}=X(X^TX)^{-1} X^TY
H_{n*n}=X(X^TX)^{-1} X^T 称为Hat matrix

(5)ANOVA result

公式推导不多赘述,直接给结果
SST=Y^TY-\frac{1}{n}Y^TJY
SSE=Y^TY-\hat{β}^TX^TY
SSR=SST-SSE=\hat{β}^TX^TY-\frac{1}{n}Y^TJY

由于二次方程可以写成如下形式
a_{11}Y_1^2+(a_{21}+a_{12})Y_1Y_2+a_{22}Y_2^2
相应矩阵为
Y^TAY= \begin{bmatrix} Y1&Y2 \end{bmatrix} \begin{bmatrix} a_{11}&a_{12} \\a_{21}&a_{22} \end{bmatrix} \begin{bmatrix} Y1 \\Y2 \end{bmatrix}\tag{4}
SST=Y^T(I-\frac{1}{n}J)Y
SSE=Y^T(I-H)Y
SSR=Y^T(H-\frac{1}{n}J)Y

(2)Multiple linear regression

和SLR同理
Design Matrix= \begin{bmatrix} 1&X_{11}&\dots&X_{1p} \\1&X_{21}&\dots&X_{2p}\\\vdots&\vdots&&\vdots \\1&X_{n1}&\dots&X_{np} \end{bmatrix}
自由度差异:
在SLR中MSE=SSE/(n-2)
MLR中MSE=SSE/(n-p-1); (损失一个β0,p个βi的自由度)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容