奇异值分解的几何意义阐述

对角矩阵是我们最喜欢的一类矩阵,因为给定一个对角阵立即就可以得到它的特征值,行列式,幂和指数函数等等

而一个n阶的方阵相似于对角阵当且仅当它存在着n个线性无关的特征向量。

特征值分解A_{n \times n}=Q \Lambda Q^{-1}A \mathbf{v}_{i}=\lambda_{i} \mathbf{v}_{i}

其中Q=\left(\mathbf{v}_{1} \cdots \mathbf{v}_{n}\right)\text { s.t. } Q^{\top} A Q=\Lambda=\operatorname{diag}\left(\lambda_{1}, \cdots, \lambda_{n}\right)A的特征向量组成的正交矩阵

正交矩阵受到关注是因为求逆的代价小Q^T=Q^{-1}


上面A_{n \times n}为实对称矩阵,那么矩阵A_{m \times n}如何“对角化”?


AA^TA^TA

设实矩阵A_{m \times n}的秩为r,则AA^Tm阶实对称矩阵,A^TAn阶实对称矩阵


A^{T} A \mathbf{x}=\lambda \mathbf{x}(\mathbf{x} \neq \mathbf{0}),则\mathbf{x}^TA^{T} A \mathbf{x}=\lambda \mathbf{x}^T \mathbf{x}

\|A \mathbf{x}\|^{2}=\lambda\|\mathbf{x}\|^{2}

\lambda\geq 0A^{T} A特征值都是非负数,同理AA^T特征值也都是非负数


矩阵的行秩与列秩相等

秩=列向量个数,称为列满秩。秩=行向量个数,称为行满秩。

因为r\left(A A^{T}\right)=r\left(A^{T} A\right)=r(A)=r(A^T)=r,所以AA^T非零特征值的数量=r=A^TA非零特征值的数量

\lambdaA^TA的非零特征值。即\exists \mathbf{x} \neq0,使得A^{T} A \mathbf{x}=\lambda \mathbf{x}

则有A A^{T} A \mathbf{x}=\lambda A \mathbf{x}。故\lambda也是A A^{T} 的非零特征值

因此AA^TA^TA具有相同的非零特征值


从上面证明看出AA^TA^TA的这r个非零特征值为\sigma_{1}^{2} \geq \cdots \geq \sigma_{r}^{2}>0,其中\sigma_{i}>0

V=\left(\mathbf{v}_{1} \cdots \mathbf{v}_{n}\right) \in \mathbb{R}^{n}n阶实对称方阵A^TA单位正交特征向量,则V^TV=I_{n}

A^{T} A\left(\mathbf{v}_{1} \cdots \mathbf{v}_{n}\right)=\left(\mathbf{v}_{1} \cdots \mathbf{v}_{n}\right)\left(\begin{array}{cccc}{\sigma_{1}^{2}} & {} & {} & {} \\{} & {\ddots} & {} & {} \\{} & {} & {\sigma_{r}^{2}} \\{} & {} & {} & {0}\end{array}\right)

注意到A^{T} A \mathbf{v}_{i}=\sigma_{i}^{2} \mathbf{v}_{i}(1 \leq i \leq r)

(\mathbf{v}_{i}^{T} A^{T}) A \mathbf{v}_{i}=\sigma_{i}^{2} (\mathbf{v}_{i}^{T} \mathbf{v}_{i}),即\left\|A \mathbf{v}_{i}\right\|^{2}=\sigma_{i}^{2} \rightarrow |A \mathbf{v}_{i}| = \sigma_{i}

\mathbf{u}_{i}=\frac{A \mathbf{v}_{i}}{\sigma_{i}} \in \mathbb{R}^{m}(1 \leq i \leq r),则AA^{T} \mathbf{u}_{i}=\sigma_{i}^{2} \mathbf{u}_{i}

并且\mathbf{u}_{i}^{T} \mathbf{u}_{j}=\frac{\left(A \mathbf{v}_{i}\right)^{T}}{\sigma_{i}} \frac{A \mathbf{v}_{j}}{\sigma_{j}}=\frac{(\mathbf{v}_{i}^{T}A^{T} )A \mathbf{v}_{j}}{\sigma_{i} \sigma_{j}}=\frac{\sigma_{j}^{2} (\mathbf{v}_{i}^{T} \mathbf{v}_{j})}{\sigma_{i} \sigma_{j}}=\frac{\sigma_{j}}{\sigma_{i}} \delta_{i j}=\delta_{i j}

\left\{\mathbf{u}_{i} | 1 \leq i \leq r\right\}AA^{T}单位正交特征向量


(1)\mathbf{u}_{i}=\frac{A \mathbf{v}_{i}}{\sigma_{i}} \in \mathbb{R}^{m}(1 \leq i \leq r) \rightarrow A \mathbf{v}_{i}=\sigma_{i} \mathbf{u}_{i}

(2)A^{T} A \mathbf{v}_{i}=\sigma_{i}^{2} \mathbf{v}_{i},(i \leq i \leq r) \rightarrow A^{T} \frac{A \mathbf{v}_{i}}{\sigma_{i}}=\sigma_{i} \mathbf{v}_{i} \rightarrow A^{T} \mathbf{u}_{i}=\sigma_{i} \mathbf{v}_{i}

由上式子得:UA列空间的一组单位正交基 U^{T} U=I_{m}VA^T的列空间的一组单位正交基V^{T} V=I_{n}σ_{i}A \mathbf{v}_{i}的长度,计\left(\begin{array}{cccc}{\sigma_{1}} & {} & {} & {} \\{} & {\cdot} & {} & {} \\{} & {} & {\cdot} & {} \\{} & {} & {} & {} & {\sigma_{r}}\end{array}\right)Σ,得:

A_{m \times n} V_{n \times r}=U_{m \times r} \Sigma_{r \times r}

A_{m \times n}=U_{m \times r} \Sigma_{r \times r} V^{-1}_{r \times n} =U_{m \times r} \Sigma_{r \times r} V^{T}_{r \times n}

\mathbb{R}^{n}=C\left(A^{T}\right) \oplus  N(A)\mathbb{R}^{m}=C(A) \oplus N\left(A^{T}\right)

A(\overbrace{\underbrace{\mathbf{v}_{1} \cdots \mathbf{v}_{r}}_{C(A^{T})} \underbrace{\mathbf{v}_{r+1} \cdots \mathbf{v}_{n}}_{N(A)}}^{V_{n \times n}})=(\overbrace{\underbrace{\mathbf{u}_{1} \cdots \mathbf{u}_{r}}_{C(A)} \underbrace{\mathbf{u}_{r+1} \cdots \mathbf{u}_{n}}_{N(A^T)}}^{U_{m \times m}})\overbrace{\left(\begin{array}{cccc}{\sigma_{1}^{2}} & {} & {} & {} \\{} & {\ddots} & {} & {} \\{} & {} & {\sigma_{r}^{2}} \\{} & {} & {} & {0}\end{array}\right)}^{Σ_{m \times n}}

A_{m \times n} V_{n \times n}=U_{m \times m} \Sigma_{m \times n}

SVD几何意义
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容