机器学习中的数学——特征向量、矩阵对角化

  1. 线性代数
    向量,向量空间;矩阵, 线性变换;
    特征值, 特征向量;奇异值, 奇异值分解
  2. 概率论与统计
    随机事件;条件概率, 全概率,贝叶斯概率;
    统计量, 常见分布; 基本原理
  3. 最优化理论
    极限, 导数;线性逼近, 泰勒展开;
    凸函数, jensen不等式;最小二乘法; 梯度, 梯度下降

矩阵和线性变换

方阵能描述任意线性变换, 线性变换保留了直线和平行线, 但原点没用移动.
\pmb v = \begin{bmatrix} x\\ y\\ z\\ \end{bmatrix} =\begin{bmatrix} x\\ 0\\ 0\\ \end{bmatrix}+\begin{bmatrix} 0\\ y\\ 0\\ \end{bmatrix}+\begin{bmatrix} 0\\ 0\\ z\\ \end{bmatrix}
\pmb v =\begin{bmatrix} x\\ y\\ z\\ \end{bmatrix}=x\times \begin{bmatrix} 1\\ 0\\ 0\\ \end{bmatrix}+y\times \begin{bmatrix} 0\\ 1\\ 0\\ \end{bmatrix}+z\times \begin{bmatrix} 0\\ 0\\ 1\\ \end{bmatrix}
向量的每一个坐标都表明了平行于相应坐标轴的有向位移.
如果把矩阵的行解释为坐标系的基向量,那么乘以该矩阵就相当于执行了一次坐标转换,如果aM=b,我们就可以说,M将a转换b
从这点看,术语“转换”和“乘法”是等价的。
坦率地说,矩阵并不神秘,它只是用一种紧凑的方式来表达坐标转换所需的数学运算。进一步,用线性代数操作矩阵,是一种进行简单转换或导出更复杂转换的简便方法.
我们可以不依赖于坐标系而沿任意方向进行缩放,设\vec{n}为平行于缩放方向的单位向量,k为缩放因子,缩放沿穿过原点并平行于\vec{n}的直线(2D中)或平面(3D中)进行。

\vec{v} = \vec{v}_{||}+\vec{v}_{⊥}
\vec{v}_{||}=(\vec{v}\cdot \vec{n})\vec{n}
\vec{v}_{⊥}=\vec{v}-\vec{v}_{||}=\vec{v}-(\vec{v}\cdot \vec{n})\vec{n}

\vec{v}^{'}=\vec{v}_{||}^{'}+\vec{v}_{⊥}^{'}
\vec{v}_{⊥}^{'}=\vec{v}_{⊥}=\vec{v}-(\vec{v}\cdot\vec{n})\vec{n}
\vec{v}_{||}^{'}=k\cdot\vec{v}_{||}=k\cdot(\vec{v}\cdot\vec{n})\vec{n}
\vec{v}^{'}=\vec{v}_{⊥}=\vec{v}-(\vec{v}\cdot\vec{n})\vec{n}+k\cdot(\vec{v}\cdot\vec{n})\vec{n}=\vec{v}+(k-1)(\vec{n}\cdot\vec{v})\vec{n}
<font color='blue'>(待补充)</font>

特征值与特征向量

<font color='blue'>定义:An阶方阵, 对于\lambda, 存在非零向量\vec v, 使得\pmb A\vec v=\lambda\vec v,则:\lambda就叫特征值, \vec v就叫对应\lambda的特征向量
特征值可以为0, 特征向量不能为0</font>
\pmb A\vec x =\lambda \vec x ~~~~ x\not= 0

(\pmb A-\lambda \pmb E)\vec x = 0

|\pmb A-\lambda\pmb E|=0
其中\lambdax为我们需要求得值

<font color='red'>

  • \pmb Ax代表向量的线性变换,\lambda x代表向量拉伸变换
  • 特征向量的含义就在于使得哪些向量只发生拉伸变换
  • 而特征值用于衡量相应的拉伸系数
  • 特征值就是运动的速度, 特征向量就是运动的方向

注:只有方阵才能计算特征值和特征向量
</font>


例:
\pmb A=\begin{bmatrix} 4&0\\ 3&-5\\ \end{bmatrix}
求特征值:
|\pmb A-\lambda \pmb E|
=\begin{bmatrix} 4-\lambda&0\\ 3&-5-\lambda \end{bmatrix}
=(4-\lambda)(-5-\lambda)=0
得:\lambda_{1}=-5, \lambda_{2}=4
针对特征值\lambda_{1}=-5, 计算特征向量 \pmb X_{1}
\begin{bmatrix} 9&0\\ 3&0\\ \end{bmatrix}\cdot \vec x=0~~~\pmb X_{1}=\begin{bmatrix}0\\1\\\end{bmatrix}
针对特征值\lambda_{2}=4, 计算特征向量\pmb X_{2}
\begin{bmatrix}0&0\\3&-9\\\end{bmatrix}\cdot\vec x=0~~~\pmb X_{2}=\begin{bmatrix}3\\1\\\end{bmatrix}

例:
\pmb A=\begin{bmatrix}4&-2\\3&-1\\\end{bmatrix}
求特征值:
|\pmb A-\lambda \vec x|=\begin{bmatrix}4-\lambda&-2\\3&-1-\lambda\end{bmatrix}=(4-\lambda)(-1-\lambda)+6=0
得:\lambda_{1}=1, \lambda_{2}=2
针对特征值\lambda_{1}=1, 计算特征向量\pmb X_{1}
\begin{bmatrix}3&-2\\3&-2\end{bmatrix}\cdot\vec x=0~~~\pmb X_{1}=\begin{bmatrix}2\\3\\\end{bmatrix}
针对特征值\lambda_{2}=2, 计算特征向量\pmb X_{2}
\begin{bmatrix}2&-2\\3&-3\\\end{bmatrix}\cdot \vec x=0~~~\pmb X_{2}=\begin{bmatrix}1\\1\\\end{bmatrix}
另一种计算方式,首先将\vec x表示成特征向量\begin{bmatrix}1\\1\\\end{bmatrix}\begin{bmatrix}2\\3\\\end{bmatrix}的线性组合,即:
\vec x=\begin{bmatrix}1\\2\\\end{bmatrix}=-1\cdot\begin{bmatrix}1\\1\\\end{bmatrix}+1\cdot\begin{bmatrix}2\\3\\\end{bmatrix}
然后,将特征值与对应系数(特征值)相乘, 得到:
\vec y = -1\cdot2\cdot\begin{bmatrix}1\\1\\\end{bmatrix}+1\cdot1\cdot\begin{bmatrix}2\\3\\\end{bmatrix}=\begin{bmatrix}0\\1\\\end{bmatrix}
这与\vec y=\pmb A\vec x=\begin{bmatrix}0\\1\\\end{bmatrix}相同,表示\pmb A对向量\vec x的线性变换相当于\pmb A的特征值和特征向量与\vec x的线性组合, 可以说在线性变换时, 矩阵的特征值和特征向量可以代表矩阵.
矩阵所充当的映射, 实际上就是对特征向量的缩放, 每个特征向量的缩放程度就是特征值.
\vec x向量表示特征向量的线性组合(相当于以特征向量为基),得到相应的特征向量的权重.然后,每个权重与特征值相乘, 就是这个映射最本质的缩放操作.


特征值求法

image

奇异方阵

image

相似矩阵

定义:若\pmb A\pmb B均为n阶方阵, 若存在一个可逆矩阵\pmb P, 使\pmb P^{-1}\cdot A \cdot \pmb P=B, 则称\pmb A\pmb B相似

对角化


定义及证明
定义:假设一个n\times n阶的方阵\pmb A,有 n个线性无关的特征向量v_1, v_2,\cdots, v_n, 所有的特征向量组成特征向量矩阵\pmb S, 则有\pmb S^{-1}\pmb A\pmb S=\Lambda, 其中\Lambda为由\pmb S对应的特征值组成的对角矩阵, 即:
\pmb S^{-1}\pmb A\pmb S=\Lambda=\begin{bmatrix} \lambda_1\\ &\ddots\\ &&\lambda_n \end{bmatrix}
证明:
\pmb A\pmb S=\pmb A\begin{bmatrix}v_1&v_2&v_3&\cdots&v_n\end{bmatrix}=\begin{bmatrix}\lambda_1v_1&\lambda_2v_2&\lambda_3v_3&\cdots&\lambda_nv_n\end{bmatrix}=\pmb S\begin{bmatrix}\lambda_1\\&\ddots\\&&\lambda_n\end{bmatrix}=\pmb S\pmb{\Lambda}

\pmb S^{-1}\pmb A\pmb S=\pmb S^{-1}\pmb S\pmb{\Lambda}=\pmb{\Lambda}

\pmb A=\pmb S\pmb {\Lambda}\pmb S^{-1}(矩阵对角化)


例:
\pmb A=\begin{bmatrix} -3&2\\-10&6\\\end{bmatrix}
对角化\pmb A.

解:
\pmb A-\lambda\pmb E=\begin{bmatrix}-3-\lambda&2\\-10&6-\lambda\end{bmatrix}

(-3-\lambda)(6-\lambda)+20=0

\lambda_1=1, ~~~\lambda_2=2

对应\lambda_1的特征向量v_1:

\begin{bmatrix}-4&2\\-10&5\end{bmatrix}\cdot v_1=0, ~~~v_1=\begin{bmatrix}1\\2\end{bmatrix}

对应\lambda_2的特征向量v_2:

\begin{bmatrix}-5&2\\-10&4\end{bmatrix}\cdot v_2=0, ~~~v_2=\begin{bmatrix}2\\5\end{bmatrix}

\pmb P=\begin{bmatrix}\vec v_1&\vec v_2\end{bmatrix}=\begin{bmatrix}1&2\\2&5\\\end{bmatrix}

\pmb P^{-1}=\begin{bmatrix}5&-2\\-3&1\end{bmatrix}(二阶时, 主对角线对换, 负对角线变号 )


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容