这部分我们通过选择更好的基底来产生更好的矩阵。当我们的目标是对角化矩阵时,一个选择可以是一组特征向量基底,另外一个选择可以是两组基底,输入基底和输出基底是不一样的。这些左右奇异向量是矩阵四个基本子空间中标准正交的基向量,它们来自于 SVD。
事实上,所有对 的分解都可以看作是一个基的改变。在这里,我们只关注两个突出的例子,有一组基的
和有两组基的
。
如果输入和输出基都是
的特征值。
如果这些基分别是
和
的特征值。
只有当 是方阵并且有
个不相关的特征向量时,我们才能将其对角化成
。而通过 SVD,任意矩阵都可以对角化成
。如果一个矩阵是对称的、反对称的或者正交的,那么有
,在这种情况下,奇异值是特征值的绝对值,上面的两个对角化形式除了一个
或者
的因子外是相同的。
另外,注意 Gram-Schmidt 分解 只选择了一个新的基底,也就是通过
给出的输出正交基,而输入基底则是标准基由
给出。我们只得到一个上三角矩阵而不是对角矩阵,
,输出基矩阵在左边而输入基矩阵在右边。
1. 相似矩阵:
让我们以一个方阵和一组基开始,输入空间 和输出空间
都是
。在标准基下,线性变换
是乘以矩阵
。如果我们改变了输入空间的基,那么矩阵就变成了
,
是基变换矩阵;如果我们改变了输出空间的基,那么矩阵就变成了
。
如果以上面同样的方式同时改变了两组基,那么新的矩阵就为 。而一组好的基是矩阵的特征向量,我们就有
。
当基中包含特征向量
时,变换
对应的矩阵是
。
证明
要找到矩阵的第一列,输入第一个基向量,由
可得矩阵的第一列为
。同理可得其它的每一列,最终矩阵为一个对角矩阵,对角线上元素为特征值。
例子
要找到投影到直线 的变换矩阵。坐标
投影到
,坐标
投影到
,所以在标准基下,变换矩阵为
如果以 的特征向量
和
为基的话:
与直线共线,投影后还是其自身;
垂直于直线,投影后为零向量,所以在这组基下的变换矩阵为
如果选择另外一组基 和
。
我们可以一列一列找到变换矩阵,,投影后坐标为
;
,投影后为零向量,所以在这组基下的变换矩阵为
另外我们也可以利用基变换矩阵,由 标准基的基变换矩阵
为
接下来,我们先将输入变换到标准基下,再应用标准基下的变换矩阵 ,最后再将输出变换到
空间下,这样得到的以
为基的变换矩阵就为
这和上面的结果是一样的,还说明了 和
是相似的,对于任意的非标准基底,我们都可以采用类似的方式来求取变换矩阵。
2. SVD
现在,输入基 和输出基
不一样,事实上,输入空间
可以和输出空间
不一样。同样,最好的矩阵依然是对角矩阵,只不过大小是
的。为了到达对角矩阵
,每个输入向量
必须被变换到输出向量
的一个倍数,而这个倍数就是对角线上的奇异值。
要说明的是, 和
代表的是相同的变换,矩阵
利用
和
中的标准基,而
则以
和
分别作为输入基和输出基,正交矩阵
和
则代表基变换矩阵。
3. 极分解
每个复数都可以表示成极坐标的形式 ,将这些数想象成一个
的矩阵,那么
可以看作是是一个半正定矩阵
,
可以看作是一个正交矩阵
,因为
。极分解将上述的分解扩展到矩阵:正交乘以正定,
。
每个实的方阵都可以分解成
的形式,其中
是一个正交矩阵,
是一个对称的半正定矩阵。如果
可逆,那么
是正定的。
- 证明
第一项两个正交矩阵的乘积还是正交矩阵,第二项是半正定的因为其特征值位于 的对角线上,都大于等于零。
是
的对称正定平方根。同样地,我们有:
4. 伪逆
矩阵 乘以行空间中的
得到列空间中的
,
应该做相反的操作。如果有
,那么
,如果逆矩阵存在的话。
伪逆 是一个
的矩阵。可以看到,如果
存在的话,那么伪逆也就等于逆矩阵,在这种情况下
,
。只有当
或者
时我们才需要伪逆,伪逆有着相同的秩
。
前 个列空间中的向量被送回到了行空间,其它的向量位于左零空间则被送回到了零向量。注意到
是我们能得到的最接近于恒等矩阵的矩阵,它是一个投影矩阵,部分是
部分是
。
假设 ,那么
是可逆的,
假设 ,那么
是可逆的,
之前我们假设 是可逆的,那么当
不可解的时候,我们求助于方程
得到最小二乘解。现在矩阵
可能具有相关的列,即
,上述方程可能有很多解,其中一个解来自于伪逆
。
我们可以验证,,因为
可以分解为两部分,
是其投影到列空间的分量,
是左零空间的分量,乘以
后为零向量。
任意零空间的向量可以被加到 上得到其它的解
,但
是其中最短的一个。
获取更多精彩,请关注「seniusen」!