特征值和特征向量的意义
假设给定矩阵,作用在向量上,结果就得到了向量(此时矩阵A就像一个函数),其中,我们会得到中的很多向量,在这些向量中,我们感兴趣的是那些线性变换前后方向保持一致的向量,这些向量是特殊的。因为对于多数向量而言,线性变换后的与是在方向上会发生改变。对于那些特定的向量能使得平行于的,我们称之为特征向量(Eigenvectors)。
那么平行意味着什么?我们可以用方程来表达这样的关系,即,表示特征向量,作为向量的系数,可以为负数表示平行且方向相反,也可以取,甚至可以为复数(实数构成的矩阵可能会出现虚数特征值)。这里的称为特征值(Eigenvalues)。
我们现在并不知道该如何求矩阵的特征向量和特征值,但我们可以先来考虑以下几个问题:
(1)当特征值为时,意味着什么?根据我们前文所学的知识,当特征值为时,有,即特征值为的特征向量应该位于的零空间中。也就是说,如果矩阵是不可逆矩阵,那么它将会有一个特征值为。
(2)我们再来看投影矩阵的特征值和特征向量。
- 当向量处于投影平面(的列空间)中时,与是同向的,此时投影前后不变,即。即在投影平面中的所有向量都是投影矩阵的特征向量,而它们的特征值均为。
- 当向量为投影平面的法向量时,此时也就是误差向量。我们知道误差向量垂直于列空间,因此我们可以得到,即特征向量的特征值为0。
- 因此投影矩阵的特征值为。
(3)如何求二阶置换矩阵的特征值和特征向量。观察矩阵我们会知道,经过置换矩阵处理过的向量,其元素会发生交换,那么就有经过矩阵交换元素前后不变的情况和方向相反的情况,分别为特征值为的特征向量和特征值为时的特征向量。
对于一个的矩阵,将会有个特征值,特征值与该矩阵对角线上的元素的和相同,即。我们把矩阵对角线上的元素称为矩阵的迹(Trace)。在上文二阶置换矩阵的例子中,如果我们求得了一个特征值,我们可以直接利用迹来求出另一特征值。
特征值和特征向量的求解
我们的问题是如何找到特征值和特征向量,这不是一个的求解问题,因此不能使用消元法,我们需要一个更巧妙的方法来求解它们。
观察等式,这个等式难解是因为其中有两个未知量(和),我们的目标是将等式化成仅有一个未知量的方程,因此我们需要对其进行变形,可以看作是,这样就有
如果对于不为零向量的该等式成立,那么意味着矩阵为奇异矩阵(否则向量必为零向量或零矩阵)。那么我们知道奇异矩阵的判定方法是其行列式为零,即
这样等式中就不含未知量了,该方程仅含未知量,该方程称为特征方程或特征值方程。我们可以通过特征方程来求解出,当然可能有多个不同的值,也可能有重复的值,重复的是难点所在。
得到后,我们可以继续求解向量,此时使用消元法,我们已知是个奇异矩阵,寻找其零空间,利用消元法找出主列,给自由变量赋值即可。下面我们以一个示例来具体阐述求解的步骤。
例 求的特征值和特征向量
观察矩阵,我们发现这是一个对称矩阵,对称矩阵意味着其特征值必为实数(这在后面的篇幅中会证明)。我们先来求的行列式,有
求解过程中我们发现的行列式最后化成了一元二次方程,我们可以轻松求解出。在继续求解下去之前,对于二维的矩阵,我们可以观察到在一元二次方程展开后,一次项的系数其实就是矩阵的迹的相反数(),而常数项则为矩阵的行列式(),根据因式分解的特点,我们可以进一步得出,特征值之和就等于矩阵的迹,特征值之积等于矩阵的行列式,即
然后再来看特征向量,我们已经得到了两个特征值,现在只需要分别将两个特征值代入去求解特征向量,
当时,有,这个矩阵是奇异的,代入到,有,得。
当时,有,这个矩阵是奇异的,代入到,有,得。
至此我们完成了对矩阵的特征值和特征向量的求解,并且我们还发现两特征向量满足正交关系。
观察得到的特征向量,与第一节中的置换矩阵刚好相同,它们的特征值不相同,前者为和,后者为和。但是我们发现,两个矩阵之间的关系可以看作,其特征值的关系为,那么两矩阵相加时,得到的矩阵的特征值之和是否等于两矩阵特征值之和?
我们设,只需验证是否成立。
当时,在上述例子中我们知道,该等式是成立的,但是如果矩阵为任意矩阵,则等式不一定成立。因为这两个式子中的特征向量不一定相同,所以等式应该写成,显然加和的等式无法成立。因此的特征值并不一定等于的特征值和的特征值之和,仅当为单位矩阵的倍数时成立。
复数特征值的情况
上文中还有个问题是,为什么实数构成的矩阵可能会出现虚数特征值?
例 旋转矩阵可以使得空间中的向量旋转,,用表示是因为旋转矩阵是正交矩阵。
我们观察矩阵的迹和行列式发现
从几何角度上,可以想象,哪些向量发生旋转后还是它自身,显然对于实向量是不存在的。如果我们求解的行列式有
解得。两个特征值均为复数,因此我们说即使矩阵全是由实数构成的,其特征值也可能不是实数。有一个结论是:如果矩阵越接近对称,那么其特征值就是实数,相反,如果矩阵越不对称,那么其特征值就越可能有虚数存在。对于反对称矩阵,是一个极端情况,于是我们得到了纯虚数的特征值,通常我们见到的矩阵是介于对称与反对称之间的。
特征值相同的情况
例 求的特征值和特征向量
首先观察矩阵发现这是一个三角矩阵,三角矩阵的特征值就在其对角线元素上,因为在行列式的计算中,对角线两侧的元素不影响其行列式的值,有
解得。下面代入特征值计算特征向量,有
因为两个特征值都为,因此我们只能求出一个特征向量,即,我们无法得出另一个与线性无关的特征向量了。本例中,矩阵是一个退化矩阵,重复的特征值在特殊情况下可能导致特征向量的短缺。
特征值与特征向量的应用
在了解了什么是特征值与特征向量及它们的求解方法后,我们来讨论它们的应用问题。
对角化(Diagonalization)
首先给出对角化矩阵公式:
其中,矩阵是矩阵A的特征向量按列组成的,称为特征向量矩阵(Eigenvector Matrices),矩阵称为对角特征值矩阵,其对角线上的元素为矩阵的特征值,其余元素全部为。
推导过程:
-
根据,我们将AS展开得到
-
将其写成矩阵形式
-
由于矩阵S中的列向量线性无关,因此矩阵必然存在,我们可以在矩阵两侧左乘逆矩阵得到
因此我们得到了一种新的矩阵分解方式:。它可以将矩阵分解为特征向量矩阵、对称特征值矩阵与
特征向量矩阵的逆的乘积。我们将这一过程称为矩阵的对角化。它的作用使得求解矩阵的幂变得更为方便。
矩阵的幂
矩阵的对角化对求解矩阵的幂有着至关重要的作用。我们先来探讨一个问题:的特征值和特征向量会有什么变化?
考虑的特征向量和特征值,我们依然从开始,我们将等式两侧同乘得
这说明和得特征向量相同,而特征值为,写成对角化形式有
将其以此类推可知
即矩阵与矩阵的特征向量相同,特征值为。这就启示我们:如果要求一个矩阵的次幂,我们可以先对矩阵进行对角化分解,再求其对角特征值矩阵的次幂即可。
因此我们可以推出一个结论:如果矩阵具有个线性无关的特征向量,如果所有特征值均满足,则当时,。