线性代数
转置
转置(transpose)是矩阵的重要操作之一。矩阵的转置是以对角线为轴的镜像,这条从左上角到右下角的对角线被称为主对角线(main diagonal)。
矩阵相乘
两个矩阵 A 和 B 的矩阵乘积(matrix product)是第三个矩阵 C。
两个矩阵中对应元素的乘积被称为元素对应乘积(element-wise product)或者Hadamard 乘积(Hadamard product),记为A ⊙ B。
两个相同维数的向量x 和y 的点积(dot product)可看作是矩阵乘积x⊤y。
单位矩阵
单位矩阵:所有沿主对角线的元素都是1,而所有其他位置的元素都是0。
单位矩阵(identity matrix)的概念。任意
向量和单位矩阵相乘,都不会改变。
范数(norm)
<u>**范数(norm)用于衡量向量大小。
Frobenius 范数(Frobenius norm)用于衡量矩阵的大小。
L2 范数在机器学习中出现地十分频繁,经常简化表示为<u>∥x∥</u>,略去了下标2。平方L2 范数也经常用来衡量向量的大小,可以简单地通过点积x⊤x 计算。
L1和L2的选择问题:
平方L2 范数在数学和计算上都比L2 范数本身更方便。例如,平方L2 范数对x 中每个元素的导数只取决于对应的元素,而L2 范数对每个元素的导数却和整个向量相关。但是在很多情况下,平方L2 范数也可能不受欢迎,因为它在原点附近增长得十分缓慢。
在某些机器学习应用中,区分恰好是零的元素和非零但值很小的元素是很重要的。在这些情况下,我们转而使用在各个位置斜率相同,同时保持简单的数学形式的函数:L1 范数。L1 范数可以简化如下:
当机器学习问题中零和非零元素之间的差异非常重要时,通常会使用L1 范数。每当x 中某个元素从0 增加ϵ,对应的L1 范数也会增加ϵ。
-
Frobenius 范数(Frobenius norm)
其类似于向量的L2 范数。
特殊矩阵和向量
对角矩阵(diagonal matrix)只在主对角线上含有非零元素,其他位置都是零。
-
对称(symmetric)矩阵是转置和自己相等的矩阵:
-
单位向量(unit vector)是具有单位范数(unit norm)的向量:
如果x⊤y = 0,那么向量x 和向量y 互相正交(orthogonal)。如果两个向量都有非零范数,那么这两个向量之间的夹角是90 度。在Rn 中,至多有n 个范数非零向量互相正交。如果这些向量不仅互相正交,并且范数都为1,那么我们称它们是标准正交(orthonormal)。
- 正交矩阵(orthogonal matrix)是指行向量和列向量是分别标准正交的方阵。
特征分解
特征分解(eigendecomposition)是使用最广的矩阵分解之一,即我们将矩阵分解成一组特征向量和特征值。
方阵 A 的特征向量(eigenvector)是指与A 相乘后相当于对该向量进行缩放的非零向量v:
奇异值分解
奇异值分解(singular value decomposition, SVD)是另一种矩阵分解方法。
奇异值分解有更广泛的应用。每个实数矩阵都有一个奇异值分解,但不一定都有特征分解。例如,非方阵的矩阵没有特征分解,这时我们只能使用奇异值分解。
迹运算(trace)
迹运算返回的是矩阵对角元素的和:
行列式
行列式,记作det(A),是一个将方阵A 映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式是0,那么空间至少沿着某一维完全收缩了,使其失去了所有的体积。如果行列式是1,那么这个转换保持空间体积不变。