本文来自《动手学习深度学习》附录
本文总结了本书中涉及的有关线性代数、微分和概率的基础知识。
线性代数
下面分别概括了向量、矩阵、运算、范数、特征向量和特征值的概念。
向量
本书中的向量指的是列向量。一个维向量的表达式可写成
其中是向量的元素。我们将各元素均为实数的维向量记作或。
矩阵
一个行列矩阵的表达式可写成
其中是矩阵中第行第列的元素()。我们将各元素均为实数的行列矩阵记作。不难发现,向量是特殊的矩阵。
运算
设维向量中的元素为,维向量中的元素为。向量与的点乘(内积)是一个标量:
设两个行列矩阵
矩阵的转置是一个行列矩阵,它的每一行其实是原矩阵的每一列:
两个相同形状的矩阵的加法是将两个矩阵按元素做加法:
我们使用符号表示两个矩阵按元素做乘法的运算:
定义一个标量。标量与矩阵的乘法也是按元素做乘法的运算:
其他诸如标量与矩阵按元素相加、相除等运算与上式中的相乘运算类似。矩阵按元素开根号、取对数等运算也就是对矩阵每个元素开根号、取对数等,并得到和原矩阵形状相同的矩阵。
矩阵乘法和按元素的乘法不同。设为行列的矩阵,为行列的矩阵。两个矩阵相乘的结果
是一个行列的矩阵,其中第行第列()的元素为
范数
设维向量中的元素为。向量的范数为
例如,的范数是该向量元素绝对值之和:
而的范数是该向量元素平方和的平方根:
我们通常用指代。
设是一个行列矩阵。矩阵的Frobenius范数为该矩阵元素平方和的平方根:
其中为矩阵在第行第列的元素。
特征向量和特征值
对于一个行列的矩阵,假设有标量和非零的维向量使
那么是矩阵的一个特征向量,标量是对应的特征值。
微分
我们在这里简要介绍微分的一些基本概念和演算。
导数和微分
假设函数的输入和输出都是标量。函数的导数
且假定该极限存在。给定,其中和分别是函数的自变量和因变量。以下有关导数和微分的表达式等价:
其中符号和也叫微分运算符。常见的微分演算有(为常数)、(为常数)、、等。
如果函数和都可导,设为常数,那么
如果和都是可导函数,依据链式法则,
泰勒展开
函数的泰勒展开式是
其中为函数的阶导数(求次导数),为的阶乘。假设是一个足够小的数,如果将上式中和分别替换成和,可以得到
由于足够小,上式也可以简化成
偏导数
设为一个有个自变量的函数,,它有关第个变量的偏导数为
以下有关偏导数的表达式等价:
为了计算,只需将视为常数并求有关的导数。
梯度
假设函数的输入是一个维向量,输出是标量。函数有关的梯度是一个由个偏导数组成的向量:
为表示简洁,我们有时用代替。
假设是一个向量,常见的梯度演算包括
类似地,假设是一个矩阵,那么
海森矩阵
假设函数的输入是一个维向量,输出是标量。假定函数所有的二阶偏导数都存在,的海森矩阵是一个行列的矩阵:
其中二阶偏导数
概率
最后,我们简要介绍条件概率、期望和均匀分布。
条件概率
假设事件和事件的概率分别为和,两个事件同时发生的概率记作或。给定事件,事件的条件概率
也就是说,
当满足
时,事件和事件相互独立。
期望
离散的随机变量的期望(或平均值)为
均匀分布
假设随机变量服从上的均匀分布,即。随机变量取和之间任意一个数的概率相等。