向量、矩阵求导其实就两个内容
- 分子每个元素对分母每个元素求导
- 将结果以一定方式布局
对于 1,没什么特别的,就是标量之间的求导。
对于 2,我们需要分情况讨论。
求导布局
求导结果的布局根据定义不同有所不同,没有统一。所以经常在不同的书上看到不一样的公式,使人产生困惑。
常见的求导类型如下:
分母 \ 分子 | 标量 | 向量 | 矩阵 |
---|---|---|---|
标量 | |||
向量 | / | ||
矩阵 | / | / |
我们划掉的类型是因为其结果无法在二维矩阵中很好地表示,在优化问题中也不常见。
未划掉的类型中,唯一布局有歧义的就是向量对向量的求导:
向量对向量求导
歧义在于,假设 是一个 维向量, 是一个 维向量,那求导结果是一个 矩阵还是 矩阵呢?
- 分子布局,即以分子 的元素数作为行数。结果是一个 矩阵,也称为雅可比(Jacobian)矩阵。
- 分母布局,即以分母 的元素数作为行数。结果是一个 矩阵,也称为梯度(Gradient)矩阵。
两种布局均可,在一本书中一般是一致的。
标量对向量求导
标量常见的有以下几种形式:
从定义上看,1 和 2 类似:
首先定义:
得出:
因此:
3 稍微复杂:
即求导后向量的第 k 个元素是 A 的第 k 行与 x 的内积 + 第 k 列与 x 的内积。这其实就是矩阵与向量乘法的定义。
例:最小二乘法
最小二乘法是最流行的线性模型拟合方法。它的目的是找出系数 使 (residual sum of squares, RSS)最小:
其中 代表训练数据的序号。一共有 组训练数据。
用矩阵形式表示为:
这里需要用 对 求导,得出二次函数最值点。
套用上面的结论,可以得到:
令其为 0 可以解出: