向量和矩阵求导

向量、矩阵求导其实就两个内容

  1. 分子每个元素对分母每个元素求导
  2. 将结果以一定方式布局

对于 1,没什么特别的,就是标量之间的求导。

对于 2,我们需要分情况讨论。

求导布局

求导结果的布局根据定义不同有所不同,没有统一。所以经常在不同的书上看到不一样的公式,使人产生困惑。

常见的求导类型如下:

分母 \ 分子 标量 向量 矩阵
标量 \frac{\partial y}{ \partial x} \frac{ \partial \boldsymbol{y} }{ \partial x } \frac{\partial \boldsymbol{Y}}{\partial x}
向量 \frac{\partial y}{ \partial \boldsymbol{x}} \frac{\partial \boldsymbol{y} }{ \partial \boldsymbol{x}} /
矩阵 \frac{ \partial y }{ \partial \boldsymbol{X} } / /

我们划掉的类型是因为其结果无法在二维矩阵中很好地表示,在优化问题中也不常见。

未划掉的类型中,唯一布局有歧义的就是向量对向量的求导:\frac{ \partial \boldsymbol{y} }{ \partial \boldsymbol{x} }

向量对向量求导

歧义在于,假设 \boldsymbol{y} 是一个 m 维向量,\boldsymbol{x} 是一个 n 维向量,那求导结果是一个 m \times n 矩阵还是 n \times m 矩阵呢?

  • 分子布局,即以分子 \boldsymbol{y} 的元素数作为行数。结果是一个 m \times n 矩阵,也称为雅可比(Jacobian)矩阵。

\frac{ \partial \boldsymbol{ y } }{ \partial \boldsymbol{ x } } = \begin{bmatrix} \frac{ \partial {y_1} }{ \partial {x_1} } & \frac{\partial {y_1} }{\partial {x_2} } & \cdots &\frac{\partial {y_1} }{\partial {x_n} } \\ \frac{\partial {y_2} }{\partial {x_1} } & \frac{\partial {y_2} }{\partial {x_2} } & \cdots &\frac{\partial {y_2} }{\partial {x_n} } \\ \vdots & \vdots & & \vdots \\ \frac{\partial {y_m} }{\partial {x_1} } & \frac{\partial {y_m} }{\partial {x_2} } & \cdots &\frac{\partial {y_m} }{\partial {x_n} } \\ \end{bmatrix}_{m \times n}

  • 分母布局,即以分母 \boldsymbol{x} 的元素数作为行数。结果是一个 n \times m 矩阵,也称为梯度(Gradient)矩阵。

\frac{\partial \boldsymbol{ y }}{\partial \boldsymbol{ x } } = \begin{bmatrix} \frac{\partial {y_1} }{\partial {x_1} } & \frac{\partial {y_2} }{\partial {x_1} } & \cdots &\frac{\partial {y_m} }{\partial {x_1} } \\ \frac{\partial {y_1} }{\partial {x_2} } & \frac{\partial {y_2} }{\partial {x_2} } & \cdots &\frac{\partial {y_m } }{\partial {x_2} } \\ \vdots & \vdots & & \vdots \\ \frac{\partial {y_1} }{\partial {x_n} } & \frac{\partial {y_2} }{\partial {x_n} } & \cdots &\frac{\partial {y_m} }{\partial {x_n} } \\ \end{bmatrix}_{n \times m}

两种布局均可,在一本书中一般是一致的。

标量对向量求导

标量常见的有以下几种形式:

  1. a^T x
  2. x^T a
  3. x^T A x

从定义上看,1 和 2 类似:

首先定义:

S = a^T x = x^T a = \sum_{i=1}^n a_ix_i
得出:
\frac{\partial S}{\partial x_i} = a_i
因此:
\frac{\partial a^Tx}{\partial x} = \frac{\partial x^Ta}{\partial x} = [ \frac{\partial S}{\partial x_1}, \frac{\partial S}{\partial x_2}, \cdots, \frac{\partial S}{\partial x_n}]^T = a

3 稍微复杂:
S = \sum_{i=1}^n \sum_{j=1}^n x_iA_{i,j}x_j

\frac{\partial S}{\partial x_k} = \sum_{j=1}^n A_{k,j}x_j + \sum_{i=1}^n x_iA_{i,k} = (A_{k,i} + A_{i,k})x_i

即求导后向量的第 k 个元素是 A 的第 k 行与 x 的内积 + 第 k 列与 x 的内积。这其实就是矩阵与向量乘法的定义。

\frac{\partial x^TAx}{\partial x} = [ \frac{\partial S}{\partial x_1}, \frac{\partial S}{\partial x_2}, \cdots, \frac{\partial S}{\partial x_n}]^T = Ax + A^Tx

例:最小二乘法

最小二乘法是最流行的线性模型拟合方法。它的目的是找出系数 \boldsymbol{\beta} 使 ||Y-\hat Y||_2 (residual sum of squares, RSS)最小:

\text{RSS}(\boldsymbol{\beta} ) = \sum_{j=1}^N (y_j - X_j^T\boldsymbol{\beta} )^2

其中 j 代表训练数据的序号。一共有 N 组训练数据。
用矩阵形式表示为:

\text{RSS}(\boldsymbol{\beta}) = (\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta} )^T(\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta} )

这里需要用 \text{RSS}(\boldsymbol{\beta})\boldsymbol{\beta} 求导,得出二次函数最值点。

\text{RSS}(\boldsymbol{\beta}) = \boldsymbol{y}^T\boldsymbol{y} -\boldsymbol{y}^T \boldsymbol{X} \boldsymbol{\beta} - \boldsymbol{\beta}^T \boldsymbol{X}^T \boldsymbol{y} + \boldsymbol{\beta}^T \boldsymbol{X}^T \boldsymbol{X}\boldsymbol{\beta}

套用上面的结论,可以得到:

\frac{ \partial \text{RSS}(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = - 2\boldsymbol{X}^T\boldsymbol{y} + 2\boldsymbol{X}^T\boldsymbol{X}\boldsymbol{\beta}

令其为 0 可以解出:

\hat{\boldsymbol{\beta}} = (\boldsymbol{X}^T \boldsymbol{X})^{-1} \boldsymbol{X}^T \boldsymbol{y}

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容

  • 本文整理自李建平机器学习中的矩阵向量求导系列和长躯鬼侠的矩阵求导术。 1. 符号说明 默认符号: :标量 : ...
    qzlydao阅读 3,556评论 0 0
  • 对一个数求导大家都比较熟悉,那么对向量求导呢?看如下的例子:假设有矩阵和向量: 很容易求出, 现在令,则向量对向量...
    Jarkata阅读 4,066评论 0 2
  • title: 闲话矩阵求导原始文件没有办法把latex公式正常显示,所以一个一个弄出来了,保留了原来的公式。原始文...
    kylinxue阅读 20,157评论 3 21
  • 【注】参考邱锡鹏《神经网络与深度学习》。 1. 简介 在数学中, 矩阵微积分是多元微积分的一种特殊表达,尤其是在矩...
    BlueHeart0621阅读 1,313评论 0 1
  • old Table of Contents 1. 布局(Layout) 2. 基本的求导规则(定义) 3. 维度分...
    场景为王阅读 5,848评论 2 1