深度学习数学基础

本文来自《动手学习深度学习》附录


本文总结了本书中涉及的有关线性代数、微分和概率的基础知识。

线性代数

下面分别概括了向量、矩阵、运算、范数、特征向量和特征值的概念。

向量

本书中的向量指的是列向量。一个n维向量\boldsymbol{x}的表达式可写成

\boldsymbol{x} = \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix},

其中x_1, \ldots, x_n是向量的元素。我们将各元素均为实数的n维向量\boldsymbol{x}记作\boldsymbol{x} \in \mathbb{R}^{n}\boldsymbol{x} \in \mathbb{R}^{n \times 1}

矩阵

一个mn列矩阵的表达式可写成

\boldsymbol{X} = \begin{bmatrix} x_{11} & x_{12} & \dots & x_{1n} \\ x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \dots & x_{mn} \end{bmatrix},

其中x_{ij}是矩阵\boldsymbol{X}中第i行第j列的元素(1 \leq i \leq m, 1 \leq j \leq n)。我们将各元素均为实数的mn列矩阵\boldsymbol{X}记作\boldsymbol{X} \in \mathbb{R}^{m \times n}。不难发现,向量是特殊的矩阵。

运算

n维向量\boldsymbol{a}中的元素为a_1, \ldots, a_nn维向量\boldsymbol{b}中的元素为b_1, \ldots, b_n。向量\boldsymbol{a}\boldsymbol{b}的点乘(内积)是一个标量:

\boldsymbol{a} \cdot \boldsymbol{b} = a_1 b_1 + \ldots + a_n b_n.

设两个mn列矩阵

\boldsymbol{A} = \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mn} \end{bmatrix},\quad \boldsymbol{B} = \begin{bmatrix} b_{11} & b_{12} & \dots & b_{1n} \\ b_{21} & b_{22} & \dots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{m1} & b_{m2} & \dots & b_{mn} \end{bmatrix}.

矩阵\boldsymbol{A}的转置是一个nm列矩阵,它的每一行其实是原矩阵的每一列:
\boldsymbol{A}^\top = \begin{bmatrix} a_{11} & a_{21} & \dots & a_{m1} \\ a_{12} & a_{22} & \dots & a_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \dots & a_{mn} \end{bmatrix}.

两个相同形状的矩阵的加法是将两个矩阵按元素做加法:

\boldsymbol{A} + \boldsymbol{B} = \begin{bmatrix} a_{11} + b_{11} & a_{12} + b_{12} & \dots & a_{1n} + b_{1n} \\ a_{21} + b_{21} & a_{22} + b_{22} & \dots & a_{2n} + b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} + b_{m1} & a_{m2} + b_{m2} & \dots & a_{mn} + b_{mn} \end{bmatrix}.

我们使用符号\odot表示两个矩阵按元素做乘法的运算:

\boldsymbol{A} \odot \boldsymbol{B} = \begin{bmatrix} a_{11} b_{11} & a_{12} b_{12} & \dots & a_{1n} b_{1n} \\ a_{21} b_{21} & a_{22} b_{22} & \dots & a_{2n} b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} b_{m1} & a_{m2} b_{m2} & \dots & a_{mn} b_{mn} \end{bmatrix}.

定义一个标量k。标量与矩阵的乘法也是按元素做乘法的运算:

k\boldsymbol{A} = \begin{bmatrix} ka_{11} & ka_{12} & \dots & ka_{1n} \\ ka_{21} & ka_{22} & \dots & ka_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ ka_{m1} & ka_{m2} & \dots & ka_{mn} \end{bmatrix}.

其他诸如标量与矩阵按元素相加、相除等运算与上式中的相乘运算类似。矩阵按元素开根号、取对数等运算也就是对矩阵每个元素开根号、取对数等,并得到和原矩阵形状相同的矩阵。

矩阵乘法和按元素的乘法不同。设\boldsymbol{A}mp列的矩阵,\boldsymbol{B}pn列的矩阵。两个矩阵相乘的结果

\boldsymbol{A} \boldsymbol{B} = \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1p} \\ a_{21} & a_{22} & \dots & a_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ a_{i1} & a_{i2} & \dots & a_{ip} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mp} \end{bmatrix} \begin{bmatrix} b_{11} & b_{12} & \dots & b_{1j} & \dots & b_{1n} \\ b_{21} & b_{22} & \dots & b_{2j} & \dots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots & \ddots & \vdots \\ b_{p1} & b_{p2} & \dots & b_{pj} & \dots & b_{pn} \end{bmatrix}

是一个mn列的矩阵,其中第i行第j列(1 \leq i \leq m, 1 \leq j \leq n)的元素为

a_{i1}b_{1j} + a_{i2}b_{2j} + \ldots + a_{ip}b_{pj} = \sum_{k=1}^p a_{ik}b_{kj}.

范数

n维向量\boldsymbol{x}中的元素为x_1, \ldots, x_n。向量\boldsymbol{x}L_p范数为

\|\boldsymbol{x}\|_p = \left(\sum_{i=1}^n \left|x_i \right|^p \right)^{1/p}.

例如,\boldsymbol{x}L_1范数是该向量元素绝对值之和:

\|\boldsymbol{x}\|_1 = \sum_{i=1}^n \left|x_i \right|.

\boldsymbol{x}L_2范数是该向量元素平方和的平方根:

\|\boldsymbol{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2}.

我们通常用\|\boldsymbol{x}\|指代\|\boldsymbol{x}\|_2

\boldsymbol{X}是一个mn列矩阵。矩阵\boldsymbol{X}的Frobenius范数为该矩阵元素平方和的平方根:

\|\boldsymbol{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2},

其中x_{ij}为矩阵\boldsymbol{X}在第i行第j列的元素。

特征向量和特征值

对于一个nn列的矩阵\boldsymbol{A},假设有标量\lambda和非零的n维向量\boldsymbol{v}使

\boldsymbol{A} \boldsymbol{v} = \lambda \boldsymbol{v},

那么\boldsymbol{v}是矩阵\boldsymbol{A}的一个特征向量,标量\lambda\boldsymbol{v}对应的特征值。

微分

我们在这里简要介绍微分的一些基本概念和演算。

导数和微分

假设函数f: \mathbb{R} \rightarrow \mathbb{R}的输入和输出都是标量。函数f的导数

f'(x) = \lim_{h \rightarrow 0} \frac{f(x+h) - f(x)}{h},

且假定该极限存在。给定y = f(x),其中xy分别是函数f的自变量和因变量。以下有关导数和微分的表达式等价:

f'(x) = y' = \frac{\text{d}y}{\text{d}x} = \frac{\text{d}f}{\text{d}x} = \frac{\text{d}}{\text{d}x} f(x) = \text{D}f(x) = \text{D}_x f(x),

其中符号\text{D}\text{d}/\text{d}x也叫微分运算符。常见的微分演算有\text{D}C = 0C为常数)、\text{D}x^n = nx^{n-1}n为常数)、\text{D}e^x = e^x\text{D}\ln(x) = 1/x等。

如果函数fg都可导,设C为常数,那么

\begin{aligned} \frac{\text{d}}{\text{d}x} [Cf(x)] &= C \frac{\text{d}}{\text{d}x} f(x),\\ \frac{\text{d}}{\text{d}x} [f(x) + g(x)] &= \frac{\text{d}}{\text{d}x} f(x) + \frac{\text{d}}{\text{d}x} g(x),\\ \frac{\text{d}}{\text{d}x} [f(x)g(x)] &= f(x) \frac{\text{d}}{\text{d}x} [g(x)] + g(x) \frac{\text{d}}{\text{d}x} [f(x)],\\ \frac{\text{d}}{\text{d}x} \left[\frac{f(x)}{g(x)}\right] &= \frac{g(x) \frac{\text{d}}{\text{d}x} [f(x)] - f(x) \frac{\text{d}}{\text{d}x} [g(x)]}{[g(x)]^2}. \end{aligned}

如果y=f(u)u=g(x)都是可导函数,依据链式法则,

\frac{\text{d}y}{\text{d}x} = \frac{\text{d}y}{\text{d}u} \frac{\text{d}u}{\text{d}x}.

泰勒展开

函数f的泰勒展开式是

f(x) = \sum_{n=0}^\infty \frac{f^{(n)}(a)}{n!} (x-a)^n,

其中f^{(n)}为函数fn阶导数(求n次导数),n!n的阶乘。假设\epsilon是一个足够小的数,如果将上式中xa分别替换成x+\epsilonx,可以得到

f(x + \epsilon) \approx f(x) + f'(x) \epsilon + \mathcal{O}(\epsilon^2).

由于\epsilon足够小,上式也可以简化成

f(x + \epsilon) \approx f(x) + f'(x) \epsilon.

偏导数

u为一个有n个自变量的函数,u = f(x_1, x_2, \ldots, x_n),它有关第i个变量x_i的偏导数为

\frac{\partial u}{\partial x_i} = \lim_{h \rightarrow 0} \frac{f(x_1, \ldots, x_{i-1}, x_i+h, x_{i+1}, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}.

以下有关偏导数的表达式等价:

\frac{\partial u}{\partial x_i} = \frac{\partial f}{\partial x_i} = f_{x_i} = f_i = \text{D}_i f = \text{D}_{x_i} f.

为了计算\partial u/\partial x_i,只需将x_1, \ldots, x_{i-1}, x_{i+1}, \ldots, x_n视为常数并求u有关x_i的导数。

梯度

假设函数f: \mathbb{R}^n \rightarrow \mathbb{R}的输入是一个n维向量\boldsymbol{x} = [x_1, x_2, \ldots, x_n]^\top,输出是标量。函数f(\boldsymbol{x})有关\boldsymbol{x}的梯度是一个由n个偏导数组成的向量:

\nabla_{\boldsymbol{x}} f(\boldsymbol{x}) = \bigg[\frac{\partial f(\boldsymbol{x})}{\partial x_1}, \frac{\partial f(\boldsymbol{x})}{\partial x_2}, \ldots, \frac{\partial f(\boldsymbol{x})}{\partial x_n}\bigg]^\top.

为表示简洁,我们有时用\nabla f(\boldsymbol{x})代替\nabla_{\boldsymbol{x}} f(\boldsymbol{x})

假设\boldsymbol{x}是一个向量,常见的梯度演算包括

\begin{aligned} \nabla_{\boldsymbol{x}} \boldsymbol{A}^\top \boldsymbol{x} &= \boldsymbol{A}, \\ \nabla_{\boldsymbol{x}} \boldsymbol{x}^\top \boldsymbol{A} &= \boldsymbol{A}, \\ \nabla_{\boldsymbol{x}} \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} &= (\boldsymbol{A} + \boldsymbol{A}^\top)\boldsymbol{x},\\ \nabla_{\boldsymbol{x}} \|\boldsymbol{x} \|^2 &= \nabla_{\boldsymbol{x}} \boldsymbol{x}^\top \boldsymbol{x} = 2\boldsymbol{x}. \end{aligned}

类似地,假设\boldsymbol{X}是一个矩阵,那么
\nabla_{\boldsymbol{X}} \|\boldsymbol{X} \|_F^2 = 2\boldsymbol{X}.

海森矩阵

假设函数f: \mathbb{R}^n \rightarrow \mathbb{R}的输入是一个n维向量\boldsymbol{x} = [x_1, x_2, \ldots, x_n]^\top,输出是标量。假定函数f所有的二阶偏导数都存在,f的海森矩阵\boldsymbol{H}是一个nn列的矩阵:

\boldsymbol{H} = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \dots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \dots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \dots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix},

其中二阶偏导数

\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial }{\partial x_j} \left(\frac{\partial f}{ \partial x_i}\right).

概率

最后,我们简要介绍条件概率、期望和均匀分布。

条件概率

假设事件A和事件B的概率分别为P(A)P(B),两个事件同时发生的概率记作P(A \cap B)P(A, B)。给定事件B,事件A的条件概率

P(A \mid B) = \frac{P(A \cap B)}{P(B)}.

也就是说,

P(A \cap B) = P(B) P(A \mid B) = P(A) P(B \mid A).

当满足

P(A \cap B) = P(A) P(B)

时,事件A和事件B相互独立。

期望

离散的随机变量X的期望(或平均值)为

E(X) = \sum_{x} x P(X = x).

均匀分布

假设随机变量X服从[a, b]上的均匀分布,即X \sim U(a, b)。随机变量Xab之间任意一个数的概率相等。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 【转载】线性代数基础知识 原文地址:http://blog.csdn.net/longxinchen_ml/art...
    刘卡卡爱吃烤土豆阅读 1,225评论 0 0
  • author: zhangyifengtitle: some background need for ml(还会更...
    张亿锋阅读 869评论 0 0
  • 考试科目:高等数学、线性代数、概率论与数理统计 考试形式和试卷结构 一、试卷满分及考试时间 试卷满分为150分,考...
    Saudade_lh阅读 1,077评论 0 0
  • 2017年考研数学一大纲原文 考试科目:高等数学、线性代数、概率论与数理统计 考试形式和试卷结构 一、试卷满分及考...
    SheBang_阅读 624评论 0 7
  • 考试形式和试卷结构一、试卷满分及考试时间 试卷满分为150分,考试时间为180分钟 二、答题方式 答题方式为闭卷、...
    幻无名阅读 753评论 0 3