花书第二章笔记

[ToC]

第二章 线性代数

简要介绍深度学习算法中涉及到的线性代数知识。

掌握深度学习中所需要的线性代数和矩阵求导有关的数学知识

线性代数基础 花书书本[p27-p46]部分

矩阵求导 https://github.com/soloice/Matrix_Derivatives

2.1 标量、向量、矩阵和张量

  • 标量(scalar):一个单独的数,用小写字母表示,常被设为变量,如n,使用时需指定数据类型。
  • 向量(vector):一列有序排列的数,用粗体的小写变量表示,如 \textbf{x},可以通过脚标对元素索引。
  • 矩阵(matrix):一个二维数组,用粗体的大写变量表示,如\textbf{x},可以通过行列位置对元素索引。
  • 张量(tensor):数组中的元素分布在若干维坐标的规则网格中,用字体\textbf{A}表示。举例解释,把二维数组放在三维坐标系中,维度加1。
  • 简单运算:
    • 转置(transpose):以主对角线(左上到右下)- 为轴做镜像操作。
    • 矩阵相加:矩阵形状相同
    • 标量和矩阵相乘或相加:标量与矩阵每个元素相乘或相加
    • 广播(broadcasting):向量和矩阵相加

2.2 矩阵和向量相乘

  • 矩阵乘积(matrix product):两个矩阵\textbf{A}\textbf{A}相乘,\textbf{A}的列数必须和\textbf{B}的行数相等。
    A:m \times n;B:n \times p;C=AB:m \times p
    C_{i,j}=\sum _{k} A_{i,k}B_{k,j}

  • 元素对应乘积(element-wise product)或Hadamard 乘积(Hadamard product):两个矩阵中对应元素的乘积,记为 A \bigodot B

  • 点积(dot product):两个相同维数的向量\textbf{x}\textbf{y}相乘

  • 性质:

    • 分配率
      A(B + C) = AB + AC
    • 结合律
      A(BC) = (AB)C
    • 一般不满足交换律
      AB \neq BA
    • 转置
      (AB)^{T}=B^{T}A^{T}
  • 线性方程组:
    Ax=b

2.3 单位矩阵和逆矩阵

  • 单位矩阵(identity matrix):任意向量或矩阵和单位矩阵相乘,都不会改变,记为\textbf{y}。所有沿主对角线的元素都是1,而所有其他位置的元素都是 0。

  • 矩阵逆(matrix inversion):矩阵满足如下条件
    A^{-1}A=I_{n}

2.4 线性相关和生成子空间

  • 线性组合(linear combination):把\textbf{A}的列向量看做一个元素,则\textbf{A}看做一个行向量,可用下式表示:
    Ax=\sum _{i} x_{i}A_{:,i}
  • 生成子空间(span):一组向量的线
    性组合,是指每个向量乘以对应标量系数之后的和,即:
    \sum _{i} c_{i}v^{(i)}
  • 线性相关(linear dependence):某个向量是一组向量中某些向量的线性组合
  • 线性无关(linear independent):一组向量中
    的任意一个向量都不能表示成其他向量的线性组合
  • 方阵(square):矩阵行和列相等
  • 奇异矩阵(singular):列向量线性相关的方阵,不可逆

2.5 范数

  • 范数(norm):衡量向量大小
    \left \| x \right \|_{p}=\left ( \sum _{i}\left | x_{i} \right | ^{p} \right ) ^{\frac{1}{p}}
  • 欧几里得范数(Euclidean norm):p = 2,它表示从原点
    出发到向量\textbf{x} 确定的点的欧几里得距离。在机器学习中频繁使用,不指明p值时,默认为欧几里得距离。
  • L1范数:在各个位置斜率相同
    \left \| x \right \|_{1}= \sum _{i}\left | x_{i} \right |
  • 最大范数(max norm):向量中具有最大幅值的元素的绝对值
    \left \| x \right \|_{\infty }= \max \limits_{i}\left | x_i \right |
  • Frobenius 范数(Frobenius norm):衡量矩阵的大小
    \left \| A \right \|_{F}= \sqrt{\sum _{i,j}A_{i,j}^{2}}

2.6 特殊类型的矩阵和向量

  • 对角矩阵(diagonal matrix):只在主对角线上含有非零元素,其他位置都是零。例如,单位矩阵,用diag(v)表示
  • 对称矩阵(diagonal matrix):转置和自己相等的矩阵
  • 单位向量(unit vector)是具有单位范数(unit norm)的向量:

\left \| x \right \|_{2}= 1

  • 正交(orthogonal):两个向量之间的夹角是90 度
    x^{\top }y=0
  • 标准正交(orthonormal):向量不仅互相正交,并且范数都为1
  • 正交矩阵(orthogonal matrix)是指行向量和列向量是分别标准正交的方阵:
    A^{\top }A=AA^{\top }=I,A^{-1}=A^{\top }

2.7 特征分解

  • 特征分解(eigendecomposition):将矩阵分
    解成一组特征向量和特征值。

  • 方阵\textbf{A}特征向量(eigenvector)是指与\textbf{A} 相乘后相当于对该向量进行缩放
    的非零向量v,标量λ被称为这个特征向量对应的特征值(eigenvalue)

Av = \lambda v

  • 特征分解(eigendecomposition):假设矩阵\textbf{A}n 个线性无关的特征向量,将特征向量连接成一个矩阵\textbf{V},使得每一列是一个特征向量;将特征值连接成一个向量\mathit{\mathit{\lambda}}\textbf{A}的特征分解为:
    A = V diag(\lambda) V_{-1}

  • 正定(positive definite)所有特征值都是正数的矩阵;
    x^{T}Ax= 0\Rightarrow x=0

  • 半正定(positive semidefinite):所有特征值都是非负数的矩阵;
    \forall x,x^{T}Ax\geqslant 0

  • 负定(negative definite):所有特征值都是负数的矩阵;

  • 半负定
    (negative semidefinite):所有特征值都是非正数的矩阵。

2.8 奇异值分解

  • 奇异值分解(singular value decomposition, SVD),将矩阵分
    解为奇异向量(singular vector)和奇异值(singular value)。每
    个实数矩阵都有一个奇异值分解,但不一定都有特征分解。

假设\textbf{A} 是一个m \times n 的矩阵,那么\textbf{U}是一个m \times m 的矩阵,\textbf{D}是一个m \times n的矩阵,V 是一个n \times n矩阵。矩阵\textbf{U}\textbf{V} 都定义为正交矩阵,而矩阵\textbf{D} 定义为对角矩阵。注意,矩阵\textbf{D} 不一定是方阵。
A=UDV^{T}

  • 奇异值(singular value):对角矩阵\textbf{D} 对角线上的元素;
  • 左奇异向量(left singular vector):矩阵\textbf{U} 的列向量;
  • 右奇异向量(right singular vector):矩阵\textbf{V} 的列向量。

知乎参考资料(https://zhuanlan.zhihu.com/p/31386807)

2.9 Moore-Penrose伪逆

  • Moore-Penrose 伪逆(Moore-Penrose pseudoinverse):。矩阵\textbf{A} 的伪逆定义为:
    A ^{+}=\lim_{\alpha \rightarrow 0}(A^{T}A+\alpha I)^{-1}A^{T}=VD^{+} U^{T}
    其中,矩阵\textbf{U}\textbf{D}\textbf{V}是矩阵\textbf{A}奇异值分解后得到的矩阵。对角矩阵\textbf{D} 的伪逆D^{+} 是其非零元素取倒数之后再转置得到的.

2.10 迹运算

  • 迹运算返回的是矩阵对角元素的和:
    Tr(A)=\sum_{i}A_{i,i}\left \| A \right \|_{F}=\sqrt{Tr(AA^{T})}
  • 性质:
    • 转置不变,
      Tr(A)=Tr(A^{T})
    • 交换律,
      Tr(ABC) = Tr(CAB) = Tr(BCA)
    • 标量在迹运算后仍然是它自己。
      a = Tr(a)

2.11 行列式

  • 行列式,记作det(A),是一个将方阵\textbf{A}映射到实数的函数。行列式等于矩阵特征值的乘积。

2.12 实例:主成分分析

  • 主成分分析(principal components analysis, PCA)是一个简单的机器学习算法,可以通过基础的线性代数知识推导,可用来降维操作。自行学会推导。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容