花书第二章笔记

[ToC]

第二章线性代数

简要介绍深度学习算法中涉及到的线性代数知识。

掌握深度学习中所需要的线性代数和矩阵求导有关的数学知识

线性代数基础花书书本[p27-p46]部分

矩阵求导 https://github.com/soloice/Matrix_Derivatives

2.1 标量、向量、矩阵和张量

标量（scalar）：一个单独的数，用小写字母表示，常被设为变量，如 $n$ ，使用时需指定数据类型。
向量（vector）：一列有序排列的数，用粗体的小写变量表示，如 $\textbf{x}$ ，可以通过脚标对元素索引。
矩阵（matrix）：一个二维数组，用粗体的大写变量表示，如 $\textbf{x}$ ，可以通过行列位置对元素索引。
张量（tensor）：数组中的元素分布在若干维坐标的规则网格中，用字体 $\textbf{A}$ 表示。举例解释，把二维数组放在三维坐标系中，维度加1。
简单运算：
- 转置（transpose）：以主对角线（左上到右下）- 为轴做镜像操作。
- 矩阵相加：矩阵形状相同
- 标量和矩阵相乘或相加：标量与矩阵每个元素相乘或相加
- 广播（broadcasting）：向量和矩阵相加

2.2 矩阵和向量相乘

矩阵乘积（matrix product）：两个矩阵 $\textbf{A}$ 和 $\textbf{A}$ 相乘， $\textbf{A}$ 的列数必须和 $\textbf{B}$ 的行数相等。
$A:m \times n;B:n \times p;C=AB:m \times p$
$C_{i,j}=\sum _{k} A_{i,k}B_{k,j}$
元素对应乘积（element-wise product）或Hadamard 乘积（Hadamard product）：两个矩阵中对应元素的乘积，记为 $A \bigodot B$
点积（dot product）：两个相同维数的向量 $\textbf{x}$ 和 $\textbf{y}$ 相乘
性质：
- 分配率
  $A(B + C) = AB + AC$
- 结合律
  $A(BC) = (AB)C$
- 一般不满足交换律
  $AB \neq BA$
- 转置
  $(AB)^{T}=B^{T}A^{T}$
线性方程组：
$Ax=b$

2.3 单位矩阵和逆矩阵

单位矩阵（identity matrix）：任意向量或矩阵和单位矩阵相乘，都不会改变，记为 $\textbf{y}$ 。所有沿主对角线的元素都是1，而所有其他位置的元素都是 0。
矩阵逆（matrix inversion）：矩阵满足如下条件
$A^{-1}A=I_{n}$

2.4 线性相关和生成子空间

线性组合（linear combination）：把 $\textbf{A}$ 的列向量看做一个元素，则 $\textbf{A}$ 看做一个行向量，可用下式表示：
$Ax=\sum _{i} x_{i}A_{:,i}$
生成子空间（span）：一组向量的线
性组合，是指每个向量乘以对应标量系数之后的和，即：
$\sum _{i} c_{i}v^{(i)}$
线性相关（linear dependence）：某个向量是一组向量中某些向量的线性组合
线性无关（linear independent）：一组向量中
的任意一个向量都不能表示成其他向量的线性组合
方阵（square）：矩阵行和列相等
奇异矩阵（singular）：列向量线性相关的方阵，不可逆

2.5 范数

范数（norm）:衡量向量大小
$\left \| x \right \|_{p}=\left ( \sum _{i}\left | x_{i} \right | ^{p} \right ) ^{\frac{1}{p}}$
欧几里得范数（Euclidean norm）: $p = 2$ ，它表示从原点
出发到向量 $\textbf{x}$ 确定的点的欧几里得距离。在机器学习中频繁使用，不指明 $p$ 值时，默认为欧几里得距离。
$L1$ 范数：在各个位置斜率相同
$\left \| x \right \|_{1}= \sum _{i}\left | x_{i} \right |$
最大范数（max norm）：向量中具有最大幅值的元素的绝对值
$\left \| x \right \|_{\infty }= \max \limits_{i}\left | x_i \right |$
Frobenius 范数（Frobenius norm）：衡量矩阵的大小
$\left \| A \right \|_{F}= \sqrt{\sum _{i,j}A_{i,j}^{2}}$

2.6 特殊类型的矩阵和向量

对角矩阵（diagonal matrix）：只在主对角线上含有非零元素，其他位置都是零。例如，单位矩阵，用 $diag(v)$ 表示
对称矩阵（diagonal matrix）：转置和自己相等的矩阵
单位向量（unit vector）是具有单位范数（unit norm）的向量：

$\left \| x \right \|_{2}= 1$

正交（orthogonal）：两个向量之间的夹角是90 度
$x^{\top }y=0$
标准正交（orthonormal）:向量不仅互相正交，并且范数都为1
正交矩阵（orthogonal matrix）是指行向量和列向量是分别标准正交的方阵：
$A^{\top }A=AA^{\top }=I,A^{-1}=A^{\top }$

2.7 特征分解

特征分解（eigendecomposition）：将矩阵分
解成一组特征向量和特征值。
方阵 $\textbf{A}$ 的特征向量（eigenvector）是指与 $\textbf{A}$ 相乘后相当于对该向量进行缩放
的非零向量v，标量λ被称为这个特征向量对应的特征值（eigenvalue）

$Av = \lambda v$

特征分解（eigendecomposition）：假设矩阵 $\textbf{A}$ 有 $n$ 个线性无关的特征向量，将特征向量连接成一个矩阵 $\textbf{V}$ ，使得每一列是一个特征向量；将特征值连接成一个向量 $\mathit{\mathit{\lambda}}$ ， $\textbf{A}$ 的特征分解为：
$A = V diag(\lambda) V_{-1}$
正定（positive definite）所有特征值都是正数的矩阵；
$x^{T}Ax= 0\Rightarrow x=0$
半正定（positive semidefinite）:所有特征值都是非负数的矩阵;
$\forall x,x^{T}Ax\geqslant 0$
负定（negative definite）:所有特征值都是负数的矩阵；
半负定
（negative semidefinite）：所有特征值都是非正数的矩阵。

2.8 奇异值分解

奇异值分解（singular value decomposition, SVD），将矩阵分
解为奇异向量（singular vector）和奇异值（singular value）。每
个实数矩阵都有一个奇异值分解，但不一定都有特征分解。

假设 $\textbf{A}$ 是一个 $m \times n$ 的矩阵，那么 $\textbf{U}$ 是一个 $m \times m$ 的矩阵， $\textbf{D}$ 是一个 $m \times n$ 的矩阵，V 是一个 $n \times n$ 矩阵。矩阵 $\textbf{U}$ 和 $\textbf{V}$ 都定义为正交矩阵，而矩阵 $\textbf{D}$ 定义为对角矩阵。注意，矩阵 $\textbf{D}$ 不一定是方阵。
$A=UDV^{T}$

奇异值（singular value）:对角矩阵 $\textbf{D}$ 对角线上的元素；
左奇异向量（left singular vector）：矩阵 $\textbf{U}$ 的列向量；
右奇异向量（right singular vector）：矩阵 $\textbf{V}$ 的列向量。

知乎参考资料(https://zhuanlan.zhihu.com/p/31386807)

2.9 Moore-Penrose伪逆

Moore-Penrose 伪逆（Moore-Penrose pseudoinverse）：。矩阵 $\textbf{A}$ 的伪逆定义为：
$A ^{+}=\lim_{\alpha \rightarrow 0}(A^{T}A+\alpha I)^{-1}A^{T}=VD^{+} U^{T}$
其中，矩阵 $\textbf{U}$ ， $\textbf{D}$ 和 $\textbf{V}$ 是矩阵 $\textbf{A}$ 奇异值分解后得到的矩阵。对角矩阵 $\textbf{D}$ 的伪逆 $D^{+}$ 是其非零元素取倒数之后再转置得到的.

2.10 迹运算

迹运算返回的是矩阵对角元素的和：
$Tr(A)=\sum_{i}A_{i,i}\left \| A \right \|_{F}=\sqrt{Tr(AA^{T})}$
性质：
- 转置不变，
  $Tr(A)=Tr(A^{T})$
- 交换律，
  $Tr(ABC) = Tr(CAB) = Tr(BCA)$
- 标量在迹运算后仍然是它自己。
  $a = Tr(a)$

2.11 行列式

行列式，记作 $det(A)$ ，是一个将方阵 $\textbf{A}$ 映射到实数的函数。行列式等于矩阵特征值的乘积。

2.12 实例：主成分分析

主成分分析（principal components analysis, PCA）是一个简单的机器学习算法，可以通过基础的线性代数知识推导，可用来降维操作。自行学会推导。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,039评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,223评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,916评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,009评论 1赞 291
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,030评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,011评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,934评论 3赞 416
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,754评论 0赞 271
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,202评论 1赞 309
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,433评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,590评论 1赞 346
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,321评论 5赞 342
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,917评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,568评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,738评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,583评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,482评论 2赞 352