如何从公式和矩阵操作角度理解多层感知机的前向传播?

多层感知机(MLP)是深度学习的基础,而深度学习中的大语言模型是现在ChatGPT等产品的核心技术。多层感知机是最简单的神经网络,包含输入、隐层、输出,以及本文没有涉及的反向传播、代价函数等基础却核心的概念。所以了解多层感知机可以建立起对AI技术的基本认知。

本文目的是从公式和矩阵操作角度来直观理解多层感知机的前向传播过程,对于初学者有助于建立起基本认知,对于有基本认知的读者可以进一步理解其内在过程。

首先大的层面看,多层感知机包含一个输入矩阵\mathbf{X}, 一个输出矩阵\mathbf{O},以及中间若干个隐层\mathbf{H}

一个输入层

输入\mathbf{X}是一个形状为n\times d_{in}的矩阵,每一个行向量代表一个样本(数据),d_{in}代表样本的维度。

输入层的目的是为多层感知机提供数据,数据可以是各种形式的数据例如图片、文字,但是这些数据都需要转换为以数字的形式。

举例来帮助理解,如果对28\times 28像素的灰度图片进行分类,其中共有十类。每张图片有784个像素,如果每个像素的值用一个数字来表示,那么一张图片可以用一个维度为784的行向量来表示。

n张图片堆叠起来,就形成了上述的输入矩阵\mathbf{X}。一张图片可能是十个类别中的一个,所以输出矩阵\mathbf{O}的一个行向量维度为10,代表一张图片的分类结果。行向量的元素代表图片属于某一类的概率。

\mathbf{X}使用矩阵表示为:
\mathbf{X} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d_{\text{in}}} \\ x_{21} & x_{22} & \cdots & x_{2d_{\text{in}}} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nd_{\text{in}}} \end{bmatrix}

多个隐层

隐层可以理解为将数据根据参数矩阵\mathbf{W}进行了线性变换和非线性变换。公式如下:
\mathbf{H}^{(1)} = \sigma(\mathbf{X}\mathbf{W}^{(1)} + \mathbf{b}^{(1)})
其中的\mathbf{W}代表参数矩阵,由矩阵的乘法可知其有d_{in}行,列的数量在数学上没有限制。在联系图和公式的时候,隐层中的一个神经元中的参数对应着\mathbf{W}的一列,有多少个神经元就有多少列

第一个隐层的参数矩阵表示如下,形状为d_{in}\times d_1
\mathbf{W}_1 = \begin{bmatrix} w_{11} & w_{12} & \cdots & w_{1d_1} \\ w_{21} & w_{22} & \cdots & w_{2d_1} \\ \vdots & \vdots & \ddots & \vdots \\ w_{d_{\text{in}}1} & w_{d_{\text{in}}2} & \cdots & w_{d_{\text{in}}d_1} \end{bmatrix}

b^{(1)} = \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1d_1} \end{bmatrix}

b^{(1)}在执行运算时会有广播的操作,简单来讲就是将自己作为行向量堆叠n次。

\mathbf{b}_1^{\text{broadcasted}} = \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1d_1} \\ b_{11} & b_{12} & \cdots & b_{1d_1} \\ \vdots & \vdots & \ddots & \vdots \\ b_{11} & b_{12} & \cdots & b_{1d_1} \end{bmatrix}_{n \times d_1}

运算过程用矩阵可以表达为:

\mathbf{X} \mathbf{W}_1 + \mathbf{b}_1 = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d_{\text{in}}} \\ x_{21} & x_{22} & \cdots & x_{2d_{\text{in}}} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nd_{\text{in}}} \end{bmatrix} \begin{bmatrix} w_{11} & w_{12} & \cdots & w_{1d_1} \\ w_{21} & w_{22} & \cdots & w_{2d_1} \\ \vdots & \vdots & \ddots & \vdots \\ w_{d_{\text{in}}1} & w_{d_{\text{in}}2} & \cdots & w_{d_{\text{in}}d_1} \end{bmatrix} + \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1d_1} \\ b_{11} & b_{12} & \cdots & b_{1d_1} \\ \vdots & \vdots & \ddots & \vdots \\ b_{11} & b_{12} & \cdots & b_{1d_1} \end{bmatrix}_{n \times d_1} = \begin{bmatrix} z_{11} & z_{12} & \cdots & z_{1d_1} \\ z_{21} & z_{22} & \cdots & z_{2d_1} \\ \vdots & \vdots & \ddots & \vdots \\ z_{n1} & z_{n2} & \cdots & z_{nd_1} \end{bmatrix}

公式中\sigma代表激活函数,通常选用ReLU,其公式为:
\text{ReLU}(x) = \max(0, x)

ReLU的操作对象是\mathbf{H}的每个行向量的元素,元素由一个样本进行线性变换后得到。ReLU对结果进行激活操作是非线性的。由于需要对每个行向量进行同样的操作,所以换句花话说,是对矩阵每个元素应用ReLU。

\mathbf{H}^{(1)} = \sigma(\mathbf{X}\mathbf{W}^{(1)} + \mathbf{b}^{(1)})=\sigma{(\mathbf{Z}^{(1)})}= \begin{bmatrix} \sigma(z_{11}) & \sigma(z_{12}) & \cdots & \sigma(z_{1d_1}) \\ \sigma(z_{21}) & \sigma(z_{22}) & \cdots & \sigma(z_{2d_1}) \\ \vdots & \vdots & \ddots & \vdots \\ \sigma(z_{n1}) & \sigma(z_{n2}) & \cdots & \sigma(z_{nd_1}) \end{bmatrix}

隐层的结果可以作为下一个隐层的输入:
\mathbf{H}^{(i)} = \sigma(\mathbf{H^{(i-1)}}\mathbf{W^{(i)}} + \mathbf{b^{(i)}})

一个输出层

输出\mathbf{O}是一个形状为n\times d_{out}的矩阵,每一个行向量代表一个样本最终的变换结果,d_{out}代表数据最终被变换成的维度。

输出层是对隐层结果的变换,分类任务会有非线性变换,回归任务只有线性变换。例如对于多分类问题,有如下公式:
\mathbf{O}=\text{Softmax}(\mathbf{H}\mathbf{W}+\mathbf{b})
相比于隐层的变换,结果的非线性部分使用了Softmax函数。其应用的对象是矩阵的行向量,得到每一行中各元素在这一行的权重,可以理解为属于某一类的概率。以下为公式表达:

\text{Softmax}(\mathbf{d})_i = \frac{e^{d_i}}{\sum_{j=1}^{C} e^{d_j}}

  • \mathbf{d} 是输入向量,包含 C 个元素。
  • d_i 是输入向量 \mathbf{d} 的第 i 个元素。
  • \text{Softmax}(\mathbf{d})_i 是输入向量 \mathbf{d} 的第 i 个元素经过 Softmax 函数转换后的值。
  • \sum_{j=1}^{C} e^{d_j} 是输入向量 \mathbf{d} 的所有元素的指数和

输出层行向量的维度通常由问题决定,例如在大语言模型中解码器输出部分就是一个对所有单词(准确说是token)的概率的行向量,数值代表每个单词出现的概率,所以维度等于所有单词的总数。

总结

将公式与实际的矩阵操作联系在一起能真正理解多层感知机的行为,将感性的认知具体的为实际的行为,进而加深理解。作为学习高阶知识的一个基础。

欢迎关注,共同理解更多AI知识。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容