李宏毅深度学习(一):深度学习模型的基本结构

好久没有更新文章了，最近看了李宏毅老师的深度学习视频课程，真的是讲得十分细致，从头到尾看下来一遍，对深度学习模型有了一个基本的认识，趁着脑子还能记着一些东西，赶紧把学到的东西记录下来，以备后用。
视频地址：https://www.bilibili.com/video/av9770302/from=search&seid=905421046757750252
ppt地址：http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS17.html

下面开始正题吧！

1、全连接神经网络(Fully Connected Structure)

最基本的神经网络非全连接神经网络莫属了，在图中，a是神经元的输出，l代表层数，i代表第i个神经元。

两层神经元之间两两连接，注意这里的w代表每条线上的权重，如果是第l-1层连接到l层，w的上标是l，下表ij代表了第l-1层的第j个神经元连接到第l层的第i个神经元，这里与我们的尝试似乎不太一样，不过并无大碍。

所以两层之间的连接矩阵可以写为如下的形式：

每一个神经元都有一个偏置项：

第l层的第i个神经元的输出a是怎么得到的呢？我们首先会对上一层的所有神经元与该神经元计算一个加权平均，最后不要忘记加上偏置项。这个值记为z，即该神经元的输入。

如果写成矩阵形式如下图：

针对输入z，我们经过一个激活函数得到输出a：

常见的激活函数有：
这里介绍三个：
sigmoid
Sigmoid 是常用的非线性的激活函数，它的数学形式如下：

它能够把输入的连续实值“压缩”到0和1之间。
特别的，如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1，如下图所示：.

sigmoid 函数曾经被使用的很多，不过近年来，用它的人越来越少了。主要是因为它的一些缺点：
**Sigmoids saturate and kill gradients. **（saturate 这个词怎么翻译？饱和？）sigmoid 有一个非常致命的缺点，当输入非常大或者非常小的时候（saturation），这些神经元的梯度是接近于0的，从图中可以看出梯度的趋势。所以，你需要尤其注意参数的初始值来尽量避免saturation的情况。如果你的初始值很大的话，大部分神经元可能都会处在saturation的状态而把gradient kill掉，这会导致网络变的很难学习。
Sigmoid 的 output 不是0均值. 这是不可取的，因为这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。
产生的一个结果就是：如果数据进入神经元的时候是正的(e.g. x>0 elementwise in f=wTx+b)，那么 w 计算出的梯度也会始终都是正的。
当然了，如果你是按batch去训练，那么那个batch可能得到不同的信号，所以这个问题还是可以缓解一下的。因此，非0均值这个问题虽然会产生一些不好的影响，不过跟上面提到的 kill gradients 问题相比还是要好很多的。

tanh
tanh 跟sigmoid还是很像的，实际上，tanh 是sigmoid的变形：
tanh(x)=2sigmoid(2x)−1
与 sigmoid 不同的是，tanh 是0均值的。因此，实际应用中，tanh 会比 sigmoid 更好（毕竟去粗取精了嘛）。
tanh的函数图像如下图所示：

ReLu
近年来，ReLU 变的越来越受欢迎。它的数学表达式如下：
f(x)=max(0,x)
很显然，从图左可以看出，输入信号<0时，输出都是0，>0 的情况下，输出等于输入。w 是二维的情况下，使用ReLU之后的效果如下：

所以，整合一下上面说的：

2、循环神经网络(Recurrent Structure)

循环神经网络常用来处理Sequence类型的数据，比如一句话。
循环神经网络的结构如下，简单来说，我们的网络结构定义在中间的f，它每次接受两个输入h和x，输出y和h'：

当然，循环神经网络也可以有多层，网络结构如下图所示：

另外，还有双向循环神经网络的结构：

了解了各种RNN的基本结构之后，那么问题来了，f怎么定义的呢，对于一般的RNN，中间的f定义如下（下面的定义忽略了偏置项）：

3、LSTM

在RNN的基础上，还有一种常用的基本结构是LSTM，如果在RNN中，我们把输入h看成是记忆的话，LSTM将这种记忆进一步分为了长时记忆和短时记忆：

这里的c变化非常缓慢，可以认为是长时记忆，h变化非常快，可以认为是短时记忆。可以看到，LSTM的输入有三项x，h，c，输出也是三项，那么对于三项输入，LSTM内部是怎么处理的呢？

根据x和h，我们会计算出三个门，分别为输入门、遗忘门、输出门。

根据这三个门，我们可以得到LSTM的基本结构如下：

上一时刻输入的c与遗忘门进行对位相乘，选择对之前信息的遗忘程度，然后加入这一时刻的输入信息，作为这一时刻册长时记忆c输出。长时记忆经过tanh激活之后再与输出门对位相乘，作为这一时刻的短时记忆输出，h再经过一层神经网络，得到这一时刻的输出。看到这里，想清楚过程，我们可以尝试一下在纸上画一下LSTM的结构。

还有一种常用的结构，这种结构使用程度渐渐超过了LSTM，称为GRU，对LSTM网络进行了压缩，更容易训练。下面图上的公式实际是错的，右边第一项上标应该是t-1 .

4、卷积网络

卷积网络有两个重要的特性
稀疏连接 Sparse Connectivity ：每个神经元仅与前一层部分神经元相连接
参数共享 Parameter Sharing：同一个feature map的参数是相同的。
假设有100 * 100像素的图片，如果下一层有100个神经元，那么全连接的神经网络，将有100 * 100 * 100=100万的参数，如果采用稀疏连接和参数共享，后一层的一个神经元只与前一层的100个神经元连接，那么需要100 * 100 = 1万个参数，如果与不同神经元连接的这100条线的参数都相同，那么只需要100个参数，这叫一个feature map或者说一个field，但是这只能学到一个特征，我们可以定义多个feature map来学习不同的特征，如果有100个feature map，那么参数就是100 * 100的量。

如下面的图中，我们定义了两个feature map，红橙黄连线上的参数是共享的，蓝绿连线上的参数是共享的。

上面是卷积的概念，在卷积神经网络中，还有一个重要的概念是池化：Pooling，即将几个神经元的输出变为一个输出，池化的方法有平均法、最大值法和L2法。

视频中还讨论的一个点是，我们该拿哪些结果进行池化，可以是同一个feature map出来的，也可以组合不同feature map出来的。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,445评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,889评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,047评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,760评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,745评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,638评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,011评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,669评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,923评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,655评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,740评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,406评论 4赞 320
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,995评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,961评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,023评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,483评论 2赞 342

李宏毅深度学习(一):深度学习模型的基本结构

1、全连接神经网络(Fully Connected Structure)

2、循环神经网络(Recurrent Structure)

3、LSTM

4、卷积网络

推荐阅读更多精彩内容