这些深度学习术语，你了解多少？（上）

对于一个新手来说，深度学习术语可能非常难以理解。本表试图解释深度学习常用术语并链接到原始参考，以帮助读者深入了解特定主题。

深度学习与“一般”的机器学习术语之间的界限非常模糊。例如，我这里不包括“交叉验证”，因为它是一种通用技术，用于整个机器学习。但是，我加入了softmax或word2vec等术语，因为它们通常与深度学习相关，即使它们不是深度学习技术。

激活函数

为了让神经网络学习复杂的决策边界，我们将非线性激活函数应用于其某些层。常用的函数包括sigmoid、tanh、ReLU（整流线性单元）及它们的变体。

Adadelta

Adadelta是一种基于梯度下降的学习算法，可以随时间调整每个参数的学习速率。它被认为是对Adagrad的改进，因为Adagrad对超参数很敏感，并且可能过于快速的降低学习速度。Adadelta类似于rmsprop，可以用来代替朴素SGD。

相关资源：

1、在线学习和随机优化的自适应梯度下降方法

2、斯坦福CS231n：优化算法

3、梯度下降优化算法概述

Adam

Adam是一种类似于rmsprop的自适应学习速率算法，但是使用梯度的第一和第二时刻的运行平均值直接估计更新，并且还包括偏差校正项。

1、Adam：随机优化的一种方法

2、梯度下降优化算法概述

Affine layer(仿射层)

一种神经网络中的完全连接层。仿射意味着前一层中的每个神经元都连接到当前层中的每个神经元。在许多情况下，这是神经网络的“标准”层。在进行最终预测之前，通常会在卷积神经网络或递归神经网络的输出之上添加仿射层。仿射层通常形式的y=f(Wx+b)，其中x是该层的输入，W参数，b偏置向量，f是非线性激活函数。

注意力机制

注意力机制受到人类视觉注意力机制的启发，即关注图像特定部分的能力。注意力机制可以应用在语言处理和图像识别架构中，以帮助网络了解在进行预测时“关注”的内容。

1、深度学习和NLP中的注意力机制

Alexnet

Alexnet是一种卷积神经网络架构的名称，它以绝对的优势赢得了ILSVRC 2012竞赛。它由五个卷积层组成，其中一些后面是最大池层，三个是完全连接的层，最后是1000-way softmax。Alexnet在深度卷积神经网络的ImageNet分类中被引入。

自动编码器

自动编码器是一种神经网络模型，其目标是预测输入本身，通常是通过网络中某处的“瓶颈”。通过引入瓶颈，我们可以强制网络输入的低维表示，这样能有效地将输入压缩为更好的表示。自动编码器与PCA和其他降维技术差不多，但由于其非线性的特性，它可以学习更复杂的映射。而且存在很多种自动编码器架构，包括去噪自动编码器、变分自动编码器或序列自动编码器。

平均池（Average-Pooling）

Average-Pooling是用于图像识别的卷积神经网络的汇集技术。它的工作原理是在一系列特征（例如像素）上滑动窗口，并获取窗口内所有值的平均值。它可以将输入压缩为较低维表示。

反向传播

反向传播是一种有效计算神经网络中梯度的算法，更一般地说，是一种前馈计算图。可以把它归结为从网络输出开始应用差异化的链规则并向后传播梯度，反向传播的第一次使用可以追溯到1960年代的Vapnik。

1、计算图上的微积分：反向传播

反向传播时间（BPTT）

Backpropagation Through Time（paper）是应用于递归神经网络（RNN）的反向传播算法。BPTT可被视为应用于RNN的标准反向传播算法，其中每个时间步长代表一个层，并且参数在各层之间共享。由于RNN在所有时间步骤中共享相同的参数，因此必须将“一段时间”的错误“通过时间”反向传播到所有先前的时间步骤，因此名称。当处理长序列时，经常使用Truncated-BPTT来降低计算成本。Truncated-BPTT在固定步数后停止反向传播错误。

1、通过时间反向传播：它做什么以及如何做到这一点

批量标准化（Batch Normalization）

批量标准化是一种对每个小批量的层输入进行标准化的技术。它加快了训练的速度，允许使用更高的学习率。目前已经发现批量标准化对卷积和前馈神经网络非常有效，但尚未成功应用于递归神经网络。

1、批量标准化：通过减少内部协变量转换来加速深度网络训练

2、批量标准化递归神经网络

双向RNN

双向RNN是一种神经网络，包含两个进入不同方向的RNN。前向RNN从开始到结束读取输入序列，而后向RNN从结束到开始读取输入序列。两个RNN堆叠在彼此之上，并且通常通过附加两个向量来组合它们的状态。双向RNN通常用于自然语言问题，因为希望在进行预测之前考虑单词之前和之后的上下文。

1、双向递归神经网络

Caffe

Caffe是伯克利视觉和学习中心开发的深度学习框架，Caffe在视觉任务和CNN模型中特别受欢迎。

分类交叉熵损失（Categorical Cross-Entropy Loss）

分类交叉熵损失也称为负对数似然，它是分类问题中流行损失函数，它可以测量两个概率分布之间的相似性，通常是真实标签和预测标签。它由真实标签的概率分布L =-sum(y * log(y_prediction))在何处给出，y_prediction是预测标签的概率分布，通常来自softmax。

通道（Channel）

向Deep Learning模型输入数据可以有多个通道。一般的图像是具有红色、绿色和蓝色通道。图像可以表示为三维张量，其尺寸对应于通道、高度和宽度。自然语言数据也可以具有多个通道，例如以不同类型的嵌入的形式。

卷积神经网络（CNN，ConvNet）

CNN使用卷积来连接输入的局部区域的提取特征。大多数CNN都包含卷积，汇集和仿射层。CNN已经越来越受欢迎，特别是他们在视觉识别任务方面的出色表现。

1、斯坦福CS231n类-视觉识别的卷积神经网络

2、NLP中使用卷积神经网络

深度信念网络（DBN）

DBN是一种概率图形模型，其以无监督的方式学习数据的分层表示。DBN由多个隐藏层组成，每个连续的层中的神经元之间具有连接。DBN是通过将多个RBN堆叠在一起并逐个训练来构建的。

1、深度信念网络的快速学习算法

DeepDream

Google发明的一种技术，旨在提炼深层卷积神经网络捕获的知识。该技术可以生成新图像或者转换现有图像并赋予它们梦幻般的风格。

Dropout

Dropout是神经网络的正则化技术，可防止过度拟合。它通过在每次训练迭代中将它们的一部分随机设置为0来防止神经元过度适应。可以以各种方式解释丢失，例如从指数数量的不同网络中随机采样。Dropout层首先通过在CNN中的使用而获得普及，但此后已应用于其他层。

1、Dropout：一种防止神经网络过度拟合的简单方法

2、递归神经网络正则化

嵌入（Embedding）

嵌入是将输入（例如单词或句子）映射到向量中。有一种流行的嵌入类型是word嵌入，例如word2vec或GloVe。它们可以嵌入句子，段落或图像。例如，通过将图像及其文本描述映射到公共嵌入空间并最小化它们之间的距离，我们可以将标签与图像匹配。嵌入可以明确地学习，例如在word2vec中，也作为监督任务的一部分，例如情感分析。通常，网络的输入层用预先训练的嵌入进行初始化，然后将其微调到手头的任务。

梯度爆炸问题

梯度爆炸问题正好与消失梯度问题相反。在深度神经网络中，梯度可能在反向传播期间爆炸，导致数量溢出。处理梯度爆炸的常用技术是执行梯度裁剪。

1、训练递归神经网络的难点

微调

微调是指使用来自其他任务（例如无人监督的训练任务）的参数初始化网络，然后根据手头的任务更新这些参数的技术。例如，NLP架构通常使用像word2vec这样的预训练词嵌入模型，然后在训练期间根据诸如情感分析之类的特定任务更新这些词嵌入模型。

梯度裁剪

梯度裁剪是一种防止在非常深的网络中爆炸梯度的技术。执行梯度裁剪有很多方式，但常见的是当参数矢量的L2范数超过某个阈值时归一化参数矢量的梯度new_gradients=gradients * threshold/l2_norm(gradients)。

手套（GloVe）

GloVe是一种用于获得单词的矢量表示（嵌入）的无监督学习算法。GloVe向量与word2vec具有相同的目的，但由于受到共现统计的训练，因此具有不同的向量表示。

1、GloVe：Word表征的全局向量

GoogleLeNet

它是赢得ILSVRC 2014挑战的卷积神经网络架构。网络使用Inception模块来减少参数并提高网络内计算资源的利用率。

GRU

门控循环单元是LSTM单元的简化版本，参数较少。就像LSTM单元一样，它使用门控机制防止RNN通过出现梯度消失的问题。GRU由一个复位门和更新门组成，用于确定旧存储器的哪一部分与当前时间步的新值保持一致。

1、使用RNN编码器-解码器学习短语表示以进行统计机器翻译

2、循环神经网络教程-使用Python和Theano实现GRU/LSTM RNN

初始模块

初始模块用于卷积神经网络，通过堆叠1×1卷积降低维数，实现更高效的计算和更深入的网络。

Keras

Kears是一个基于Python的深度学习库，包含许多用于深度神经网络的高级构建块。它可以在TensorFlow、Theano或CNTK之上运行。

LSTM

长短期记忆网络是为了通过使用记忆门控机制来防止递归神经网络中的消失梯度问题。使用LSTM单元计算RNN中的隐藏状态，帮助网络有效地传播梯度并学习远程依赖性。

1、长短期记忆

2、了解LSTM网络；

3、循环神经网络教程-使用Python和Theano实现GRU/LSTM RNN；

Max-pooling

池操作通常在卷积神经网络中使用。最大池层会选择特征块中的最大值，就像卷积层一样，池化层通过窗口大小和步幅大小进行参数化。例如，我们可以使用步幅大小2在10×10特征矩阵上滑动尺寸为2×2的窗口，在每个窗口内的所有4个值中选择最大值，从而产生新的5×5特征矩阵。合并图层有助于通过仅保留最显着的信息来减少表征的维度，并且在图像输入的情况下，它们提供转换的基本不变性（即使图像移动了几个像素，也将选择相同的最大值）。通常在连续的卷积层之间会插入池化层。

MNIST

该MNIST数据集是最常用的图像识别数据集。它包括60,000个训练和10,000个手写数字测试示例。每个图像大28×28像素，现有技术模型通常在测试装置上达到99.5％或更高的精度。

未完待续····

作者：阿里云云栖社区

链接：https://www.jianshu.com/p/6cb9a32a4269

來源：简书

简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,142评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,298评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,068评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,081评论 1赞 291
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,099评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,071评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,990评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,832评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,274评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,488评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,649评论 1赞 347
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,378评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,979评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,625评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,796评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,643评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,545评论 2赞 352

这些深度学习术语，你了解多少？（上）

推荐阅读更多精彩内容