自编码

一、什么是自编码

简单的自编码是一种三层神经网络模型，包含了数据输入层、隐藏层、输出重构层，同时它是一种无监督学习模型。在有监督的神经网络中，我们的每个训练样本是（X，y），然后y一般是我们人工标注的数据。比如我们用于手写的字体分类，那么y的取值就是0~9之间数值，最后神经网络设计的时候，网络的输出层是一个10个神经元的网络模型（比如网络输出是(0,0,1,0,0,0,0,0,0,0),那么就表示该样本标签为2）。然而自编码是一种无监督学习模型，我们训练数据本来是没有标签的，那么自编码是这样干的，它令每个样本的标签为y=x，也就是每个样本的数据x的标签也是x。自编码就相当于自己生成标签，而且标签是样本数据本身。

三层自编码神经网络模型如下：

自编码网络包含两个过程：

(1)从输入层-》隐藏层的原始数据X的编码过程：

(2)从隐藏层-》输出层的解码过程：

那么数据X的重构误差损失函数就是：

其中M是训练样本的个数。

因此等我们训练完网络后，当我们随便输入一个测试样本数据X'，那么自编码网络将对X‘先进行隐藏层的编码，然后再从隐藏-》输出完成解码，重构出X’。隐藏层可以看成是原始数据x的另外一种特征表达。

这个时候就会有人问自编码有什么作用，训练一个神经网络模型，让它输入是x，然后输出也近似x，有毛用？其实自编码可以实现类似于PCA等数据降维、数据压缩的特性。从上面自编码的网络结构图，如果输入层神经云的个数n小于隐层神经元个数m，那么我们就相当于把数据从n维降到了m维；然后我们利用这m维的特征向量，进行重构原始的数据。这个跟PCA降维一模一样，只不过PCA是通过求解特征向量，进行降维，是一种线性的降维方式，而自编码是一种非线性降维。

当然自编码隐藏层可以比输入层的神经元个数还多，然后我们可以在神经网络的损失函数构造上，加入正则化约束项进行稀疏约束，这个时候就演化成了稀疏自编码了，因此我们接着就说说稀疏自编码。

二、什么是稀疏自编码(SAE)

所谓的稀疏自编码就对隐藏层神经元加入的稀疏约束，因为我们希望，用尽可能少的神经元来表示原始数据X。我们知道隐藏层神经元的激活值就相当于原始数据X的另外一种表达，我们希望这种表达是稀疏表达（也就是隐藏层的神经元激活值尽可能多的为0）。我们知道隐藏层神经元j的平均激活度为：

其中m表示样本的个数。我们要让隐藏层神经元j尽量为0，如果可以让[] ，然后让 [] 是一个趋近于零的小数，那该有多好。于是我们构造了KL散度作为网络的正则约束项，使得[] 尽量的接近于[] ：

最后网络训练损失函数就是：

总之：稀疏自编码就是在原来自编码的损失函数上，加入了稀疏约束项。除了让我们的隐藏层特征稀疏性外，江湖传说它还有加速网络训练的功能(参考自文献《Deep Learning of Part-based Representation of Data Using Sparse Autoencoders with Nonnegativity》)

不过除了稀疏约束项之外，一般我们为了防止过拟合，还加入了权重衰减项，所以最后的损失函数就是：

三、什么是降噪自编码（DAE文献：《Extracting and Composing Robust Features with Denoising Autoencoders》）

降噪自编码与自编码的区别：在原始数据X上加入了噪声X'，然后再作为网络的输入数据，来重构输出原始还未加入噪声的数据。

因此降噪自编码的损失函数是构造原始数据X与网络输出X''之间的一个差异性度量。加入噪声，然后训练恢复原始数据，可以让我们的网络具有更强的抗噪能力，使得自编码更加鲁邦。

文献的具体做法是，通过对原始数据输入神经元，进行人为随机损坏加噪声，得到损坏数据X'。

方法1：可以采用高斯噪声：

方法2：采用binary mask 噪声，也就是把输入神经元值随机置0（跟drop out 一样，把某些神经元的激活值置0)，然后再作为神经网络的输入。

四、什么是收缩自编码（CAE文献：《Contractive auto-encoders: Explicit invariance during feature extraction》）

收缩自编码也很简单，只不过是在损失函数中，加入了一项惩罚项。

以前加入正则项的自编码损失函数一般是这样的：

现在采用CAE的损失函数是这样的：

如果网络采用的Sigmod函数，那么Jf(x)的计算公式就是：

h表示隐层神经元。

五、什么是栈式自编码

开始讲什么是栈式自编码前，让我们先来了解一些深度学习中的无监督预训练。我们知道，在深度学习中，一般网络都有很多层，因为网络层数一多，训练网络采用的梯度下降，在低层网络会出现梯度弥散的现象，导致了深度网络一直不招人待见。直到2006年的3篇论文改变了这种状况，由Hinton提出了一种深层网络的训练方法，改变了人们对深度学习的态度。Hinton所提出的训练思想，整体过程如下；

A、网络各层参数预训练。我们在以前的神经网络中，参数的初始化都是用随机初始化方法，然而这种方法，对于深层网络，在低层中，参数很难被训练，于是Hinton提出了参数预训练，这个主要就是采用RBM、以及我们本篇博文要讲的自编码，对网络的每一层进行参数初始化。也就是我们这边要学的稀疏自编码就是为了对网络的每一层进行参数初始化，仅仅是为了获得初始的参数值而已（这就是所谓的无监督参数初始化，或者称之为“无监督

pre-training”）。

B、比如采用自编码，我们可以把网络从第一层开始自编码训练，在每一层学习到的隐藏特征表示后作为下一层的输入，然后下一层再进行自编码训练，对每层网络的进行逐层无监督训练。

C、当我们无监督训练完毕后，我们要用于某些指定的任务，比如分类，这个时候我们可以用有标签的数据对整个网络的参数继续进行梯度下降调整。

这就是深层网络的训练思想，总体归结为：无监督预训练、有监督微调。

OK，我们回到本篇文章的主题，从上面的解释中，我们知道稀疏自编码仅仅只是为了获得参数的初始值而已。栈式自编码神经网络是一个由多层稀疏自编码器组成的神经网络，其前一层自编码器的输出作为其后一层自编码器的输入。栈式自编码就是利用上面所说的：无监督pre-training、有监督微调进行训练训练的深度网络模型。接着就让我们来学一学具体的栈式自编码网络训练。下面是来自斯坦福的深度学习教程的一个例子：http://ufldl.stanford.edu/wiki/index.php/%E6%A0%88%E5%BC%8F%E8%87%AA%E7%BC%96%E7%A0%81%E7%AE%97%E6%B3%95

问题描述：假设我们要训练一个4层的神经网络模型用于分类任务，网络结构如下：