神经网络与深度学习的阅读笔记

原文链接(中文版)
第一章和三四章的笔记，从最简单的神经元模型感知机讲起，感知机的激活函数是阶跃函数，不能很好地反应代价函数下降的变化量，由此引入sigmoid激活函数，介绍了BP网络的梯度下降法，使代价函数始终朝自变量负梯度方向下降，采用随机梯度下降提升学习效率，最后从代价函数、正则化、权值初始化、超参数选择等方面入手优化学习模型，加快学习速度。

随机梯度下降

每次迭代都进行随机梯度下降，（随机选择训练输入的少量样本，并只计算这些样本的∇Cx的平均值来估算梯度 nablaC。）每一次迭代随机分配minibatch，对每一个batch进行参数更新，参数更新是依据batch中所有样本的梯度的平均值。
累计BP则是求得所有样本的变化量的均值C=1n∑xCx

神经网络的超参数
训练迭代数，mini-batch的大小，学习率eta，隐藏神经元个数

交叉熵代价函数

利用二次代价函数(均值方差)作为代价函数可能会因为初始参数选取不恰当的原因导致学习速度下降，因为在梯度下降算法中涉及到sigmoid函数的导数，当接近1时变化缓慢，解决方案是交叉熵代价函数

交叉熵代价函数

交叉熵由于非负和接近目标值时交叉熵接近0的特性，可作为代价函数，同时也避免了学习速度下降的问题

因为交叉熵在对变量求梯度时，约去了sigmoid函数项，所以避免了学习速率下降的问题，如下

交叉熵求权重导

交叉熵求阈值导

一般当输出神经元使用sigmoid激活函数时，交叉熵都是更好的选择

softmax层

softmax函数也可以用于解决学习缓慢的问题，用softmax函数代替sigmoid函数作为激活函数，softmax层的输出都是一些相加为1的正数的集合，可被看作是概率分布

softmax函数

用log-likelihood函数作为代价函数

log-likelihood

当softmax的输出接近于1时，log-likelihood的输出接近于0，可用作概率分布的代价函数。softmax 加上 log-likelihood 的组合更加适用于那些需要将输出激活值解释为概率的场景。

过拟合

在训练集由于迭代的增加代价函数会不断降低，学习能力越来越强，但但反映在测试集上可能会出现准确率或代价函数在一段时间内提升后震荡或衰减的现象。原因是在学习过程中由于参数众多，可能导致模型学习到训练数据本身的性质。方法之一是早停，当学习到验证集的准确度出现饱和时，停止训练。或是增加训练样本。
另一种缓解过拟合的方法是规范化，或称权值下降、L2正则化

L2正则化

规范化的效果是让网络倾向于学习小一点的权重，规范化可以当做一种寻找小的权重和最小化原始的代价函数之间的折中。这两部分之前相对的重要性就由lambda的值来控制了：lambda越小，就偏向于最小化原始代价函数，反之，倾向于小的权重。在引入正则化后，参数的下降会多减去关于lambda的一项

正则化的权重下降

无规范化的网络在随机初始化参数后可能最终会得到极小值，规范化网络能有效规避这一问题。规范化网络使权重更小，小的权重在某种程度上说表示更低的复杂度。更小的权重意味着网络的行为不会因为我们随便改变了一个输入而改变太大。这会让规范化网络学习局部噪声的影响更加困难。将它看做是一种让单个的证据不会影响网络输出太多的方式。相对的，规范化网络学习去对整个训练集中经常出现的证据进行反应。对比看，大权重的网络可能会因为输入的微小改变而产生比较大的行为改变。所以一个无规范化的网络可以使用大的权重来学习包含训练数据中的噪声的大量信息的复杂模型。简言之，规范化网络受限于根据训练数据中常见的模式来构造相对简单的模型，而能够抵抗训练数据中的噪声的特性影响。我们的想法就是这可以让我们的网络对看到的现象进行真实的学习，并能够根据已经学到的知识更好地进行泛化。

简单概括上述表达，正则化会将学习过程中那些离群点看作噪声从而减少参数数量，简化学习模型，避免过拟合。

规范化的其他技术

L1正则化
dropout
人工扩展训练数据

权重初始化

当采用标准正态分布(均值0方差1)进行权值初始化时，对于隐层神经元的输入有可能饱和(通过重构代价函数可以解决输出神经元在错误值上饱和导致学习下降的问题，但不能解决隐层的饱和)。可以使用均值0方差1/srqt(n)的正态分布初始权重，这样会向下挤压高斯分布，不容易饱和。这样的初始化不仅仅能够带来训练速度的加快，有时候在最终性能上也有很大的提升。

self.biases = [np.random.randn(y, 1) for y in self.sizes[1:]]
self.weights = [np.random.randn(y, x)/np.sqrt(x)
                        for x, y in zip(self.sizes[:-1], self.sizes[1:])]

如何选择神经网络的超参数

学习率

通常采用可变的学习率更加有效。在学习的前期，权重可能非常糟糕。所以最好是使用一个较大的学习率让权重变化得更快。越往后，我们可以降低学习率，这样可以作出更加精良的调整。一种自然的观点是使用提前终止的想法。就是保持学习率为一个常量知道验证准确度开始变差。然后按照某个量下降学习率。

规范化参数

我建议，开始时不包含规范化lambda=0，确定eta的值。使用确定出来的eta，我们可以使用验证数据来选择好的lambda。从尝试lambda=1.0开始，然后根据验证集上的性能按照因子10增加或减少其值。一旦我已经找到一个好的量级，你可以改进lambda的值。这里搞定后，你就可以返回再重新优化eta。

minibatch大小