《深度学习》看到第六章了,觉得有些内容需要记录,前面数学的比较简单,但是也有不会的地方,好记性不如烂笔头吧~~~
使用最大似然学习条件分布
贯穿神经网络设计的一个反复出现的主题是代价函数的梯度必须足够的大和具有足够的预测性,来为学习算法提供一个好的指引。饱和(变得非常平)的函数破坏了这一目标。因为它们把梯度变得非常小。这在很多情况下都会发生,因为用于产生隐藏单元或者输出单元的输出激活函数会饱和。负的对数似然帮助我们在很多模型中避免这个问题。很多输出单元都会包含一个指数函数,这在它的变量取绝对值非常大的负值时会造成饱和。负对数似然代价函数中的对数函数消除了某些输出单元中的指数效果。
我的理解:包含应该就是梯度变小,例如sigmoid函数,例如:转载http://blog.csdn.net/u012162613/article/details/44239919