周志华《机器学习》之六:神经网络

神经元模型

单一神经元的模型通常是一个阶跃函数或sigmoid函数,像是模拟神经元输入累积超过一定阈值才给一个输出。

感知机与多层网络

感知机就是两个输入给出一个输出的基础模型,再复杂的神经网络都是多个感知机叠加而成的。感知机可以根据训练误差,调整权重。

误差逆传播

误差逆传播就是BP算法,是神经网络训练的常用算法。标准BP算法和累积BP算法基本对应于随机梯度下降(参数更新只针对单个样本,参数更新频繁)和批量梯度下降(参数更新考虑所有样本)。

BP算法避免过拟合的策略包括“早停”和“正则化”。“早停”在每次训练完都要用验证集估计误差,当训练误差下降但验证误差升高时停止训练。“正则化”在误差函数中加入描述网络复杂度的部分。

全局最小与局部最小

这一部分内容对其他模型也都适用。梯度下降算法趋向于梯度为零的位置,但有可能是一个局部最小值,而非全局最小。常用的跳出局部最小的方法有:

多组不同参数值初始化多个神经网络,相当于从不同初始点开始梯度下降,有可能陷入不同的局部最小,再从中选择更接近全局最小的结果;

模拟退火,类似金属冷却中的原子,一开始都是随机运动的,但慢慢趋于稳定。在当前问题中,即在梯度下降的每一步中都以一定概率接受比当前解更差的结果,从而有助于跳出局部最小。

随机梯度下降。因为每次更新只考虑一个样本,那么单一样本的随机误差其实也有助于跳出局部最小。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 5.1 神经元模型 1.神经网络 神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神...
    D系鼎溜阅读 1,433评论 0 1
  • 前言(作者的唠叨) 接触周志华《机器学习》这本书不久,书中内容对我来说都是新知识,学习新的事物过程是曲折的,但我希...
    加加加加鱼啵阅读 1,156评论 0 1
  • 神经网络 原理 《机器学习》周志华 5.1 神经元模型 神经网络中最0基本的成分是神经元(neuron)模型。 M...
    hxiaom阅读 1,081评论 0 0
  • 几许寒意袭击了10月,我周身瑟瑟。 喝下酒瓶里最后一滴烈酒,我使劲的拉了拉衣服,把心浸泡在任由肆虐我的寒意里,踉跄...
    上九天阅读 2,181评论 30 37
  • 义乌红糖,标志性食物。一如金华火腿一样的有名气,红糖小麻花就是个引申产品。却也一见倾心的!来张照片, 只说这一罐排...
    健忘闲人阅读 198评论 0 0