吃瓜学习笔记4-第五章神经网络(感知机、多层前馈网络、误差逆传播算法BP,过拟合)

感知机

感知机 由两层神经元组成, 如图5.3 所示,输入层接收外界输入信号后传递给输出层, 输出层是M-P 神经元,亦称"阈值逻辑单元" 

其中感知机是用在线性可分的数据集上。感知机的目的就是能得到一个对数据集T中的正负样本完全正确划分的超平面,其中w^Tx-\theta =0就是超平面方程

什么叫线性可分?就是找到一个超平面把数据分开。

什么叫超平面?

超平面就是能把数据集分开的,比如说在一维可以用点区分,点就是超平面;二维可以用线条区分,线条就是超平面;三维可以用一个平面区分,平面就是超平面;

各个维度的超平面

感知机学习策略︰随机初始化w,b,将全体训练样本代入模型找出误分类样本,假设此时误分类样本集合为M \sqsubseteq T,对任意一个误分类样本(x, y) ∈M来说,当w^T -\theta ≥0时,模型输出值\hat{y} =1,样本真实标记为y =0;反之,当w^T -\theta <0时,模型输出值为\hat{y} =0,样本真实标记为y = 1。综合两种情形可知,以下公式恒成立

(\hat{y}-y )(w^Tx-\theta )≥0

所以,给定数据集T,其损失函数可以定义为:

L(w,\theta )=\sum_{x\epsilon M}(\hat{y}-y )(w^Tx-\theta )

只要让损失函数最小化,就可以得到w和\theta ,从而得到超平面的方程w^Tx-\theta =0


神经网络

要解决非线性可分问题,需考虑位多层功能神经元. 例如图5.5 中这个简单的两层感知机就能解决异或问题. 


图5.5 能解决异或问题的两层感知机

什么叫非线性可分问题?就是不能用点或线或平面划分。如下,找不到一条蓝线把正负分开。这时候我们用多层感知机来做。



多层前馈网络:每层神经元与下一层神经元全互连,神经元之间不存在同层连接,也不存在跨层连接。(隐层阈值\gamma h,输出层阈值\theta j)


多层前馈网络

隐含层和输出层神经元都是拥有激活函数的功能神经元.

其中,如果做(单输出)回归,那么我们最后的预测结果,用到的函数是y=w^Tx^*+b ,无激活函数。我们的误差用的是均方差误差。

如果做分类{0,1},那么我们最后的预测结果,用到的激活函数如下。我们用到的误差是交叉熵。

某个训练样本(x_{k} ,y_{k} ),其中y_{k} =(y_{1}^k,y_{2}^k,....y_{l}^k ),假定其多层前馈网络的输出为\hat{y}_{k} =(\hat{y}_{1}^k,\hat{y}_{2}^k,....\hat{y}_{l}^k ),则该单个样本的均方误差(损失)为

然后用下列的BP算法求出w,b。

误差逆传播算法


误差逆传播(error BackPropagation,简称BP)算法就是其中最杰出的代表.它是迄今最成功的神经网络学习算法.现实任务中使用神经网络时,大多是在使用BP 算法进行训练.值得指出的是, BP 算法不仅可用于多层前馈神经网络,还可用于其他类型的神经网络. 例如训练递归神经网络. 但通常说"BP 网络"时,一般是指用BP 算法训练的多层前馈神经网络.

误差逆传播算法(BP算法)︰基于随机梯度下降的参数更新算法。


随机梯度一般指的是一次迭代随机抽取一个样本进行梯度下降。普通梯度是一次迭代所有样本进行梯度下降。

假设隐藏层和输出层激活函数是sigmoid函数,误差用的是均方差误差。

对单个训练样本 (x_{k},y_{k}) , 假设神经网络的输出为\hat{y}_{k} =(\hat{y}_{1}^k,\hat{y}_{2}^k,....\hat{y}_{l}^k ),即

(5.3)

则网络在 (x_{k},y_{k})上的均方误差为

5.4

BP 算法基于梯度下降(gradient descent)策略, 以目标的负梯度方向对参数进行调整. 对式(5 .4) 的误差Ek, 给定学习率η,有


5.6




学习率η属于(0 , 1) 控制着算沾每一轮迭代中的更新步长,若太大则容易振荡,太小则收敛速度又会过慢.有时为了做精细调节、可令式(5.11) 与(5.12) 使用η1 ,式(5.13) 与(5.14) 使用η2 , 两者未必相等.

过拟合现象

BP算法容易过拟合,两种方法。

一种策略是"早停" (early stopping): 将数据分成训练集和验证集,训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值.

 第二种策略是"正则化" (regularization),其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分,例如连接权与阈值的平方和.仍令Ek 表示第k 个训练样例上的误差,wi表示连接权和阈值,则误差目标函数(5.16) 改变为


其中λ∈(0 , 1) 用于对经验误差与网络复杂度这两项进行折中,常通过交叉验证法来估计.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容