激活函数与损失函数

激活函数

1、作用:

线性模型的表达能力不够,激活函数增加神经网络模型的非线性,提升神经网络模型表达能力(数据往往线性不可分 )。

2、几种激活函数

(1)sigmoid函数:
sigmoid函数(Logistic 函数),隐层神经元输出,取值范围(0,1),可以将一个实数映射到(0,1)的区间,可以做二分类。


缺点:

1、Sigmoids saturate and kill gradients:梯度消失,无法深层网络训练。当输入非常大或者非常小时(saturation),神经元梯度接近于0。需要注意参数初始值避免saturation情况。初始值很大,大部分神经元可能都处在saturation状态而把gradient kill,导致网络很难学习。
2、Sigmoid 的 output 不是0均值:导致后一层神经元得到上层输出的非0均值信号作为输入。 结果:如数据进入神经元时是正的(e.g.x>0 elementwise in f=wTx+b),w 计算出梯度也始终都是正的。 如按batch训练,batch可能得到不同的信号,问题可以缓解。
3、激活函数指数运算,计算量大,反向传播求误差梯度时,求导涉及除法。


(2)tanh函数:
双曲正切函数,与sigmod函数曲线相近。两个函数输入很大或是很小时,输出几乎平滑,梯度很小,不利于权重更新;不同的是输出区间,tanh的输出区间是在(-1,1)之间,函数以0为中心。比sigmoid 好。
一般二分类问题中,隐藏层用tanh函数,输出层用sigmod函数。

(2)ReLU函数:
ReLU(Rectified Linear Unit):


优点:

1、输入为正数,不存在梯度饱和问题。
2、计算速度快。ReLU函数只有线性关系,前向传播和反向传播,都比sigmod和tanh快。(sigmod和tanh计算指数)。
3、Relu使一部分神经元输出0,网络稀疏,减少参数相互依存,缓解过拟合发生。

缺点:

1、 输入是负数,ReLU完全不被激活,ReLU会死掉。反向传播中,输入负数,梯度0,和sigmod函数、tanh函数有一样的问题。learning rate 很大,可能网络中40%的神经元都”dead”了。较小的learning rate,问题不会太频繁。
2、ReLU函数的输出是0或正数,ReLU函数也不是以0为中心的函数。

(3)softmax函数:
多分类神经网络输出:


指数:模拟 max 行为,让大的更大。需要一个可导的函数。

(4)Leaky ReLU函数(PReLU):



a是一个很小的常数,取0~1。α=0.01时,PReLU为Leaky ReLU。修正数据分布,保留负轴的值,使负轴信息不全部丢失。
PReLU是ReLU的改进型,负数区域,PReLU有很小的斜率,避免ReLU死掉问题。相比于ELU,PReLU在负数区域内是线性运算,斜率虽然小,但不会趋于0。

(4)ELU函数:



ELU函数是ReLU函数的改进型,相比于ReLU函数,在输入为负数时,有的输出,输出有一定抗干扰能力。消除ReLU死掉的问题,还是有梯度饱和和指数运算的问题。

(4)MaxOut函数:
Maxout是深度学习网络中一层网络,同池化层、卷积层,可以把maxout 看成网络的激活函数层,假设网络某一层的输入特征向量为:X=(x1,x2,……xd),输入是d个神经元。Maxout隐藏层每个神经元的计算公式如下:


maxout隐藏层神经元i的计算公式。其中,k是maxout层所需要的参数,由人为设定大小。如dropout,有参数p(每个神经元dropout概率),maxout的参数是k。公式中Z的计算公式为:

权重w是一个大小为(d,m,k)三维矩阵,b是一个大小为(m,k)的二维矩阵,这两个是需要学习的参数。如果k=1,网络就类似普通的MLP网络。
传统的MLP算法在第i层到第i+1层,参数只有一组,现在在这一层同时训练n组的w、b参数,选择激活值Z最大的作为下一层神经元的激活值,这个max(z)函数即激活函数。
Maxout拟合能力非常强,可以拟合任意凸函数。只需2个maxout节点就可以拟合任意的凸函数(相减),前提是”隐隐含层”节点的个数可以任意多。
Maxout 具有 ReLU 的优点(如:计算简单,不会 saturation),同时没有 ReLU 缺点 (如:容易 go die)。缺点:参数double。

损失函数:

实验1:第一次输出值为0.82

实验2:第一次输出值为0.98

二次代价函数:


其中,C表示代价,x表示样本,y表示实际值,a表示输出值,n表示样本的总数。
一个样本为例:



梯度下降算法:



z表示神经元的输入。w和b的梯度跟激活函数的梯度成正比,激活函数梯度越大,w和b的大小调整越快,训练收敛就越快。神经网络常用的激活函数为sigmoid函数,曲线如下:

实验2初始输出值(0.98)对应的梯度小于实验1的输出值(0.82),实验2的参数梯度下降得比实验1慢。因此初始代价(误差)越大,导致训练越慢(不合理)。

交叉熵代价函数:

不改变激活函数,二次代价函数改为交叉熵代价函数:



x表示样本,n表示样本的总数。计算参数w的梯度:




误差越大,梯度就越大,参数w调整得越快,训练速度也越快。

b的梯度:


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容