损失函数和优化-损失函数(2)

引言

这一节的笔记,主要讲解除了SVM以外的另一种损失函数——softmax损失函数。

softmax损失函数

如上一小节的最后所言,在softmax损失函数中,我们将赋予这些得分一些额外的含义,并且会用这些分数针对我们的类别计算概率分布。

在谈论softmax损失函数之前,我们先简单说明一下它的由来,它是由逻辑斯谛函数推广得到的。逻辑斯谛函数主要用来处理二分类的问题,而softmax则适用于处理多分类的问题。

选择使用softmax分类器或者多个逻辑斯谛分类器取决于所有类别之间是否互斥。互斥选择前者,不互斥有交叉则选择后者。

softmax损失函数

我们将用softmax损失函数处理分数,即先进行指数化处理以使它们转化为正数,然后用这些指数的和对分数进行归一化处理。

这些分数经过softmax损失函数处理后,我们能得到所有类别的相应的概率分布(介于0-1),而所有类别的概率和相加为1。

比较由这个函数推导出的概率分布和真实的概率分布(目标概率分布)。如对猫的图片来说,猫这一类别的目标概率应该为1,其他类别的目标概率应该都是0。

我们需要做的,就是尽量使我们通过softmax损失函数计算出的概率分布匹配上述的目标概率分布,即正确的类别应该具有几乎全部的概率。

我们可以用多种方式来列这个方程,可以在目标概率分布与计算出的概率分布间计算KL散度以比较它们的差异,或可以做最大似然估计。

而在此处,我们希望正确类别的概率应该比较高并接近1,即损失函数的计算结果为真实类别概率的对数再取负数。

因为log函数单调,所以当我们针对正确类别最大化log P,即希望函数值增大,但损失函数是用来度量坏的程度而非好的程度,所以增加一个负号,使它更加符合预设。即针对正确类别的SVM损失函数将会变成-log P。(此处的log实际为ln)

使用softmax对分数进行转化处理,并得到正确类别的损失函数是-log P

实例说明

以猫类别为例的softmax回归

将使用线性分类器后得到的3个类别分数,先进行指数化处理得到正数,再进行归一化处理,三个类别的概率分布相加为1,此时我们可以得到Li=-log(P),其中P为猫这一正确分类的分数,即0.13,计算得到结果:0.89。

softmax回归问题集

  1. softmax损失函数的最小值和最大值是多少?
  • 答案:最小值为0,最大值为无穷大。
  • 解释:概率P的取值范围为0-1。
  • 拓展:在实际操作中,如果想要让正确分类的概率为1,需要使正确分类的分数趋近于无穷大,而其他分类的分数趋近于无穷小。计算机并不擅长∞操作,因此损失函数为0,只能是理论上的最小损失,而最大损失为无穷大。
  1. 如果所有的S都很小,近乎于0,损失值是多少?
  • 答案:-ln(1/C) = lnC。
  • 解释:如果分数都很小,且接近于0,那么经过指数化和归一化处理后,所有类别得到的概率分布几乎相等,为1/C,其中C为类别数。

两种损失函数的比较

损失函数间的比较

在线性分类上面,二者的设置看起来是相等的,我们将W和输入向量相乘得到分值向量。二者的区别就在于,如何解释这些分值进而量化度量到底有多坏。

所以对于SVM来说,是要深入研究并观察正确分类的分值和不正确分类的分值的边距。

而对于softmax或交叉熵损失,我们计算概率分布,以得到正确分类的负对数概率。

Softmax vs. SVM
  • 在SVM损失函数中,正确类别(如车)的分数会比其他类别的分数高很多,即使改变了这个分数,也不会改变结果。因为SVM只关心正确的分值要比不正确的分值高出一个安全边际。

  • softmax损失函数的目标是使概率质量函数(离散分布值)等于1,所以,即使给正确分类很高的分数,同时给不正确的分类很低的分数,softmax依然会在正确分类上积累越来越多的概率质量,从而继续使正确分类的分数逼近无穷大,使不正确分类的分值逼近负无穷。

在实际应用中:

  • SVM在当数据点超过阈值成为正确分类后即停止,不再关心该数据点。

  • softmax总是试图不断提高每个数据点,使他们的表现越来越好。

在实践中选择哪个函数并不会造成很大影响,至少在很多深度学习的应用中他们的执行很相似,但我们还是应该记住这些差异。

概括

概括
  • 我们有一些xs和ys的数据集。
  • 用线性分类器得到了一个分数函数,根据我们的输入x计算分数S。
  • 用损失函数(softmax或SVM或其他)来定量计算我们的预测跟实际目标y相比有多糟糕。
  • 我们会给损失函数增加一个正则项,试图在匹配训练数据和更简单的模型间进行权衡。
    以上过程我们通常称之为监督学习。

在我们接下来的学习中,将需要指定

  • 结构上可能很复杂的函数f
  • 衡量算法做得如何的损失函数
  • 给定任意值的参数
  • 惩罚模型的复杂性的正则项
    将这些结合起来找到最终令损失函数最小化的参数W。

问题在于,我们如何才能发现这个使损失函数最小化的参数W?

这就引导出我们下一节的主题——优化。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容