吴恩达深度学习笔记(56)-训练一个 Softmax 分类器

训练一个 Softmax 分类器(Training a Softmax classifier)

上一个笔记中我们学习了Softmax层和Softmax激活函数,在这个笔记中,你将更深入地了解Softmax分类,并学习如何训练一个使用了Softmax层的模型。

回忆一下我们之前举的的例子,输出层计算出的z^([l])如下,

我们有四个分类C=4,z^([l])可以是4×1维向量,我们计算了临时变量t

对元素进行幂运算,最后如果你的输出层的激活函数g^([L]) ()是Softmax激活函数,那么输出就会是这样的:

简单来说就是用临时变量t将它归一化,使总和为1,于是这就变成了a^([L]),你注意到向量z中,最大的元素是5,而最大的概率也就是第一种概率。

Softmax这个名称的来源是与所谓hardmax对比,hardmax会把向量z变成这个向量

,hardmax函数会观察z的元素,然后在z中最大元素的位置放上1,其它位置放上0,所这是一个hard max,也就是最大的元素的输出为1,其它的输出都为0。与之相反,Softmax所做的从z到这些概率的映射更为温和,我不知道这是不是一个好名字,但至少这就是softmax这一名称背后所包含的想法,与hardmax正好相反。

有一点我没有细讲,但之前已经提到过的,就是Softmax回归或Softmax激活函数将logistic激活函数推广到C类,而不仅仅是两类,结果就是如果C=2,那么C=2的Softmax实际上变回了logistic回归,我不会在这个笔记中给出证明,但是大致的证明思路是这样的,

如果C=2,并且你应用了Softmax,那么输出层a^([L])将会输出两个数字,如果C=2的话,也许输出0.842和0.158,对吧?这两个数字加起来要等于1,因为它们的和必须为1,其实它们是冗余的,也许你不需要计算两个,而只需要计算其中一个,结果就是你最终计算那个数字的方式又回到了logistic回归计算单个输出的方式。

这算不上是一个证明,但我们可以从中得出结论,Softmax回归将logistic回归推广到了两种分类以上。

接下来我们来看怎样训练带有Softmax输出层的神经网络,具体而言,我们先定义训练神经网络使会用到的损失函数。

举个例子,我们来看看训练集中某个样本的目标输出,真实标签是

,用上一个笔记中讲到过的例子,这表示这是一张猫的图片,因为它属于类1,现在我们假设你的神经网络输出的是^y,^y是一个包括总和为1的概率的向量,

,你可以看到总和为1,这就是a^([l]),

对于这个样本神经网络的表现不佳,这实际上是一只猫,但却只分配到20%是猫的概率,所以在本例中表现不佳。

那么你想用什么损失函数来训练这个神经网络?

在Softmax分类中,我们一般用到的损失函数是

我们来看上面的单个样本来更好地理解整个过程。

注意在这个样本中y_1=y_3=y_4=0,因为这些都是0,只有y_2=1,如果你看这个求和,所有含有值为0的y_j的项都等于0,最后只剩下-y_2 tlog^y_2,

因为当你按照下标j全部加起来,所有的项都为0,除了j=2时,又因为y_2=1,所以它就等于- log^y_2。

这就意味着,如果你的学习算法试图将它变小,因为梯度下降法是用来减少训练集的损失的,要使它变小的唯一方式就是使-log^y_2变小,要想做到这一点,就需要使^y_2尽可能大,因为这些是概率,所以不可能比1大,但这的确也讲得通,因为在这个例子中x是猫的图片,你就需要这项输出的概率尽可能地大

概括来讲,损失函数所做的就是它找到你的训练集中的真实类别,然后试图使该类别相应的概率尽可能地高,如果你熟悉统计学中最大似然估计,这其实就是最大似然估计的一种形式。但如果你不知道那是什么意思,也不用担心,用我们刚刚讲过的算法思维也足够了。

这是单个训练样本的损失,整个训练集的损失J又如何呢?

也就是设定参数的代价之类的,还有各种形式的偏差的代价,它的定义你大致也能猜到,就是整个训练集损失的总和,把你的训练算法对所有训练样本的预测都加起来,

因此你要做的就是用梯度下降法,使这里的损失最小化。

最后还有一个实现细节,注意因为C=4,y是一个4×1向量,y也是一个4×1向量,如果你实现向量化,矩阵大写Y就是[y^((1)) y^((2))…… y^((m) )],例如如果上面这个样本是你的第一个训练样本,那么矩阵

那么这个矩阵Y最终就是一个4×m维矩阵。类似的,^Y=[^y^((1)) ^y^((2))…… ^y^((m))],这个其实就是^y^((1))

,或是第一个训练样本的输出,那么

,^Y本身也是一个4×m维矩阵。

最后我们来看一下,在有Softmax输出层时如何实现梯度下降法,这个输出层会计算z^([l]),它是C×1维的,在这个例子中是4×1,然后你用Softmax激活函数来得到a^([l])或者说y,然后又能由此计算出损失。

我们已经讲了如何实现神经网络前向传播的步骤,来得到这些输出,并计算损失,那么反向传播步骤或者梯度下降法又如何呢?

其实初始化反向传播所需要的关键步骤或者说关键方程是这个表达式dz^([l])=^y-y,你可以用^y这个4×1向量减去y这个4×1向量,你可以看到这些都会是4×1向量,当你有4个分类时,在一般情况下就是C×1,这符合我们对dz的一般定义,这是对z^([l])损失函数的偏导数(dz^([l])=∂J/(∂z^([l]) )),如果你精通微积分就可以自己推导,或者说如果你精通微积分,可以试着自己推导,但如果你需要从零开始使用这个公式,它也一样有用。

有了这个,你就可以计算dz^([l]),然后开始反向传播的过程,计算整个神经网络中所需要的所有导数。

在后面,我们会讲解一些深度学习编程框架,对于这些编程框架,通常你只需要专注于把前向传播做对,只要你将它指明为编程框架,前向传播,它自己会弄明白怎样反向传播,会帮你实现反向传播,所以这个表达式值得牢记(dz^([l])=^y-y),如果你需要从头开始,实现Softmax回归或者Softmax分类

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,284评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,115评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,614评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,671评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,699评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,562评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,309评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,223评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,668评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,859评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,981评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,705评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,310评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,904评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,023评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,146评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,933评论 2 355

推荐阅读更多精彩内容