cs231n - Section#2

一、线性分类Linear Classification

线性分类器中的score function完成下面的函数映射：

score function mapping.PNG

具体来讲，就是将D维的图像x，映射到K维的分类标签。以cifar-10数据集为例，图像大小为32 x 32像素，加上RGB三通道，x的维度就是32 x 32 x 3 = 3072。该数据集有10个分类标签，则K = 10。

具体的计算公式如下：

linear classifier.PNG

其中：

xi
代表图片样本集中的某个图片样本，这里将图片的每个像素值拉长，形成了一个 [D, 1] 的列向量。对于cifar-10数据集的图片，其大小为32 x 32像素，加上RGB三通道，xi的维度是3072， xi就是[3072, 1]的列向量。这里对于如何拉长形成列向量的规则并没有特定要求，只要每个图片都按相同的方式生成其向量即可
W
W是一个 [K, D]的矩阵，其中每一行代表一个分类标签的分类器。对于cifar-10，W就是 [10, 3072]，共10个分类器，分别对应于cat、dog、ship等类别标签。
b
b是 [K, 1]的偏置，cifar-10中就是[10, 1]

最终运用上面的公式，可以计算出一个图片对应K个类别的各自得分。
而要训练的，则是通过training样本确定最优的W和b的值

二、线性分类的两种解释

W和b的值大致可以认为其对图片中各个位置上的点的颜色的偏好，例如对于ship类别，一些位置的点偏好蓝色（可能由于该类别图片样本中有许多蓝色的海水）。

其中一种对线性分类器的解释是，可以将图片看做高维空间中的点，那么每一个类别的分数就是该空间中的一个线性函数。

pixelspace.jpeg

线性函数上的点其在该类别的得分为0，箭头方向一面的点则分值为正，反方向的点则分数为负。

而另一种理解是，可以将线性分类看做某种模板匹配。W中的每一行对应于类别中的某一类的模板。

templates.jpg

从上图可以看出，这种模板匹配的能力很弱，例如，对于car类别，它只能比较好的识别红色的车辆，可能是由于cifar-10数据集中红色车辆比较多。后面可以看到，如果应用神经网络进行分类，网络中的隐藏层可以识别不同颜色的车辆，然后在网络的高层来进行更进一步的评分。

三、损失函数 Multiclass Support Vector Machine

课程给出了两种Loss Function，Multiclass Support Vector Machine和Softmax。先看看Multiclass SVM。

Multiclass SVM

Multiclass SVM希望图片的正确分类的得分score高于不正确分类的得分一个固定的间隔值，这个值称作margin。

具体来说，如果第i个样本根据score function得到的分类得分向量为s，其中每一类的得分分量记为s_j（即第j类的得分），那么第 i 个样本的loss function定义如下

multiclass-svm-loss-i.PNG

注意，其中求和项不包括其正确分类的那一项，delta就是margin值。

举个例子，如果对第 i 个样本的得分为 s = [13, -7, 10]，并设置delta = 10，那么运用上面的公式就有

m-svm-eg.PNG

另外，对于公式，如果以 W 矩阵的第 j 行 w_j 代入 s_j，s_yi也以类似方式代入可以得到如下的等效公式

m-svm-eq.PNG

最后，将每个样本的Loss值 L_i求和，并取平均，则可以得到线性分类器对整个样本的Loss值。

max(0, -)被称作 hinge loss，这是常用的形式。有时也会使用其平方的形式 max(0, -)²，被称作squred hinge loss SVM（或叫做 L2 - SVM）

Regularization

但是，直接应用上面的Loss Function具有一些不合适的地方，简单来说，就是对于同样的Loss值，W的取值并不唯一，这时需要引入正则化 regularization 来约束W。

具体的做法是，给loss function增加一个regularization惩罚项R(W)，常用的有L2 regularization。如下所示

L2.PNG

加这项加入loss function后，即变为如下形式

m-svm-L2.PNG

或者其等效形式

m-svm-L2-eq.PNG

其中的lamda是一个hyper-parameter，通常可以用cross validation的方式来决定其取值。

Regularization的意义

L2 regulariztion带来许多好处。其中最明显的一个是，对大的weights的惩罚可以提高模型的泛化承担，因为没有输入可以仅靠其自己就对score产生很大的作用。

举例来说，如果有一个输入x = [1, 1, 1, 1]，并且有两种不同的weight，w₁ = [1, 0, 0, 0]和w₂ = [0.25, 0.25, 0.25, 0.25]。可以知道w₁x = w₂x = 1，但是根据L2 regulariztion项，其各自的惩罚值为1和0.25，最终选取较小的loss值会使得算法选择w₂作为weight值。最终分类器会更多的考虑值比较小的输入维度，而不是被一些大值的维度影响。后面的课程可以看到，应用了regulariztion后，分类器的泛化承担和防止过拟合overfitting会更好。

除了L2，还有其他的regulariztion方法，例如L1、Elastic net（L1 + L2）、Max norm、Dropout等等。

Multiclass SVM的代码实现（未应用regularization）

这里给出了两个版本的对L_i计算的实现，一个是向量化的方式，一个是半向量化的方式，如下

def L_i(x, y, W):
  """
  unvectorized version. Compute the multiclass svm loss for a single example (x,y)
  - x is a column vector representing an image (e.g. 3073 x 1 in CIFAR-10)
    with an appended bias dimension in the 3073-rd position (i.e. bias trick)
  - y is an integer giving index of correct class (e.g. between 0 and 9 in CIFAR-10)
  - W is the weight matrix (e.g. 10 x 3073 in CIFAR-10)
  """
  delta = 1.0 # see notes about delta later in this section
  scores = W.dot(x) # scores becomes of size 10 x 1, the scores for each class
  correct_class_score = scores[y]
  D = W.shape[0] # number of classes, e.g. 10
  loss_i = 0.0
  for j in xrange(D): # iterate over all wrong classes
    if j == y:
      # skip for the true class to only loop over incorrect classes
      continue
    # accumulate loss for the i-th example
    loss_i += max(0, scores[j] - correct_class_score + delta)
  return loss_i

def L_i_vectorized(x, y, W):
  """
  A faster half-vectorized implementation. half-vectorized
  refers to the fact that for a single example the implementation contains
  no for loops, but there is still one loop over the examples (outside this function)
  """
  delta = 1.0
  scores = W.dot(x)
  # compute the margins for all classes in one vector operation
  margins = np.maximum(0, scores - scores[y] + delta)
  # on y-th position scores[y] - scores[y] canceled and gave delta. We want
  # to ignore the y-th position and only consider margin on max wrong class
  margins[y] = 0
  loss_i = np.sum(margins)
  return loss_i

def L(X, y, W):
  """
  fully-vectorized implementation :
  - X holds all the training examples as columns (e.g. 3073 x 50,000 in CIFAR-10)
  - y is array of integers specifying correct class (e.g. 50,000-D array)
  - W are weights (e.g. 10 x 3073)
  """
  # evaluate loss over all examples in X without using any for loops
  # left as exercise to reader in the assignment

实际应用中的考虑

上面的hyper paramter有两个，delta和lamda。如何决定这连个超参数的值呢？

看起来delta和lamda都会对loss function产生影响，然而实际情况时对所以的情况，都可以把delta的值安全的设置为1.0。原因是，score的值会受到W的值按比例放大或缩小的影响，换句话说不同score之间的差值也会相应的按比例变化，这时候delta取什么值似乎并不重要，只要它也按类似的比例变化即可。

而W的可变范围则是由regulariztion中的lamda来约束的，所以，最终我们只需要确定lamda的值即可。

题外话

Binary SVM其实是Multiclass SVM的特例
Multiclass SVM的形式还有其他几种，例如One-Vs-All (OVA) SVM、All-vs-All (AVA) 、Structured SVM。

四、Softmax分类器

另一种损失函数是以Softmax + cross entropy来定义的。具体的公式如下，图中的两个公式等效

softmax_loss.png

上面的公式中包含了两层含义。

softmax函数计算
公式中log函数内部的部分叫做softmax函数，将其独立写成函数形式如下。

softmax.png

其中对于我们的分类器场景，上面公式中的z对应于各个分类的得分函数值，z_j就是对应于第j个分类的得分

cross-entropy计算
损失函数中log和负号部分是应用了cross entropy交叉熵计算的结果。交叉熵的公式如下

cross_entropy.png

它反映了真实的概率分布p和估计概率分布q之间的差异。而对于分类应用，n个分类的真实概率分布中，只有一个分类为真，其概率为1，其余真实概率为0。而我们的估计概率q就是上面的softmax函数应用到各个分类的分的情况，将两者代入交叉熵公式就得到了本节最上面图中的结果（真实概率为0的分类与其对应的softmax部分相乘就变成了0，被略去了）。从这里，也可以认为softmax的具有一定的概率上的意义。

在实际应用中，计算softmax的时候，由于分母的值通过指数计算求和得到，常常由于其值太大，导致除法结果在数值上不稳定，因此需要对其进行normlization处理。具体方式如下

softmax_trick.jpg

从上图看出，对分子分母乘以相同的C，并将其代入指数中，相当于对每个分类的得分值进行了改变。

常用的做法是让logC = - max(f)，即让logC选择为负的得分值中的最大值，相等于将所有的得分减去了其中的最大值，得分的最大值变为了0。

最后编辑于：2017.12.06 12:33:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,635评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,628评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,971评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,986评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,006评论 6赞 394
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,784评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,475评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,364评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,860评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,008评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,152评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,829评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,490评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,035评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,156评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,428评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,127评论 2赞 356