2018-11-24 Loss function in pytorch

最近看了下 PyTorch 的损失函数文档，整理了下自己的理解，重新格式化了公式如下，以便以后查阅。

值得注意的是，很多的 loss 函数都有 size_average 和 reduce 两个布尔类型的参数，需要解释一下。因为一般损失函数都是直接计算 batch 的数据，因此返回的 loss 结果都是维度为 (batch_size, ) 的向量。

如果 reduce = False，那么 size_average 参数失效，直接返回向量形式的 loss；
如果 reduce = True，那么 loss 返回的是标量
如果 size_average = True，返回 loss.mean();
如果 size_average = True，返回 loss.sum();
所以下面讲解的时候，一般都把这两个参数设置成 False，这样子比较好理解原始的损失函数定义。

下面是常见的损失函数。

nn.L1Loss
loss(xi,yi)=|xi−yi|
loss(xi,yi)=|xi−yi|
这里表述的还是不太清楚，其实要求 xx 和 yy 的维度要一样（可以是向量或者矩阵），得到的 loss 维度也是对应一样的。这里用下标 ii 表示第 ii 个元素。

loss_fn = torch.nn.L1Loss(reduce=False, size_average=False)
input = torch.autograd.Variable(torch.randn(3,4))
target = torch.autograd.Variable(torch.randn(3,4))
loss = loss_fn(input, target)
print(input); print(target); print(loss)
print(input.size(), target.size(), loss.size())
nn.SmoothL1Loss
也叫作 Huber Loss，误差在 (-1,1) 上是平方损失，其他情况是 L1 损失。
loss(xi,yi)={12(xi−yi)2|xi−yi|−12,if |xi−yi|<1otherwise
loss(xi,yi)={12(xi−yi)2if |xi−yi|<1|xi−yi|−12,otherwise
这里很上面的 L1Loss 类似，都是 element-wise 的操作，下标 ii 是 xx 的第 ii 个元素。

loss_fn = torch.nn.SmoothL1Loss(reduce=False, size_average=False)
input = torch.autograd.Variable(torch.randn(3,4))
target = torch.autograd.Variable(torch.randn(3,4))
loss = loss_fn(input, target)
print(input); print(target); print(loss)
print(input.size(), target.size(), loss.size())
nn.MSELoss
均方损失函数，用法和上面类似，这里 loss, x, y 的维度是一样的，可以是向量或者矩阵，ii 是下标。
loss(xi,yi)=(xi−yi)2
loss(xi,yi)=(xi−yi)2
loss_fn = torch.nn.MSELoss(reduce=False, size_average=False)
input = torch.autograd.Variable(torch.randn(3,4))
target = torch.autograd.Variable(torch.randn(3,4))
loss = loss_fn(input, target)
print(input); print(target); print(loss)
print(input.size(), target.size(), loss.size())
nn.BCELoss
二分类用的交叉熵，用的时候需要在该层前面加上 Sigmoid 函数。交叉熵的定义参考 wikipedia 页面： Cross Entropy

因为离散版的交叉熵定义是 H(p,q)=−∑ipilogqiH(p,q)=−∑ipilog⁡qi，其中 p,qp,q 都是向量，且都是概率分布。如果是二分类的话，因为只有正例和反例，且两者的概率和为 1，那么只需要预测一个概率就好了，因此可以简化成
loss(xi,yi)=−wi[yilogxi+(1−yi)log(1−xi)]
loss(xi,yi)=−wi[yilog⁡xi+(1−yi)log⁡(1−xi)]
注意这里 x,yx,y 可以是向量或者矩阵，ii 只是下标；xixi 表示第 ii 个样本预测为正例的概率，yiyi 表示第 ii 个样本的标签，wiwi 表示该项的权重大小。可以看出，loss, x, y, w 的维度都是一样的。
import torch.nn.functional as F
loss_fn = torch.nn.BCELoss(reduce=False, size_average=False)
input = Variable(torch.randn(3, 4))
target = Variable(torch.FloatTensor(3, 4).random_(2))
loss = loss_fn(F.sigmoid(input), target)
print(input); print(target); print(loss)
这里比较奇怪的是，权重的维度不是 2，而是和 x, y 一样，有时候遇到正负例样本不均衡的时候，可能要多写一句话

class_weight = Variable(torch.FloatTensor([1, 10])) # 这里正例比较少，因此权重要大一些
target = Variable(torch.FloatTensor(3, 4).random_(2))
weight = class_weight[target.long()] # (3, 4)
loss_fn = torch.nn.BCELoss(weight=weight, reduce=False, size_average=False)

balabala...

其实这样子做的话，如果每次 batch_size 长度不一样，只能每次都定义 loss_fn 了，不知道有没有更好的解决方案。

nn.BCEWithLogitsLoss
上面的 nn.BCELoss 需要手动加上一个 Sigmoid 层，这里是结合了两者，这样做能够利用 log_sum_exp trick，使得数值结果更加稳定（numerical stability）。建议使用这个损失函数。

值得注意的是，文档里的参数只有 weight, size_average 两个，但是实际测试 reduce 参数也是可以用的。此外两个损失函数的 target 要求是 FloatTensor，而且不一样是只能取 0, 1 两种值，任意值应该都是可以的。

nn.CrossEntropyLoss
多分类用的交叉熵损失函数，用这个 loss 前面不需要加 Softmax 层。

这里损害函数的计算，按理说应该也是原始交叉熵公式的形式，但是这里限制了 target 类型为 torch.LongTensr，而且不是多标签意味着标签是 one-hot 编码的形式，即只有一个位置是 1，其他位置都是 0，那么带入交叉熵公式中化简后就成了下面的简化形式。参考 cs231n 作业里对 Softmax Loss 的推导。
loss(x,label)=−wlabellogexlabel∑Nj=1exj=wlabel[−xlabel+log∑j=1Nexj]
loss(x,label)=−wlabellog⁡exlabel∑j=1Nexj=wlabel[−xlabel+log⁡∑j=1Nexj]
这里的 x∈RNx∈RN，是没有经过 Softmax 的激活值，NN 是 xx 的维度大小（或者叫特征维度）；label∈[0,C−1]label∈[0,C−1] 是标量，是对应的标签，可以看到两者维度是不一样的。C 是要分类的个数。w∈RCw∈RC 是维度为 CC 的向量，表示标签的权重，样本少的类别，可以考虑把权重设置大一点。

weight = torch.Tensor([1,2,1,1,10])
loss_fn = torch.nn.CrossEntropyLoss(reduce=False, size_average=False, weight=weight)
input = Variable(torch.randn(3, 5)) # (batch_size, C)
target = Variable(torch.FloatTensor(3).random_(5))
loss = loss_fn(input, target)
print(input); print(target); print(loss)
nn.NLLLoss
用于多分类的负对数似然损失函数（Negative Log Likelihood）
loss(x,label)=−xlabel
loss(x,label)=−xlabel
在前面接上一个 nn.LogSoftMax 层就等价于交叉熵损失了。事实上，nn.CrossEntropyLoss 也是调用这个函数。注意这里的 xlabelxlabel 和上个交叉熵损失里的不一样（虽然符号我给写一样了），这里是经过 logSoftMaxlogSoftMax 运算后的数值，

nn.NLLLoss2d
和上面类似，但是多了几个维度，一般用在图片上。现在的 pytorch 版本已经和上面的函数合并了。

input, (N, C, H, W)
target, (N, H, W)
比如用全卷积网络做 Semantic Segmentation 时，最后图片的每个点都会预测一个类别标签。

nn.KLDivLoss
KL 散度，又叫做相对熵，算的是两个分布之间的距离，越相似则越接近零。
loss(x,y)=1N∑i=1N[yi∗(logyi−xi)]
loss(x,y)=1N∑i=1N[yi∗(log⁡yi−xi)]
注意这里的 xixi 是 loglog 概率，刚开始还以为 API 弄错了。

nn.MarginRankingLoss
评价相似度的损失

loss(x1,x2,y)=max(0,−y∗(x1−x2)+margin)
loss(x1,x2,y)=max(0,−y∗(x1−x2)+margin)
这里的三个都是标量，y 只能取 1 或者 -1，取 1 时表示 x1 比 x2 要大；反之 x2 要大。参数 margin 表示两个向量至少要相聚 margin 的大小，否则 loss 非负。默认 margin 取零。

nn.MultiMarginLoss
多分类（multi-class）的 Hinge 损失，

loss(x,y)=1N∑i=1,i≠yNmax(0,(margin−xy+xi)p)
loss(x,y)=1N∑i=1,i≠yNmax(0,(margin−xy+xi)p)
其中 1≤y≤N1≤y≤N 表示标签，pp 默认取 1，marginmargin 默认取 1，也可以取别的值。参考 cs231n 作业里对 SVM Loss 的推导。

nn.MultiLabelMarginLoss
多类别（multi-class）多分类（multi-classification）的 Hinge 损失，是上面 MultiMarginLoss 在多类别上的拓展。同时限定 p = 1，margin = 1.

loss(x,y)=1N∑i=1,i≠yjn∑j=1yj≠0[max(0,1−(xyj−xi))]
loss(x,y)=1N∑i=1,i≠yjn∑j=1yj≠0[max(0,1−(xyj−xi))]
这个接口有点坑，是直接从 Torch 那里抄过来的，见 MultiLabelMarginCriterion 的描述。而 Lua 的下标和 Python 不一样，前者的数组下标是从 1 开始的，所以用 0 表示占位符。有几个坑需要注意，

这里的 x,yx,y 都是大小为 NN 的向量，如果 yy 不是向量而是标量，后面的 ∑j∑j 就没有了，因此就退化成上面的 MultiMarginLoss.
限制 yy 的大小为 NN，是为了处理多标签中标签个数不同的情况，用 0 表示占位，该位置和后面的数字都会被认为不是正确的类。如 y=[5,3,0,0,4]y=[5,3,0,0,4] 那么就会被认为是属于类别 5 和 3，而 4 因为在零后面，因此会被忽略。
上面的公式和说明只是为了和文档保持一致，其实在调用接口的时候，用的是 -1 做占位符，而 0 是第一个类别。
举个梨子，

import torch
loss = torch.nn.MultiLabelMarginLoss()
x = torch.autograd.Variable(torch.FloatTensor([[0.1, 0.2, 0.4, 0.8]]))
y = torch.autograd.Variable(torch.LongTensor([[3, 0, -1, 1]]))
print loss(x, y) # will give 0.8500
按照上面的理解，第 3, 0 个是正确的类，1, 2 不是，那么，
loss=14∑i=1,2∑j=3,0[max(0,1−(xj−xi))]=14[(1−(0.8−0.2))+(1−(0.1−0.2))+(1−(0.8−0.4))+(1−(0.1−0.4))]=14[0.4+1.1+0.6+1.3]=0.85
loss=14∑i=1,2∑j=3,0[max(0,1−(xj−xi))]=14[(1−(0.8−0.2))+(1−(0.1−0.2))+(1−(0.8−0.4))+(1−(0.1−0.4))]=14[0.4+1.1+0.6+1.3]=0.85
*注意这里推导的第二行，我为了简短，都省略了 max(0, x) 符号。

nn.SoftMarginLoss
多标签二分类问题，这 NN 项都是二分类问题，其实就是把 NN 个二分类的 loss 加起来，化简一下。其中 yy 只能取 1,−11,−1 两种，代表正类和负类。和下面的其实是等价的，只是 yy 的形式不同。

loss(x,y)=∑i=1Nlog(1+e−yixi)
loss(x,y)=∑i=1Nlog⁡(1+e−yixi)
nn.MultiLabelSoftMarginLoss
上面的多分类版本，根据最大熵的多标签 one-versue-all 损失，其中 yy 只能取 1,01,0 两种，代表正类和负类。
loss(x,y)=−∑i=1N[yilogexi1+exi+(1−yi)log11+exi]
loss(x,y)=−∑i=1N[yilog⁡exi1+exi+(1−yi)log⁡11+exi]
nn.CosineEmbeddingLoss
余弦相似度的损失，目的是让两个向量尽量相近。注意这两个向量都是有梯度的。
loss(x,y)={1−cos(x,y)max(0,cos(x,y)+margin)if if y==1y==−1
loss(x,y)={1−cos⁡(x,y)if y==1max(0,cos⁡(x,y)+margin)if y==−1
margin 可以取 [−1,1][−1,1]，但是比较建议取 0-0.5 较好。

nn.HingeEmbeddingLoss
不知道做啥用的。另外文档里写错了，x,yx,y 的维度应该是一样的。

loss(x,y)=1N{ximax(0,margin−xi)if if yi==1yi==−1
loss(x,y)=1N{xiif yi==1max(0,margin−xi)if yi==−1
nn.TripleMarginLoss
L(a,p,n)=1N(∑i=1Nmax(0, d(ai,pi)−d(ai,ni)+margin))
L(a,p,n)=1N(∑i=1Nmax(0, d(ai,pi)−d(ai,ni)+margin))
其中 d(xi,yi)=∥xi−yi∥22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,029评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,395评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,570评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,535评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,650评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,850评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,006评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,747评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,207评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,536评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,683评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,342评论 4赞 330
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,964评论 3赞 315
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,772评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,004评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,401评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,566评论 2赞 349

2018-11-24 Loss function in pytorch

balabala...

推荐阅读更多精彩内容