[pytorch] loss function 集合

以下是从PyTorch 的损失函数文档整理出来的损失函数:
值得注意的是,很多的 loss 函数都有 size_averagereduce 两个布尔类型的参数,需要解释一下。因为一般损失函数都是直接计算 batch 的数据,因此返回的 loss 结果都是维度为 (batch_size, ) 的向量。

  • 如果 reduce = False,那么 size_average 参数失效,直接返回向量形式的 loss;
  • 如果 reduce = True,那么 loss 返回的是标量
    • 如果 size_average = True,返回 loss.mean();
    • 如果 size_average = True,返回 loss.sum();

所以下面讲解的时候,一般都把这两个参数设置成 False,这样子比较好理解原始的损失函数定义。

下面是常见的损失函数。

nn.L1Loss

这里表述的还是不太清楚,其实要求 x和 y的维度要一样(可以是向量或者矩阵),得到的 loss 维度也是对应一样的。这里用下标 i表示第 i 个元素。

    loss_fn = torch.nn.L1Loss(reduce=False, size_average=False)
    input = torch.autograd.Variable(torch.randn(3,4))
    target = torch.autograd.Variable(torch.randn(3,4))
    loss = loss_fn(input, target)
    print(input); print(target); print(loss)
    print(input.size(), target.size(), loss.size())

nn.SmoothL1Loss

也叫作 Huber Loss,误差在 (-1,1) 上是平方损失,其他情况是 L1 损失。

这里很上面的 L1Loss 类似,都是 element-wise 的操作,下标 i 是 x的第 iii 个元素。

loss_fn = torch.nn.SmoothL1Loss(reduce=False, size_average=False)
input = torch.autograd.Variable(torch.randn(3,4))
target = torch.autograd.Variable(torch.randn(3,4))
loss = loss_fn(input, target)
print(input); print(target); print(loss)
print(input.size(), target.size(), loss.size())

nn.MSELoss

均方损失函数,用法和上面类似,这里 loss, x, y 的维度是一样的,可以是向量或者矩阵,iii 是下标。

    loss_fn = torch.nn.MSELoss(reduce=False, size_average=False)
    input = torch.autograd.Variable(torch.randn(3,4))
    target = torch.autograd.Variable(torch.randn(3,4))
    loss = loss_fn(input, target)
    print(input); print(target); print(loss)
    print(input.size(), target.size(), loss.size())

nn.BCELoss

二分类用的交叉熵,用的时候需要在该层前面加上 Sigmoid 函数。交叉熵的定义参考 wikipedia 页面: Cross Entropy

因为离散版的交叉熵定义是

,其中 p,q都是向量,且都是概率分布。如果是二分类的话,因为只有正例和反例,且两者的概率和为 1,那么只需要预测一个概率就好了,因此可以简化成

注意这里 x,y可以是向量或者矩阵,i 只是下标;[图片上传失败...(image-47b201-1583132739602)]

表示第 i 个样本预测为 正例 的概率,[图片上传失败...(image-8a7132-1583132739602)]

表示第 i 个样本的标签,[图片上传失败...(image-7b4e9-1583132739602)]

表示该项的权重大小。可以看出,loss, x, y, w 的维度都是一样的。

    import torch.nn.functional as F
    loss_fn = torch.nn.BCELoss(reduce=False, size_average=False)
    input = Variable(torch.randn(3, 4))
    target = Variable(torch.FloatTensor(3, 4).random_(2))
    loss = loss_fn(F.sigmoid(input), target)
    print(input); print(target); print(loss)

这里比较奇怪的是,权重的维度不是 2,而是和 x, y 一样,有时候遇到正负例样本不均衡的时候,可能要多写一句话

    class_weight = Variable(torch.FloatTensor([1, 10])) # 这里正例比较少,因此权重要大一些
    target = Variable(torch.FloatTensor(3, 4).random_(2))
    weight = class_weight[target.long()] # (3, 4)
    loss_fn = torch.nn.BCELoss(weight=weight, reduce=False, size_average=False)
    # balabala...

其实这样子做的话,如果每次 batch_size 长度不一样,只能每次都定义 loss_fn 了,不知道有没有更好的解决方案。

nn.BCEWithLogitsLoss

上面的 nn.BCELoss 需要手动加上一个 Sigmoid 层,这里是结合了两者,这样做能够利用 log_sum_exp trick,使得数值结果更加稳定(numerical stability)。建议使用这个损失函数。

值得注意的是,文档里的参数只有 weight, size_average 两个,但是实际测试 reduce 参数也是可以用的。此外两个损失函数的 target 要求是 FloatTensor,而且不一样是只能取 0, 1 两种值,任意值应该都是可以的。

nn.CrossEntropyLoss

多分类用的交叉熵损失函数,用这个 loss 前面不需要加 Softmax 层。

这里损害函数的计算,按理说应该也是原始交叉熵公式的形式,但是这里限制了 target 类型为 torch.LongTensr,而且不是多标签意味着标签是 one-hot 编码的形式,即只有一个位置是 1,其他位置都是 0,那么带入交叉熵公式中化简后就成了下面的简化形式。参考 cs231n 作业里对 Softmax Loss 的推导。

这里的 [图片上传失败...(image-c9717c-1583132739602)]

,是没有经过 Softmax 的激活值,N是 x的维度大小(或者叫特征维度); [图片上传失败...(image-20abbe-1583132739601)]

是标量,是对应的标签,可以看到两者维度是不一样的。C 是要分类的个数。[图片上传失败...(image-d6e3cb-1583132739601)]

是维度为 C 的向量,表示标签的权重,样本少的类别,可以考虑把权重设置大一点。

    weight = torch.Tensor([1,2,1,1,10])
    loss_fn = torch.nn.CrossEntropyLoss(reduce=False, size_average=False, weight=weight)
    input = Variable(torch.randn(3, 5)) # (batch_size, C)
    target = Variable(torch.FloatTensor(3).random_(5))
    loss = loss_fn(input, target)
    print(input); print(target); print(loss)

nn.NLLLoss

用于多分类的负对数似然损失函数(Negative Log Likelihood)

在前面接上一个 nn.LogSoftMax 层就等价于交叉熵损失了。事实上,nn.CrossEntropyLoss 也是调用这个函数。注意这里的[图片上传失败...(image-f810cf-1583132739601)]

和上个交叉熵损失里的不一样(虽然符号我给写一样了),这里是经过 logSoftMax运算后的数值,

nn.NLLLoss2d

和上面类似,但是多了几个维度,一般用在图片上。现在的 pytorch 版本已经和上面的函数合并了。

  • input, (N, C, H, W)
  • target, (N, H, W)

比如用全卷积网络做 Semantic Segmentation 时,最后图片的每个点都会预测一个类别标签。

nn.KLDivLoss

KL 散度,又叫做相对熵,算的是两个分布之间的距离,越相似则越接近零。

注意这里的 [图片上传失败...(image-b7ec0b-1583132739601)]

是 log概率,刚开始还以为 API 弄错了。

nn.MarginRankingLoss

评价相似度的损失

这里的三个都是标量,y 只能取 1 或者 -1,取 1 时表示 x1 比 x2 要大;反之 x2 要大。参数 margin 表示两个向量至少要相聚 margin 的大小,否则 loss 非负。默认 margin 取零。

nn.MultiMarginLoss

多分类(multi-class)的 Hinge 损失,

其中 1≤y≤N 表示标签,p 默认取 1,margin默认取 1,也可以取别的值。参考 cs231n 作业里对 SVM Loss 的推导。

nn.MultiLabelMarginLoss

多类别(multi-class)多分类(multi-classification)的 Hinge 损失,是上面 MultiMarginLoss 在多类别上的拓展。同时限定 p = 1,margin = 1.

这个接口有点坑,是直接从 Torch 那里抄过来的,见 MultiLabelMarginCriterion 的描述。而 Lua 的下标和 Python 不一样,前者的数组下标是从 1 开始的,所以用 0 表示占位符。有几个坑需要注意,

  1. 这里的 x,y都是大小为 N 的向量,如果 y不是向量而是标量,后面的 [图片上传失败...(image-fb5e69-1583132739601)]

    就没有了,因此就退化成上面的 MultiMarginLoss.

  2. 限制 y的大小为 N,是为了处理多标签中标签个数不同的情况,用 0 表示占位,该位置和后面的数字都会被认为不是正确的类。如 y=[5,3,0,0,4]那么就会被认为是属于类别 5 和 3,而 4 因为在零后面,因此会被忽略。

  3. 上面的公式和说明只是为了和文档保持一致,其实在调用接口的时候,用的是 -1 做占位符,而 0 是第一个类别。

举个梨子,

import torch
loss = torch.nn.MultiLabelMarginLoss()
x = torch.autograd.Variable(torch.FloatTensor([[0.1, 0.2, 0.4, 0.8]]))
y = torch.autograd.Variable(torch.LongTensor([[3, 0, -1, 1]]))
print loss(x, y) # will give 0.8500

按照上面的理解,第 3, 0 个是正确的类,1, 2 不是,那么,

*注意这里推导的第二行,我为了简短,都省略了 max(0, x) 符号。

nn.SoftMarginLoss

多标签二分类问题,这 NNN 项都是二分类问题,其实就是把 NNN 个二分类的 loss 加起来,化简一下。其中 yy\mathbf{y} 只能取 1,−11,−11, -1 两种,代表正类和负类。和下面的其实是等价的,只是 yy\mathbf{y} 的形式不同。

nn.MultiLabelSoftMarginLoss

上面的多分类版本,根据最大熵的多标签 one-versue-all 损失,其中 y只能取 1,01,01, 0 两种,代表正类和负类。

nn.CosineEmbeddingLoss

余弦相似度的损失,目的是让两个向量尽量相近。注意这两个向量都是有梯度的。

margin 可以取 [−1,1][−1,1][-1, 1],但是比较建议取 0-0.5 较好。

nn.HingeEmbeddingLoss

不知道做啥用的。另外文档里写错了,x,y的维度应该是一样的。

nn.TripleMarginLoss

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容