深度学习 (DeepLearning) 基础 [2]---神经网络常用的损失函数
Introduce
在上一篇“深度学习 (DeepLearning) 基础 [1]---监督学习和无监督学习”中我们介绍了监督学习和无监督学习相关概念。本文主要介绍神经网络常用的损失函数。
以下均为个人学习笔记,若有错误望指出。
神经网络常用的损失函数
pytorch损失函数封装在torch.nn中。
损失函数反映了模型预测输出与真实值的区别,模型训练的过程即让损失函数不断减小,最终得到可以拟合预测训练样本的模型。
note:由于PyTorch神经网络模型训练过程中每次传入一个mini-batch的数据,因此pytorch内置损失函数的计算出来的结果如果没有指定reduction参数,则默认对mini-batch取平均。
以下对几个常用的损失函数以及其应用场景做一个简单总结。(以下损失函数的公式均代表单个min-batch的损失,且假设x为神经网络的预测输出,y为样本的真实值,xi为一个mini-batch中第i个样本的预测输出,yi同理,n为一个批量mini-batch的大小)
- nn.L1Loss(L1损失,也称平均绝对误差MAE):计算模型输出x与目标y之间差的绝对值。常用于回归任务。
'''代码示例'''
loss_func = torch.nn.L1Loss(reduction='mean')
'''note:
reduction=None 啥也不干
reduction='mean' 返回loss和的平均值
reduction='mean' 返回loss的和。
不指定即默认mean。
'''
- nn.MSELoss(L2损失,也称均方误差MSE):计算模型输出x与目标y之间差的平方的均值,均方差。常用于回归任务。
'''代码示例'''
loss_func = torch.nn.MSELoss(reduction='mean')
# note: reduction同上。
- nn.BCELoss(二进制交叉熵损失):计算模型输出x与目标y之间的交叉熵。(我对于交叉熵的理解,交叉熵为相对熵(即KL散度,用来衡量两个分布的差异程度)中的一项,最小化两个分布的差异,即最小化相对熵,由相对熵公式,由于真实分布是确定的,那么最小化相对熵就是最小化交叉熵,而最小化交叉熵的目标就是寻找一个预测分布尽可能逼近真实分布,这和我们模型的训练目标是一致的,即让模型预测逼近样本真实值,参考链接)常用于二分类任务。
'''代码示例'''
loss_func = torch.nn.BCELoss(weight=None, reduction='mean')
# note:
# weight为长度为n的tensor,用来指定一个batch中各样本占有的权重,如公式中的wi,不指定默认为各样本权重均为1。
# reduction同上。
# 用的时候需要在该层前面加上 Sigmoid 函数。
- nn.NLLLoss(负对数似然损失):将神经网络输出的隶属各个类的概率向量x与对应真实标签向量(个人理解应该是one-hot向量吧)相差再相加,最后再取负。如果不取负的话,应该是loss值越大预测标签越接近真实标签,取负的话反过来,越小则越接近真实标签,符合loss函数的定义。==常用于多分类任务。== 以下公式假设节点xi属于第j类,x[j]为预测的x属于第j类的概率,且w[j]为第j类的权重。
'''代码示例'''
loss_func = torch.nn.NLLLoss(weight=None, reduction='mean')
# note:
# weight同上,如公式中的w代表各个类在损失中占有的权重,即类的重要程度,若不赋予权重w,则各类同等重要,上述公式中的w[class]去掉。
# reduction同上。
- nn.CrossEntropyLoss (交叉熵损失):如上述二进制交叉熵所示,随着预测的概率分布越来越接近实际标签,交叉熵会逐渐减小。pytorch将nn.LogSoftmax()和nn.NLLLoss()组合到nn.CrossEntropyLoss(),即调用nn.CrossEntropyLoss() 底层会调用上述两个函数,可以理解为 CrossEntropyLoss = LogSoftmax + NLLLoss。因此一般多分类任务都常用交叉熵损失。 以下label_i代表节点xi的真实标签,c为总的标签数。
'''代码示例'''
loss_func = torch.nn.CrossEntropyLoss(weight=None,reduction='mean')
# note:
# weight同nn.NLLLoss。
# reduction同上。