损失函数 - 简书

对数损失函数和指数损失函数是什么样的？合页损失函数？什么是风险函数（期望损失），对比经验风险最小化和结构风险最小化，哪些正则化项

$L(Y,P(Y|X))=-logP(Y|X)，L(Y,f(x))=exp(-Yf(x))$

合页损失函数是线性支持向量机的损失函数， $L(y(wx+b))=[1-y(wx+b)]_+$

我们希望的是损失函数的期望最小，但是我们不知道联合分布，于是我们转为最小化经验风险。但为了防止过拟合，我们为经验风险加上惩罚项，所以任务就转变为最小化结构风险。

不同损失函数对应的模型

对二分类问题，最自然的损失函数是0-1损失函数，但是该损失函数非凸，非光滑，算法很难直接对该函数进行优化。

0-1损失函数的一个代理损失函数是 Hinge 损失函数： $L_{hinge}(f,y)=max\{0,1-fy\}$ hinge 损失函数是0-1损失函数相对紧的凸上界，fy>=1时，该函数不对其做任何惩罚。hinge 损失函数在 fy=1处不可导，因此不能用梯度下降法进行优化，而是用次梯度下降法。

0-1损失函数的另一个代理损失函数是Logistic 损失函数： $L_{logistic}(f,y)=log_2(1+exp(-fy))$ 也是0-1损失函数的凸上界，且该函数处处光滑，因此可以用梯度下降法进行优化。

当预测值属于-1到1时，另一个常用的代理损失函数是交叉熵损失函数： $L_{crossentropy}(f,y)=-log_2(\frac{1+fy}{2})$ 也是光滑凸上界

对于回归问题，最常用的损失函数是平方损失函数，平方损失函数是光滑函数，能够用梯度下降法进行优化，当预测值距离真实值越远时，平方损失函数的惩罚力度越大，对异常点比较敏感。为解决此问题可以采用绝对损失函数

log 对数损失函数——LR： $L(Y, P(Y | X))=-\log P(Y | X)$

平方损失函数、MSE——最小二乘法： $L(Y, f(X))=\sum_{i=1}^{n}(Y-f(X))^{2}$ 、 $\operatorname{MSE}=\frac{1}{n} \sum_{i=1}^{n}\left(\tilde{Y}_{i}-Y_{i}\right)^{2}$

合页损失函数（hinge 损失函数）——SVM： $\frac{1}{m} \sum_{i=1}^{m} l\left(w \cdot x_{i}+b, y_{i}\right)$

指数损失函数——adaboost： $L(y, f(x))=\frac{1}{n} \sum_{i=1}^{n} \exp \left[-y_{i} f\left(x_{i}\right)\right]$

为什么分类问题用交叉熵作为损失函数

在回归问题中，我们常常使用均方误差作为损失函数，而分类问题，经过一系列激活函数（sigmoid、softmax）来映射到0-1之间。如果将 MSE 用作分类问题，通过推导可以得其梯度和激活函数的梯度成正比，就会导致误差大的时候，学习得并不一定更快。