损失函数

  • 对数损失函数和指数损失函数是什么样的?合页损失函数?什么是风险函数(期望损失),对比经验风险最小化和结构风险最小化,哪些正则化项

L(Y,P(Y|X))=-logP(Y|X),L(Y,f(x))=exp(-Yf(x))

合页损失函数是线性支持向量机的损失函数,L(y(wx+b))=[1-y(wx+b)]_+

我们希望的是损失函数的期望最小,但是我们不知道联合分布,于是我们转为最小化经验风险。但为了防止过拟合,我们为经验风险加上惩罚项,所以任务就转变为最小化结构风险。

  • 不同损失函数对应的模型

对二分类问题,最自然的损失函数是0-1损失函数,但是该损失函数非凸,非光滑,算法很难直接对该函数进行优化。

0-1损失函数的一个代理损失函数是 Hinge 损失函数L_{hinge}(f,y)=max\{0,1-fy\}hinge 损失函数是0-1损失函数相对紧的凸上界,fy>=1时,该函数不对其做任何惩罚。hinge 损失函数在 fy=1处不可导,因此不能用梯度下降法进行优化,而是用次梯度下降法。

0-1损失函数的另一个代理损失函数是Logistic 损失函数L_{logistic}(f,y)=log_2(1+exp(-fy)) 也是0-1损失函数的凸上界,且该函数处处光滑,因此可以用梯度下降法进行优化。

当预测值属于-1到1时,另一个常用的代理损失函数是交叉熵损失函数L_{crossentropy}(f,y)=-log_2(\frac{1+fy}{2})也是光滑凸上界

对于回归问题,最常用的损失函数是平方损失函数,平方损失函数是光滑函数,能够用梯度下降法进行优化,当预测值距离真实值越远时,平方损失函数的惩罚力度越大,对异常点比较敏感。为解决此问题可以采用绝对损失函数

log 对数损失函数——LR:L(Y, P(Y | X))=-\log P(Y | X)

平方损失函数、MSE——最小二乘法:L(Y, f(X))=\sum_{i=1}^{n}(Y-f(X))^{2}\operatorname{MSE}=\frac{1}{n} \sum_{i=1}^{n}\left(\tilde{Y}_{i}-Y_{i}\right)^{2}

合页损失函数(hinge 损失函数)——SVM:\frac{1}{m} \sum_{i=1}^{m} l\left(w \cdot x_{i}+b, y_{i}\right)

指数损失函数——adaboostL(y, f(x))=\frac{1}{n} \sum_{i=1}^{n} \exp \left[-y_{i} f\left(x_{i}\right)\right]

  • 为什么分类问题用交叉熵作为损失函数

在回归问题中,我们常常使用均方误差作为损失函数,而分类问题,经过一系列激活函数(sigmoid、softmax)来映射到0-1之间。如果将 MSE 用作分类问题,通过推导可以得其梯度和激活函数的梯度成正比,就会导致误差大的时候,学习得并不一定更快。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。