损失函数、代价函数、目标函数

Q：机器学习中的损失函数、代价函数、目标函数有什么联系和区别？

A：在监督学习中，损失函数用来评估模型的预测值和真实值不一致的程度。简单理解损失函数、代价函数、目标函数有这样的区别：

损失函数 $|y_i-f(x_i)|$ ，一般是针对单个样本，算的是一个样本的误差
代价函数 $\frac{1}{N}\sum_{i=1}^{N}|y_i-f(x_i)|$ ，一般是针对整个训练集上，是所有样本误差的平均，也就是损失函数的平均，也被称作经验风险最小化函数
目标函数 $\frac{1}{N} \sum_{i=1}^{N}|y_i-f(x_i)| + 正则项$ ，也被称作结构风险最小化函数

0-1损失函数

$L(Y,f(x))=\left\{\begin{matrix} 1, & Y\neq f(x) & 不等则loss为1 \\ 0, & Y=f(x) & 相等则loss为0 \end{matrix}\right.$

一般在实际使用过程中，相等的条件过于严格，可适当放宽条件

$L(Y,f(x))=\left\{\begin{matrix} 1, & |Y - f(x)| \geqslant T & \\ 0, & |Y - f(x)| < T & \end{matrix}\right.$
绝对值损失函数

$L(Y,f(x))=|Y-f(x)|$
平方损失函数

$L(Y,f(x))=\sum_N(Y-f(x))^2$

可以从最小二乘法和欧氏距离理解。最小二乘法的原理是，最优拟合曲线应该使所有点到回归直线的距离和最小。
对数损失函数

$L(Y,P(Y|X))=-logP(Y|X)=-\frac{1}{N}\sum_{i=1}^N\sum_{j=1}^{M}y_{i,j}log(p_{ij})$

$p_{ij}$ 表示模型或分类器预测输入实例 $x_i$ 属于 $j$ 的概率。常见的逻辑回归使用的就是对数损失函数。逻辑回归假设样本服从伯努利分布（0-1分布），求得满足该分布的似然函数，接着取对数求极值。逻辑回归推导出的经验风险最小化负的似然函数，从损失函数的角度看，就是对数损失函数，形式上等价于二分类的交叉熵损失函数。
Hinge损失函数

$L(y)=max(0, 1-ty)$

统一的形式：

$L(Y,f(x))=max(0,Yf(x))$

在支撑向量机中的损失函数就是Hinge损失函数
指数损失函数

$L(Y,f(x))=exp(-Yf(x))$

AdaBoost就是以指数损失函数为损失函数