[TOC]
最小二乘分类
本质, 分类问题用近似函数描述, 再用最小二乘法.
二分类问题: , 可近似定义为取值为+1, -1的二值函数问题:
image.png
预测输出:
image.png
其中, 是小概率事件.
image.png
预测值由预测结果的符号决定:
image.png
0/1损失
分类问题预测值不重要, 用符号进行模式判断, 故用0/1损失比l2损失更合适.
0/损失定义:
image.png
等价于:
image.png
下图展示函数的例子:
image.png
注意阶梯状的粗黑折线.
-
, 对应正样本分类
-
, 对应负样本分类
- 0/1损失使用复杂模型
学习:
- m尽可能大,
表示第i个样本的间隔
模型评估:
- 回归问题, 用L2损失评估
- 分类问题, 用代理损失计算, L2损失是相对于0/1损失的一种代理损失
因为, 故L2损失可用间隔函数表示:
,其中间隔函数
代理损失图示:
image.png
多分类
代理损失分类:
image.png
其中,
- Hinge损失对应支持向量机分类器
- Ramp损失是鲁棒学习的扩展
- 指数损失对应Boosting分类器
- Logistic损失对应逻辑回归
利用2类别模式识别算法识别多分类:
-
一对多法
image.png
image.png
-
一对一法
image.png
image.png