3.5 多分类问题
三种拆分策略
- 一对一 OvO
- 一对其余 OvR
- 多对多 MvM
OvO与OvR
OvO:
把共N个类别两两配对,产生N(N - 1) / 2个二分类器。在测试时,把新样本提交给所有分类器,结果进行投票,被预测的最多的类别算作最终结果。
OvR:
每次选一个类为正例,其他所有为反例。训练N个分类器。在测试时,选唯一预测为正例的,或正例置信度最高的类别。
OvO与OvR对比: - OvO存储开销和测试开销更大
- 类别很多时,OvO训练开销少,因为每次只用两个类的样例。
3.6 类别不平衡问题
一个基本策略——再缩放。
令
表示反例和正例的数目。
三类做法:
- 欠采样undersampling:去除过多的样例,使得正反例数量接近。但是如果随机丢弃,容易丢失一些重要信息。
- 过采样oversampling: 增加较少的样例,使得正反例数量接近。但不能简单地重复采样,否则会严重过拟合。
- 阈值移动threshold-moving:基于原始训练集学习,用再缩放的算法决策。
