吃瓜 3.5, 3.6 多分类&类别不平衡 2023-12-18

3.5 多分类问题

三种拆分策略

  • 一对一 OvO
  • 一对其余 OvR
  • 多对多 MvM
    OvO与OvR

    OvO:
    把共N个类别两两配对,产生N(N - 1) / 2个二分类器。在测试时,把新样本提交给所有分类器,结果进行投票,被预测的最多的类别算作最终结果。
    OvR
    每次选一个类为正例,其他所有为反例。训练N个分类器。在测试时,选唯一预测为正例的,或正例置信度最高的类别。
    OvO与OvR对比
  • OvO存储开销和测试开销更大
  • 类别很多时,OvO训练开销少,因为每次只用两个类的样例。

3.6 类别不平衡问题

一个基本策略——再缩放。
\frac{y'}{1-y'} = \frac{y}{1-y} × \frac{m^-}{m^+}
m^-, m^+表示反例和正例的数目。
三类做法:

  • 欠采样undersampling:去除过多的样例,使得正反例数量接近。但是如果随机丢弃,容易丢失一些重要信息。
  • 过采样oversampling: 增加较少的样例,使得正反例数量接近。但不能简单地重复采样,否则会严重过拟合。
  • 阈值移动threshold-moving:基于原始训练集学习,用再缩放的算法决策。
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容