登录注册写文章

吃瓜 3.5, 3.6 多分类&类别不平衡 2023-12-18

吃瓜 3.5, 3.6 多分类&类别不平衡 2023-12-18

3.5 多分类问题

三种拆分策略

一对一 OvO
一对其余 OvR
多对多 MvM

OvO与OvR

OvO:
把共N个类别两两配对，产生N(N - 1) / 2个二分类器。在测试时，把新样本提交给所有分类器，结果进行投票，被预测的最多的类别算作最终结果。
OvR：
每次选一个类为正例，其他所有为反例。训练N个分类器。在测试时，选唯一预测为正例的，或正例置信度最高的类别。
OvO与OvR对比：
OvO存储开销和测试开销更大
类别很多时，OvO训练开销少，因为每次只用两个类的样例。

3.6 类别不平衡问题

一个基本策略——再缩放。
令 $\frac{y'}{1-y'} = \frac{y}{1-y} × \frac{m^-}{m^+}$
$m^-, m^+$ 表示反例和正例的数目。
三类做法：

欠采样undersampling：去除过多的样例，使得正反例数量接近。但是如果随机丢弃，容易丢失一些重要信息。
过采样oversampling: 增加较少的样例，使得正反例数量接近。但不能简单地重复采样，否则会严重过拟合。
阈值移动threshold-moving：基于原始训练集学习，用再缩放的算法决策。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

(五)分类算法之多分类问题
一. 基本思想在之前的博客中，我们讨论了逻辑回归模型(Logistic Regression)解决分类问题。但是...
躺在稻田里的小白菜阅读 21,521评论 0赞 5
机器学习（周志华）_读书笔记
机器学习经验数据数据中产生模型model 的算法学习算法 learning algorithm 数据集 d...
时待吾阅读 9,515评论 0赞 3

多分类学习
· 现实中常常遇到多分类问题，有些二分类问题可以直接推广到多分类。不失一般性地，考虑N个类别C1,C2,...Cn...
crishawy阅读 5,646评论 0赞 0
机器学习（3）
本章节是对我学习完机器学习（周志华）第三章所做出来的总结第三章线性模型 3.1 基本形式线性模型形式简单、...
LY豪阅读 3,984评论 0赞 0
【机器学习】（三）线性模型
基本形式给定由d个属性描述的示例x=(x1; x2; …; xd)，其中xi是x在第i个属性上的取值，线性模型（...
超级超级小天才阅读 4,028评论 0赞 1

友情链接更多精彩内容

赞1赞

赞赏

手机看全文