2020-08-24

不平衡数据的技巧总结

1、重采样

比如,label 1有1000条,label 0 有200条,那么对label 1 采用放回抽样的方法,每次从里面取200条 与label 0的200条组成一个400条正负样本各半的训练集,重复多次这样的实验

2、算法层面,比如某些平衡随机森林的方法,对正类和反类分别进行重采样

3、代价敏感方法,假设label 0是稀有类,具有更高的错分代价,则在分类器训练时,会对错分label 0类样本给出更大的惩罚,迫使最终分类器对负类样本有更高的识别率,如Metacost和Adacost等算法,但很多分类器都不能直接使用代价敏感学习

4、特征选择方法

特征选择方法对于不平衡分类问题同样具有重要意义,这个尤其体现在文本分类问题中,在大类中经常出现的特征,也许在稀有类中根本不出现,因此,根据不平衡分类问题的特点,选取最具有区分能力的特征,有利于提高稀有类的识别率。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。