不平衡数据的技巧总结
1、重采样
比如,label 1有1000条,label 0 有200条,那么对label 1 采用放回抽样的方法,每次从里面取200条 与label 0的200条组成一个400条正负样本各半的训练集,重复多次这样的实验
2、算法层面,比如某些平衡随机森林的方法,对正类和反类分别进行重采样
3、代价敏感方法,假设label 0是稀有类,具有更高的错分代价,则在分类器训练时,会对错分label 0类样本给出更大的惩罚,迫使最终分类器对负类样本有更高的识别率,如Metacost和Adacost等算法,但很多分类器都不能直接使用代价敏感学习
4、特征选择方法
特征选择方法对于不平衡分类问题同样具有重要意义,这个尤其体现在文本分类问题中,在大类中经常出现的特征,也许在稀有类中根本不出现,因此,根据不平衡分类问题的特点,选取最具有区分能力的特征,有利于提高稀有类的识别率。