样本不均衡的解决办法
- 上采样:将小样本集复制多份,复制样本的时候可以加入轻微扰动
- 下采样:将大样本集剃除多份,为了避免信息损失,可以用Ensemble:
2.1 easyEnsemble:有放回的采样,从而训练多个不同的分类器,通过组合得到最终的结果
2.2 BalanceCascade:增量学习,还没看过
2.3 利用KNN挑选大众样本:Learning from Imbalanced Data - 随机采样:很简单,但是大样本集中的样本会重复多次,小样本集中可能出现数据缺失
- 利用SMOTE进行数据合成Borderline-SMOTE,ADASYN
- 加权:focal loss
- 一分类:如果样本极度不平衡可以把他当成一分类问题One-Class SVM