y'/(1-y') = y/(1-y)*m-/m+
基本策略——“再缩放” rescaling
混淆矩阵
正例判为正例: True Positive 反例判为反例: True Negative, 正例判为负例: False Negative, 负例判为正例: False Positive
正确率 = TP/(TP+FP)
召回率 = TP/(TP+FN)
ROC曲线: x轴假阳率,y轴真阳率,好的分类器应尽可能处于左上角
1.欠抽样:删除样例 ,时间开销小,代表性算法EasyEnsemble,利用集成学习,将反例划分为若干个集合供不同学习器使用,对每个学习器都是欠抽样,但全局来看不会造成信息丢失
2.过抽样:复制样例,不是直接简单复制,而是采用插值来产生额外的正例,代表算法SMOTE
3.直接基于原始训练集进行学习,但在预测阶段,进行“阈值移动“
正例少,反例多,如果对正例进行过抽样,容易导致过拟合。