本文主要翻译自 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset.
当某一类别的数据量远大于另一类别的样本数量时,我们就称其样本不均衡。数据类别样本本不均衡是机器学习中非常常见的一个问题,最常见的例子可能莫过于异常检测了。在异常检测中绝大部分样本都是正常类型的,只有极少部分属于异常。
此外,当我们数据中某一类别(这里及后面都以二分类为例)的数据量比例大于90%时,我们模型的准确率可能很简单的达到较好的准确率(90%以上),但是此时并不能说明我们的模型好,因为此时模型的预测结果可能只输出一个类别,而即便如此,其准确率依然能达到90%以上。很明显,这显然不是我们想要的。
下面我们将讨论8个用来解决数据不均衡的方法。
1、收集更多的数据
咋一听可能会觉得这可能是废话,但是事实上收集更多的数据这一方法常常被忽略。收集更多的数据不仅能有效解决过拟合问题,收集更多的少类别样本更能够解决数据不均衡的问题。所以,遇到样本不均衡问题时,我们应该首先思考能否收集更多的数据。
2、改变模型评估方法
如上面说到的,当类别样本不均衡的时候,使用准确率作为评估标准往往很容易产生误导。此时我们可以采用别的评估方法,如kappa系数,ROC曲线,混淆矩阵,Recall,Precision,F1 Score等,更多可参见 Classification Accuracy is Not Enough: More Performance Measures You Can Use.
3、数据集重采样
通过重采样,我们可以得到更多的数据样本已得到一个平衡的数据集。常用的采样方法有两种:
- (1)复制样本数较少的类别的样本,这种方法称为over-sampling;
- (2)删除样本数量较多的类别的样本,这种方法称为under-sampling.
这些方法都很简单而且易于实现。通常可以将这两种方法都进行尝试,看哪种方法得到的结果更好来做决定采用哪种方法。更多的可以参考 Oversampling and undersampling in data analysis.
一些经验:
- 当数据量较多的时候优先尝试under-sampling方法;
- 当数据量较少的时候优先尝试over-sampling方法;
- 使用随机或非随机(stratified,分层)采样策略;
- 尝试不同的采样比例而非固定的1:1.
4、合成样本
一个简单的合成样本的方法是随机的从数据量少的类别实例中随机挑选属性来生成样本。
你可以在数据集中凭经验对它们进行采样,或者也可以使用像Naive Bayes这样的方法,它可以在反向运行时独立地对每个属性进行采样。你将拥有更多不同的数据,但可能无法保留属性之间的非线性关系。
当然也可以使用系统算法生成合成样本。最流行的此类算法称为SMOTE (Synthetic Minority Over-sampling Technique). 正如它的名字一样,SMOTE是一个over-sampling方法,他通过样本数据较少类别的数据来合成新的数据而非简单的复制数据。该算法选择两个或更多个类似的实例(使用距离测量),并且对于差异内的相邻实例一次随机扰动实例一个属性。更多的关于SMOTE算法的内容,可以参考论文 SMOTE: Synthetic Minority Over-sampling Technique.
在Python中,在 UnbalancedDataset包中实现了SMOTE算法。
5、尝试不同的算法
不同算法可能适用于不同的问题,因此对于同一个问题可以尝试使用不同的算法试试。话虽如此,决策树通常在不平衡的数据集上表现良好,用于创建树的类变量的拆分规则可有效解决这个问题。
6、使用罚分模型
附加罚分模型使用相同的算法但是提供了不同的视角。对于样本数较少的类别,罚分模型添加额外的损失(加大损失),这使得模型更加重视少样本类别的分类。
通常,类惩罚或权重的处理专用于学习算法。存在惩罚版本的算法,例如惩罚的SVM和惩罚的LDA。
当你的算法无法使用重采样来解决数据不平衡问题或结果很差时,使用罚分模型是非常有必要的。他提供了另一种处理数据不均衡的方法。然而,设置罚分矩阵很复杂,常常需要尝试很多次才能找到最佳策略。
7、尝试以更多不同的视角来看待样本不均衡问题
现在有很多关于样本不均衡问题的研究,他们都有自己的算法、评估方法、或者技术等。从不同的角度来思考数据不均衡问题可能带给我们不一样的结果。
两个可能需要考虑的是异常检测和变化检测。
异常检测是罕见事件的检测,这可能是由于偶然事件或由系统调用序列指示的程序的恶意活动而指示的机器故障。与正常操作相比,这些事件很少见。这种思维转变将次要类别视为异常类,这可能有助于考虑分离和分类样本的新方法。
变化检测类似于异常检测,除了寻找异常之外,它正在寻找变化或差异。这可能是使用模式或银行交易所观察到的用户行为的变化。
这两种转变都对分类问题采取了更为实际的立场,可能会为我们提供一些思考问题的新方法,也许还有一些尝试的技巧。
8、更具创造力
更加深入的思考所遇到的问题然后将问题分成一个个更容易解决的小问题。可以参考“In classification, how do you handle an unbalanced training set?”和 “Classification when 80% of my training set is of one class“.
小结
其实,样本不均衡就是不同类别的数据不同使得模型学习时候偏向各个类别的权重不同,而我们要做的,其实就是如何均衡各个类别的权重,无论是上采样,下采样,抑或是更改loss,给数据量少的类别的loss给多权重,更直接的,在某些库的分类器中我们可以看到给某些样本直接赋予权重,这些虽然看起来不同,但是其实都是为了均衡权重这一目的而来的。
这些方法都不需要太多的数学理论知识,你所需要做的仅仅只是挑出一种方法,然后开始尝试,直到找到最好的方法。
新增(2020.1.31)
在看宗成庆老师的《统计自然语言处理》时,书中讲到文本情感分类数据不平衡时谈到了几个已有的方法,感觉还不错,因此摘过来。
基于中心向量的不平衡数据分类方法
该方法包括以下几个步骤对不平衡数据的标注样本进行训练:
- (1)将‘多类’(即数据量较多的类别)里面的所有训练样本进行聚类;
- (2)在各个聚类里面进行内部层次采样,获得同“少类”相同规模的样本;
- (3)使用这些采样样本并结合整个类(个人理解应该是聚类后的各个类)的中心向量构建的新向量进行训练学习。
该方法借鉴中心向量充分利用‘多类’里面所有样本的分类信息,可获得比传统采样方法更好的结果。
基于协同学习的半监督学习方法
该方法有如下两个特点:
- (1)使用欠采样技术对训练样本进行平衡采样,用于构建多个欠采样分类器,利用多个分类器对非标注样本进行标注;
- (2)采用动态特征子空间的方式,即每次迭代重新生成特征子空间,增加分类器的之间的差异性,进一步提升学习器的性能。
去掉其非监督标注部分,其实此方法就是在数据较多的类别中多次取样然后与少数据的类别一起训练多个分类器(每个分类器有一个类别的样本不同,然后分类时各个分类器又使用不同的特征),其思想与随机森林较为相像。