[翻译]处理样本不均衡的8个方法

本文主要翻译自 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset.
当某一类别的数据量远大于另一类别的样本数量时,我们就称其样本不均衡。数据类别样本本不均衡是机器学习中非常常见的一个问题,最常见的例子可能莫过于异常检测了。在异常检测中绝大部分样本都是正常类型的,只有极少部分属于异常。

此外,当我们数据中某一类别(这里及后面都以二分类为例)的数据量比例大于90%时,我们模型的准确率可能很简单的达到较好的准确率(90%以上),但是此时并不能说明我们的模型好,因为此时模型的预测结果可能只输出一个类别,而即便如此,其准确率依然能达到90%以上。很明显,这显然不是我们想要的。

下面我们将讨论8个用来解决数据不均衡的方法。

1、收集更多的数据

咋一听可能会觉得这可能是废话,但是事实上收集更多的数据这一方法常常被忽略。收集更多的数据不仅能有效解决过拟合问题,收集更多的少类别样本更能够解决数据不均衡的问题。所以,遇到样本不均衡问题时,我们应该首先思考能否收集更多的数据。

2、改变模型评估方法

如上面说到的,当类别样本不均衡的时候,使用准确率作为评估标准往往很容易产生误导。此时我们可以采用别的评估方法,如kappa系数,ROC曲线,混淆矩阵,Recall,Precision,F1 Score等,更多可参见 Classification Accuracy is Not Enough: More Performance Measures You Can Use.

3、数据集重采样

通过重采样,我们可以得到更多的数据样本已得到一个平衡的数据集。常用的采样方法有两种:

  • (1)复制样本数较少的类别的样本,这种方法称为over-sampling;
  • (2)删除样本数量较多的类别的样本,这种方法称为under-sampling.

这些方法都很简单而且易于实现。通常可以将这两种方法都进行尝试,看哪种方法得到的结果更好来做决定采用哪种方法。更多的可以参考 Oversampling and undersampling in data analysis.

一些经验:

  • 当数据量较多的时候优先尝试under-sampling方法;
  • 当数据量较少的时候优先尝试over-sampling方法;
  • 使用随机或非随机(stratified,分层)采样策略;
  • 尝试不同的采样比例而非固定的1:1.

4、合成样本

一个简单的合成样本的方法是随机的从数据量少的类别实例中随机挑选属性来生成样本。

你可以在数据集中凭经验对它们进行采样,或者也可以使用像Naive Bayes这样的方法,它可以在反向运行时独立地对每个属性进行采样。你将拥有更多不同的数据,但可能无法保留属性之间的非线性关系。

当然也可以使用系统算法生成合成样本。最流行的此类算法称为SMOTE (Synthetic Minority Over-sampling Technique). 正如它的名字一样,SMOTE是一个over-sampling方法,他通过样本数据较少类别的数据来合成新的数据而非简单的复制数据。该算法选择两个或更多个类似的实例(使用距离测量),并且对于差异内的相邻实例一次随机扰动实例一个属性。更多的关于SMOTE算法的内容,可以参考论文 SMOTE: Synthetic Minority Over-sampling Technique.

在Python中,在 UnbalancedDataset包中实现了SMOTE算法。

5、尝试不同的算法

不同算法可能适用于不同的问题,因此对于同一个问题可以尝试使用不同的算法试试。话虽如此,决策树通常在不平衡的数据集上表现良好,用于创建树的类变量的拆分规则可有效解决这个问题。

6、使用罚分模型

附加罚分模型使用相同的算法但是提供了不同的视角。对于样本数较少的类别,罚分模型添加额外的损失(加大损失),这使得模型更加重视少样本类别的分类。

通常,类惩罚或权重的处理专用于学习算法。存在惩罚版本的算法,例如惩罚的SVM和惩罚的LDA。

当你的算法无法使用重采样来解决数据不平衡问题或结果很差时,使用罚分模型是非常有必要的。他提供了另一种处理数据不均衡的方法。然而,设置罚分矩阵很复杂,常常需要尝试很多次才能找到最佳策略。

7、尝试以更多不同的视角来看待样本不均衡问题

现在有很多关于样本不均衡问题的研究,他们都有自己的算法、评估方法、或者技术等。从不同的角度来思考数据不均衡问题可能带给我们不一样的结果。

两个可能需要考虑的是异常检测和变化检测。

异常检测是罕见事件的检测,这可能是由于偶然事件或由系统调用序列指示的程序的恶意活动而指示的机器故障。与正常操作相比,这些事件很少见。这种思维转变将次要类别视为异常类,这可能有助于考虑分离和分类样本的新方法。

变化检测类似于异常检测,除了寻找异常之外,它正在寻找变化或差异。这可能是使用模式或银行交易所观察到的用户行为的变化。

这两种转变都对分类问题采取了更为实际的立场,可能会为我们提供一些思考问题的新方法,也许还有一些尝试的技巧。

8、更具创造力

更加深入的思考所遇到的问题然后将问题分成一个个更容易解决的小问题。可以参考“In classification, how do you handle an unbalanced training set?”和 “Classification when 80% of my training set is of one class“.

小结

其实,样本不均衡就是不同类别的数据不同使得模型学习时候偏向各个类别的权重不同,而我们要做的,其实就是如何均衡各个类别的权重,无论是上采样,下采样,抑或是更改loss,给数据量少的类别的loss给多权重,更直接的,在某些库的分类器中我们可以看到给某些样本直接赋予权重,这些虽然看起来不同,但是其实都是为了均衡权重这一目的而来的。

这些方法都不需要太多的数学理论知识,你所需要做的仅仅只是挑出一种方法,然后开始尝试,直到找到最好的方法。

新增(2020.1.31)

在看宗成庆老师的《统计自然语言处理》时,书中讲到文本情感分类数据不平衡时谈到了几个已有的方法,感觉还不错,因此摘过来。

基于中心向量的不平衡数据分类方法

该方法包括以下几个步骤对不平衡数据的标注样本进行训练:

  • (1)将‘多类’(即数据量较多的类别)里面的所有训练样本进行聚类;
  • (2)在各个聚类里面进行内部层次采样,获得同“少类”相同规模的样本;
  • (3)使用这些采样样本并结合整个类(个人理解应该是聚类后的各个类)的中心向量构建的新向量进行训练学习。

该方法借鉴中心向量充分利用‘多类’里面所有样本的分类信息,可获得比传统采样方法更好的结果。

基于协同学习的半监督学习方法

该方法有如下两个特点:

  • (1)使用欠采样技术对训练样本进行平衡采样,用于构建多个欠采样分类器,利用多个分类器对非标注样本进行标注;
  • (2)采用动态特征子空间的方式,即每次迭代重新生成特征子空间,增加分类器的之间的差异性,进一步提升学习器的性能。

去掉其非监督标注部分,其实此方法就是在数据较多的类别中多次取样然后与少数据的类别一起训练多个分类器(每个分类器有一个类别的样本不同,然后分类时各个分类器又使用不同的特征),其思想与随机森林较为相像。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容