2022-02-24:连续值回归任务中的数据不平衡的

观点1

摘要

     现有的处理不平衡数据/长尾分布的方法绝大多数都是针对分类问题,而回归问题中出现的数据不均衡问题确极少被研究。但是,现实很多的工业预测场景都是需要解决回归的问题,也就是涉及到连续的,甚至是无限多的目标值,如何解决回归问题中出现的数据不均衡问题呢?ICML2021一篇被接收为Long oral presentation的论文:Delving into Deep Imbalanced Re...
     现有的处理不平衡数据/长尾分布的方法绝大多数都是针对分类问题,而回归问题中出现的数据不均衡问题确极少被研究。但是,现实很多的工业预测场景都是需要解决回归的问题,也就是涉及到连续的,甚至是无限多的目标值,如何解决回归问题中出现的数据不均衡问题呢?ICML2021一篇被接收为Long oral presentation的论文:Delving into Deep Imbalanced Regression,推广了传统不均衡分类问题的范式,将数据不平衡问题从离散值域推广到了连续值域,并提出了两种解决深度不均衡回归问题的方法。

     主要的贡献是三个方面:1)提出了一个深度不均衡回归(Deep Imbalanced Regression, DIR)任务,定义为从具有连续目标的不平衡数据中学习,并能泛化到整个目标范围;2)提出了两种解决DIR的新方法,标签分布平滑(label distribution smoothing, LDS)和特征分布平滑(feature distribution smoothing, FDS),来解决具有连续目标的不平衡数据的学习问题;3)建立了5个新的DIR数据集,包括了CV、NLP、healthcare上的不平衡回归任务,致力于帮助未来在不平衡数据上的研究。

数据不平衡问题背景

     1.现实世界的数据通常不会每个类别都具有理想的均匀分布,而是呈现出长尾的偏斜分布,其中某些目标值的观测值明显较少,这对于深度学习模型有较大的挑战。传统的解决办法可以分为基于数据和基于模型两种:基于数据的解决方案无非对少数群体进行过采样和对多数群体进行下采样,比如SMOTE算法;基于模型的解决方案包括对损失函数的重加权(re-weighting)或利用相关的学习技巧,如迁移学习、元学习、两阶段训练等。
     2 .但是现有的数据不平衡解决方案,主要是针对具有categorical index的目标值,也就是离散的类别标签数据。其目标值属于不同的类别,并且具有严格的硬边界,不同类别之间没有重叠。现实世界很多的预测场景可能涉及到连续目标值的标签数据。比如,根据人脸视觉图片预测年龄,年龄便是一个连续的目标值,并且在目标范围内可能会高度失衡。在工业领域中,也会发生类似的问题,比如在水泥领域,水泥熟料的质量,一般都是连续的目标值;在配煤领域,焦炭的热强指标也是连续的目标值。这些应用中需要预测的目标变量往往存在许多稀有和极端值。在连续域的不平衡问题在线性模型和深度模型中都是存在的,在深度模型中甚至更为严重,这是因为深度学习模型的预测往往都是over-confident的,会导致这种不平衡问题被严重的放大。
     因此,这篇文章定义了深度不平衡回归问题(DIR),即从具有连续目标值的不平衡数据中学习,同时需要处理某些目标区域的潜在确实数据,并使最终模型能够泛化到整个支持所有目标值的范围上。


不平衡回归问题的挑战

解决DIR问题的三个挑战如下:
1.对于连续的目标值(标签),不同目标值之间的硬边界不再存在,无法直接采用不平衡分类的处理方法。
2.连续标签本质上说明在不同的目标值之间的距离是有意义的。这些目标值直接告诉了哪些数据之间相隔更近,指导我们该如何理解这个连续区间上的数据不均衡的程度。
3.对于DIR,某些目标值可能根本没有数据,这为对目标值做extrapolation和interpolation提供了需求

解决方法一:标签分布平滑(LDS)

解决方法二:特征分布平滑(FDS)

[论文]:https://arxiv.org/abs/2102.09554
[代码]:https://github.com/YyzHarry/imbalanced-regression

观点2

这个问题是普遍存在的,是有影响的,但往往也是“不重要”或者可以修正的。
1 为何普遍存在?
机器学习回归问题的目标变量常为连续型随机变量Y,在社会经济领域中,连续随机变量常常服从正态分布,即有少数样本偏离均值,而大量样本落在均值附近,那么这些少数偏离均值的样本是否就是你所说的不均衡?
2 为何有影响?从回归问题的优化目标函数可以看出。如果选用MSE,即估计值与真实值的离差平方和作为优化目标,那么在所有样本等权重的情况下,这次机器学习的目标其实是优先学习好样本量多的部分,因此不平衡会导致模型在样本少的部分拟合与预测能力下降。在统计学中,也就是导致样本少的地方估计置信区间更宽。
3 为何“不重要”,怎么解决,取决于研究所关注的问题。
如预测价格等问题,本身回归模型可能更关注某个目标区间内的预测能力,那么目标区间外的样本较少也没有问题;如果是研究的问题就关注于较少发生的情况,那往往会转化为是否发生该问题或者对异常值的研究;如果就是关注的部分有少量的不均衡,可以采用对样本加权的方式平衡样本;如果就是关注的部分有大量的不平衡问题,那么有可能这个问题需要重新建模

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容