观点1
摘要
现有的处理不平衡数据/长尾分布的方法绝大多数都是针对分类问题,而回归问题中出现的数据不均衡问题确极少被研究。但是,现实很多的工业预测场景都是需要解决回归的问题,也就是涉及到连续的,甚至是无限多的目标值,如何解决回归问题中出现的数据不均衡问题呢?ICML2021一篇被接收为Long oral presentation的论文:Delving into Deep Imbalanced Re...
现有的处理不平衡数据/长尾分布的方法绝大多数都是针对分类问题,而回归问题中出现的数据不均衡问题确极少被研究。但是,现实很多的工业预测场景都是需要解决回归的问题,也就是涉及到连续的,甚至是无限多的目标值,如何解决回归问题中出现的数据不均衡问题呢?ICML2021一篇被接收为Long oral presentation的论文:Delving into Deep Imbalanced Regression,推广了传统不均衡分类问题的范式,将数据不平衡问题从离散值域推广到了连续值域,并提出了两种解决深度不均衡回归问题的方法。
主要的贡献是三个方面:1)提出了一个深度不均衡回归(Deep Imbalanced Regression, DIR)任务,定义为从具有连续目标的不平衡数据中学习,并能泛化到整个目标范围;2)提出了两种解决DIR的新方法,标签分布平滑(label distribution smoothing, LDS)和特征分布平滑(feature distribution smoothing, FDS),来解决具有连续目标的不平衡数据的学习问题;3)建立了5个新的DIR数据集,包括了CV、NLP、healthcare上的不平衡回归任务,致力于帮助未来在不平衡数据上的研究。
数据不平衡问题背景
1.现实世界的数据通常不会每个类别都具有理想的均匀分布,而是呈现出长尾的偏斜分布,其中某些目标值的观测值明显较少,这对于深度学习模型有较大的挑战。传统的解决办法可以分为基于数据和基于模型两种:基于数据的解决方案无非对少数群体进行过采样和对多数群体进行下采样,比如SMOTE算法;基于模型的解决方案包括对损失函数的重加权(re-weighting)或利用相关的学习技巧,如迁移学习、元学习、两阶段训练等。
2 .但是现有的数据不平衡解决方案,主要是针对具有categorical index的目标值,也就是离散的类别标签数据。其目标值属于不同的类别,并且具有严格的硬边界,不同类别之间没有重叠。现实世界很多的预测场景可能涉及到连续目标值的标签数据。比如,根据人脸视觉图片预测年龄,年龄便是一个连续的目标值,并且在目标范围内可能会高度失衡。在工业领域中,也会发生类似的问题,比如在水泥领域,水泥熟料的质量,一般都是连续的目标值;在配煤领域,焦炭的热强指标也是连续的目标值。这些应用中需要预测的目标变量往往存在许多稀有和极端值。在连续域的不平衡问题在线性模型和深度模型中都是存在的,在深度模型中甚至更为严重,这是因为深度学习模型的预测往往都是over-confident的,会导致这种不平衡问题被严重的放大。
因此,这篇文章定义了深度不平衡回归问题(DIR),即从具有连续目标值的不平衡数据中学习,同时需要处理某些目标区域的潜在确实数据,并使最终模型能够泛化到整个支持所有目标值的范围上。
不平衡回归问题的挑战
解决DIR问题的三个挑战如下:
1.对于连续的目标值(标签),不同目标值之间的硬边界不再存在,无法直接采用不平衡分类的处理方法。
2.连续标签本质上说明在不同的目标值之间的距离是有意义的。这些目标值直接告诉了哪些数据之间相隔更近,指导我们该如何理解这个连续区间上的数据不均衡的程度。
3.对于DIR,某些目标值可能根本没有数据,这为对目标值做extrapolation和interpolation提供了需求
解决方法一:标签分布平滑(LDS)
解决方法二:特征分布平滑(FDS)
[论文]:https://arxiv.org/abs/2102.09554
[代码]:https://github.com/YyzHarry/imbalanced-regression
观点2
这个问题是普遍存在的,是有影响的,但往往也是“不重要”或者可以修正的。
1 为何普遍存在?
机器学习回归问题的目标变量常为连续型随机变量Y,在社会经济领域中,连续随机变量常常服从正态分布,即有少数样本偏离均值,而大量样本落在均值附近,那么这些少数偏离均值的样本是否就是你所说的不均衡?
2 为何有影响?从回归问题的优化目标函数可以看出。如果选用MSE,即估计值与真实值的离差平方和作为优化目标,那么在所有样本等权重的情况下,这次机器学习的目标其实是优先学习好样本量多的部分,因此不平衡会导致模型在样本少的部分拟合与预测能力下降。在统计学中,也就是导致样本少的地方估计置信区间更宽。
3 为何“不重要”,怎么解决,取决于研究所关注的问题。
如预测价格等问题,本身回归模型可能更关注某个目标区间内的预测能力,那么目标区间外的样本较少也没有问题;如果是研究的问题就关注于较少发生的情况,那往往会转化为是否发生该问题或者对异常值的研究;如果就是关注的部分有少量的不均衡,可以采用对样本加权的方式平衡样本;如果就是关注的部分有大量的不平衡问题,那么有可能这个问题需要重新建模