解决数据不平衡

https://zhuanlan.zhihu.com/p/344446850

重采样 (re-sampling):分为对少样本的过采样、及多样本的欠采样,但这2种方法,都有欠缺的地方。其中,过采样容易发生少样本过拟合,无法学习更鲁棒、易泛化的特征,在不平衡数据上表现较差;欠采样会造成多样本严重信息损失,导致发生欠拟合。

数据合成 (synthetic samples):生成和少样本相似的新数据。以SMOTE方法为例,对于任意选取的少类样本,它用K近邻选取相似样本,并通过对样本线性插值得到新样本。这里与mixup方法相似,因此,也有非均衡的mixup版本出现。

重加权 (re-weighting):为不同类别(甚至不同样本)分配不同的权重。其中,权重可以自适应。这一方法诞生出很多变种,如对类别数目的倒数进行加权、对“有效”样本数加权、对样本数优化分类间距的损失加权等等。

迁移学习 (transfer learning):对多类和少类样本分别建模,将学到的多类样本信息/表示/知识迁移给少类别使用。

迁移学习
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容