解决数据不平衡

https://zhuanlan.zhihu.com/p/344446850

重采样 （re-sampling）：分为对少样本的过采样、及多样本的欠采样，但这2种方法，都有欠缺的地方。其中，过采样容易发生少样本过拟合，无法学习更鲁棒、易泛化的特征，在不平衡数据上表现较差；欠采样会造成多样本严重信息损失，导致发生欠拟合。

数据合成 （synthetic samples）：生成和少样本相似的新数据。以SMOTE方法为例，对于任意选取的少类样本，它用K近邻选取相似样本，并通过对样本线性插值得到新样本。这里与mixup方法相似，因此，也有非均衡的mixup版本出现。

重加权 （re-weighting）：为不同类别（甚至不同样本）分配不同的权重。其中，权重可以自适应。这一方法诞生出很多变种，如对类别数目的倒数进行加权、对“有效”样本数加权、对样本数优化分类间距的损失加权等等。

迁移学习 （transfer learning）：对多类和少类样本分别建模，将学到的多类样本信息/表示/知识迁移给少类别使用。

迁移学习

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。