声明:此文摘自微信公众号“机器学习研究会”的一篇推送。
原文链接:https://mp.weixin.qq.com/s/5csfnBWZ2MQsnWZnNj9b8w
样本不均衡带来的问题:模型过拟合。
针对样本不均衡的解决思路有:
1、搜集更多的数据:
当搜集数据代价不大时,这种方法最有效。注意:当收集数据的场景本来产生数据的比例就是不平衡时,这种方法并不能解决数据不均衡问题。
2、改变评判指标:
改变评判指标,也就是不用准确率来评判和选择模型,一些专门用来解决样本不均衡时的评判指标,如:召回率、F1值、ROC和Kappa等。
关于评判指标更详细的内容可参考文章: Classification Accuracy is Not Enough: More Performance Measures You Can Use
3、对数据进行采样:
对数据采样针对性地改变数据中样本的比例,采样一般有两种方式:over-sampling和 under-sampling,前者是增加样本数较少的样本,其方式是直接复制原来的样本,而后者是减少样本数较多的样本,其方式是丢弃这些多余的样本。
通常来说,当总样本数目较多的时候考虑 under-sampling,而样本数数目较少的时候考虑 over-sampling