样本比例不均衡的处理的方法

声明:此文摘自微信公众号“机器学习研究会”的一篇推送。

原文链接:https://mp.weixin.qq.com/s/5csfnBWZ2MQsnWZnNj9b8w

样本不均衡带来的问题:模型过拟合。

针对样本不均衡的解决思路有:

    1、搜集更多的数据:

        当搜集数据代价不大时,这种方法最有效。注意:当收集数据的场景本来产生数据的比例就是不平衡时,这种方法并不能解决数据不均衡问题。

    2、改变评判指标:

        改变评判指标,也就是不用准确率来评判和选择模型,一些专门用来解决样本不均衡时的评判指标,如:召回率、F1值、ROC和Kappa等。

        关于评判指标更详细的内容可参考文章: Classification Accuracy is Not Enough: More Performance Measures You Can Use

    3、对数据进行采样:

        对数据采样针对性地改变数据中样本的比例,采样一般有两种方式:over-sampling和 under-sampling,前者是增加样本数较少的样本,其方式是直接复制原来的样本,而后者是减少样本数较多的样本,其方式是丢弃这些多余的样本。

通常来说,当总样本数目较多的时候考虑 under-sampling,而样本数数目较少的时候考虑 over-sampling

    4、合成样本:

    5、改变样本权重:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容