类别不平衡问题

  若训练样例数正例和反例的差别很大,则会对学习过程造成困扰。例如998个反例,2个正例,那么学习方法只需永远将测试新样本设为反例,那么就会99.8%的精度,但是这样是没有价值的,因为学习器不能预测出正例。
  从线性分类器的角度讨论,使用y=w^{T}x+b对样本进行分类时,事实上是在用预测出的y与一个阈值\alpha进行比较,若大于则为正例,反之亦然。当训练集的正例m^{+}与反例m^{-}数目不同时,观测几率是\frac{ m^{+} }{ m^{-} }作为真实几率(假设训练集是真实样本的无偏采样),于是只要分类器的预测几率高于观测几率则判断为正例,即
      \frac{ y }{ 1-y }>\frac{ m^{+} }{ m^{-} }

需要对原观测值进行调整(称为“再缩放”或“再平衡”):
      \frac{ y^{'} }{ 1-y^{'} }=\frac{ y }{ 1-y }\frac{ m^{-} }{ m^{+} }

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。