分类算法处理缺失值

整体而言,树模型+bayes对于缺失值都不太敏感;涉及到度量问题的模型(SVM+KNN)就相对敏感。

决策树

其实缺失值问题可以从三个方面来考虑

  1. 在选择分裂属性的时候,训练样本存在缺失值,如何处理?假如你使用ID3算法,那么选择分类属性时,就要计算所有属性的熵增(信息增益,Gain)。假设10个样本,属性是a,b,c。在计算a属性熵时发现,第10个样本的a属性缺失,那么就把第10个样本去掉,前9个样本组成新的样本集,在新样本集上按正常方法计算a属性的熵增。然后结果乘0.9(新样本占raw样本的比例),就是a属性最终的熵。
  2. 分裂属性选择完成,对训练样本分类,发现属性缺失怎么办?比如该节点是根据a属性划分,但是待分类样本a属性缺失,怎么办呢?假设a属性离散,有1,2两种取值,那么就把该样本分配到两个子节点中去,但是权重由1变为相应离散值个数占样本的比例。然后计算错误率的时候,注意,不是每个样本都是权重为1,存在分数。
    例如:a=1的占30%,a=2的占70%.则这里可以将原来的一个样本,划分0.3个向左分支,划分0.7个向右分支。
  3. 训练完成,给测试集样本分类,有缺失值怎么办?这时候,就不能按比例分配了,因为你必须给该样本一个确定的label,而不是薛定谔的label。这时候根据投票来确定,或者填充缺失值。
  4. 简单粗暴快速的方法:利用中位数或者出现次数最多的树,替代

SVM

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 6,084评论 0 25
  • 接触机器学习时间也不短了, 趁国庆放假, 做一下深度整理. 1. 大纲 若想在企业胜任算法相关岗位知识, 除了掌握...
    婉妃阅读 3,533评论 2 92
  • 缘分不是这样的。俩个人相遇,你喜欢我,我喜欢你,这才叫缘分。如果俩个人都不喜欢,就算遇上几百万次,都不算缘分。如果...
    听听歌睡睡觉阅读 341评论 0 9
  • 文/洛小简 雨一直下 开放了心芽 催促你上车了吧 再不走我就要哭泣了啦 我把眼角 上扬了45度 好怕好怕 当着所有...
    洛小简阅读 474评论 0 0
  • 生命中来来往往的过客,总有些让你无法释怀,于公,你可以坦然,于私却无法释然! 英雄不问归路,只管仗剑前行!
    远方的花主阅读 240评论 0 0

友情链接更多精彩内容