机器学习数据预处理中用零进行空值填充的合理性

写在前面:我是一个机器学习的初学者,在做项目的过程中遇到了一些问题,解决了一些问题,获得了一些感悟。在此处做记录并分享,只是为了多一些和大家交流的机会。如有错漏,请不吝赐教。欢迎在评论区交流。

  • 问题描述
    检测样本中病原微生物的丰度,并以病原微生物的丰度为特征,结合其他特征构建机器学习分类模型。在数据预处理的过程中发现有很多空值,如下表:
sampleid species0 species1 species2 ...
s1 x1 x2
s2 x3 x4
s3 x5
... x6

那么,用 0 填充空值是否合理?

  • 问题分析
    首先,没有检测到病原本身就可以视为丰度为 0。另外数据标准化时, StandardScaler() 本身为线性变换,只会将数据进行线性地缩放和平移,而不会改变数据的形状。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容