pandas学习笔记之缺失值处理

对于数据中的缺失值,有两种处理思路:

  • 删除
  • 插补

如何判断数据中是否存在缺失值?

  • pd.isnull(df) -> np.any(pd.isnull(df))
    返回True,则有缺失值
  • pd.notnull(df) -> np.all(pd.notnull(df))
    返回False,则有缺失值
  • 判断某一列是否有缺失值:
    • pd.isnull(df).any()
    • pd.notnull(df).all()
      判断列是否有缺失值

      判断列是否有缺失值
  • 将数据某一列中不包含空值的数据输出来:
    将 Ve 列中不包含空值的数据输出

删除含有缺失值的数据:

  • df.dropna(axis=, inplace=)
    • 默认按行删除,axis="rows"
    • 默认inplace=False,不替换、修改原始数据,生成新的对象

对缺失值进行插补:

  • df.fillna(value, inplace=)
    可选择填充平均值:
    data["Ve"].fillna(data["Ve"].mean())

缺失值为其他标记

例如,缺失值标记为“?”
?替换为np.nan,再做其他相似处理
df.replace(to_replace="?", value=np.nan)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容