pandas数据缺失处理

在泰坦尼克号(取自Kaggle)的数据集的feature age中有很多缺失值。我们可以通过以下方法来查找这些缺失值:

import pandas as pd

titanic = pd.read_csv("E:/Anaconda/MachineLearningData/Titanic/test.csv")   #获取数据集

age = titanic["Age"]    #找Age特征

#把age中结果为true的值存在age_is_null中,true为缺失值

#isnull()函数会把age中值为null的部分看作True,非null的地方看作False

age_is_null = age[pd.isnull(age) == True]     

print (age_is_null)

省略中间部分......
上面结果的尾部

在计算平均年龄时我们可以去掉没有年龄信息的人。

age_after_shuffle = age[pd.isnull(age) == False]

mean_age = sum(age_after_shuffle)/len(age_after_shuffle)

print (mean_age)

结果

还有个更好的办法,那就是把缺失的用平均年龄来代替来做成一个完整的数据再来计算平均年龄。

mean = titanic_age.mean()



最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 13,151评论 0 13
  • import numpy as np import pandas as pd titanic_survival =...
    python机器学习学习笔记阅读 4,166评论 0 0
  • 练习:泰坦尼克号逃生率 kaggle上一道经典题目,拿来做一点小练习。有一个csv文件(点击下载)密码:yqto。...
    am_skyf阅读 3,169评论 0 2
  • 简单实用 泛型就是参数化类型,可以将类型当作参数传递给一个类或者是方法。 假设 Cache 能够存取任何类型的值:...
    ccccccal阅读 1,469评论 0 0
  • 今天参加单位组织的年度体检,各科项目检查一圈下来,指标正常,心情还是很好的。 原来有一些因为情绪不...
    乐贺乐贺阅读 780评论 0 0