null值,即为缺失数据。
- 1 判断是否为NAN
import pandas as pd
df = pd.read_csv(path) # path为csv文件路径
df[pd.isnull(df["地市"])] # 判断df数据中地市一列是否为nan值
- 2 删除nan值
dropna(axis=0,how="any",inplace=False) # axis=0删除行,how="any"表示只要有nan值,就删除;
# how="all"表示一行数据全为nan的删除;
# inplace是否原地修改,inplace=True表示修改df数据,df数据变化
# inplace=Faulse 表不修改df数据
t = df.dropna(axis=0) # 删除该行数据
t = df.dropna(axis=0,how="any",inplace=False) # t中数据变化,df不变化
t = df.dropna(axis=0,how="any",inplace=True) # df中数据变化
- 3 填充数据
df.fillna(0) # 将df数据中的na填充为0
df.fillna(df.mean()) # 将nan值所在列的数据求均值,然后填入nan
df["年龄"].fillna(df["年龄"].mean()) #将"年龄"一列中年龄的均值填入na
- 4 处理为0的数据
import numpy as np
df[df==0] = np.nan # 将为0的数据填入nan,并非所有的0都要处理,
# 因为计算平均的情况,nan不参与计算,但0会参与计算。