data.frame 实用方法
-
pd.read_csv
读入文件作为data.frame
header:指定是否有标题,None无标题
sep:指定文件分隔符 超级实用 -
df.shape
返回df的行数和列数 超级实用 -
df.columns
返回列名 -
df.info()
返回df各变量的信息 -
df["列名"]
选取某列数据 -
df.describe()
返回数值类型列的描述性统计结果,包含均值、标准差、范围等。 -
df.head()
显示数据前5行 超级实用 -
df.sort_values(by= , ascending=False)
按照by
指定列进行排序,默认为升序,使用ascending=False
改为降序。 超级实用 -
df['列名'].mean
对任意一列计算均值 -
df['列名'].min
对任意一列计算最小值 -
df['列名'].max
对任意一列计算最大值 -
df['列名'].sum
对任意一列求和。,此外,可对bool行求和,以获得True的个数 -
df['列名'] == 1
索引,该列值是否等于1 ,返回True或False -
df[df['列名'] == 1]
返回符合索引条件的行,属性依旧是data.frame。超级实用 -
df[(df['列名a'] == 1) & (df['列名b'] == 1)]
结合逻辑判断使用多个索引条件。超级实用
data.frame 子集提取命令 loc
, iloc
loc
为名称索引,iloc
为数字索引
-
df.loc['行名']
按行名提取子集 -
df.loc['行名','列名']
提取指定行,列的内容 -
df.loc['行名','列名'] = 1
修改指定行,列内容。取一行或一列时用列表。 -
df.iloc[0:2, 0:2]
提取前两行、前两列的内容
使用哈希替换某列的值
map
d = {'No': False, 'Yes': True}
df['列名'] = df['列名'].map(d)
replace
d = {'No': False, 'Yes': True}
df = df.replace({'列名': d})