data.frame 实用方法
-
pd.read_csv读入文件作为data.frame
header:指定是否有标题,None无标题
sep:指定文件分隔符 超级实用 -
df.shape返回df的行数和列数 超级实用 -
df.columns返回列名 -
df.info()返回df各变量的信息 -
df["列名"]选取某列数据 -
df.describe()返回数值类型列的描述性统计结果,包含均值、标准差、范围等。 -
df.head()显示数据前5行 超级实用 -
df.sort_values(by= , ascending=False)按照by指定列进行排序,默认为升序,使用ascending=False改为降序。 超级实用 -
df['列名'].mean对任意一列计算均值 -
df['列名'].min对任意一列计算最小值 -
df['列名'].max对任意一列计算最大值 -
df['列名'].sum对任意一列求和。,此外,可对bool行求和,以获得True的个数 -
df['列名'] == 1索引,该列值是否等于1 ,返回True或False -
df[df['列名'] == 1]返回符合索引条件的行,属性依旧是data.frame。超级实用 -
df[(df['列名a'] == 1) & (df['列名b'] == 1)]结合逻辑判断使用多个索引条件。超级实用
data.frame 子集提取命令 loc, iloc
loc为名称索引,iloc为数字索引
-
df.loc['行名']按行名提取子集 -
df.loc['行名','列名']提取指定行,列的内容 -
df.loc['行名','列名'] = 1修改指定行,列内容。取一行或一列时用列表。 -
df.iloc[0:2, 0:2]提取前两行、前两列的内容
使用哈希替换某列的值
map
d = {'No': False, 'Yes': True}
df['列名'] = df['列名'].map(d)
replace
d = {'No': False, 'Yes': True}
df = df.replace({'列名': d})