DataFrame的单元格可以存放数值、字符串等,这和excel表很像。同时DataFrame可以设置列名columns与行名index,可以通过像matlab一样通过位置获取数据也可以通过列名和行名定位,比较像matlab里面的table格式。
下面将对DataFrame的基本操作进行梳理和介绍:(下文中用df代指DataFrame格式)
1 DataFrame的生成
方法1:直接生成df
df=pd.DataFrame([[1,2,3],[2,2,2],[3,3,3]],index=['a','b','c'], columns=['e','f','g'])
注意value录入要加上【value】
可以生成空的df,默认取值为nan
df=pd.DataFrame(value,index='',columns='')
方法2:字典转化为df
dic1={'name':['小明','小红','幽鬼','敌法'],'age':[17,20,5,40],'gender':['男','女','女','男']}
df=pd.DataFrame(dic1)
方法3:读取txt/excel文件时,输出的就是df格式
df = pd.read_excel(“file_name.xlsx”)
方法4:从矩阵A转化为df
df= pd.DataFrame.from_records(A,columns=name)
注:pd.DataFrame和pd.Series是两个不同的函数
2 获取行列名称、行高、列高
df.index 行名称
df.columns 列名称
df._info_axis_ 列名称
(bike1,bike2)=df.shape 行、列高度
len(df) 输出的是行高
df.index.size 行高
df.columns.size 列高
3 取行、列,切片操作
取单行后是一个Series,Series有index而无columns
'Series' object has no attribute 'columns'
df['x'] 取列名为'x'的列,格式为series
df[['x']] 取列名为'x'的列,格式为Dataframe
df[['w','z']] 取多列时需要用Dataframe的格式
df[df.columns[0:3]] 按照索引位置来取列,其实是分两步,先用索引取列名,再用列名取列
df.loc['A'] 取行名为'A'的行
df[0:2] 取索引对应的行
df.loc[:,['x','z'] ] #表示选取所有的行以及columns为x,z的列
df['name'].values 取列名为'name'的列的值(取出来的是array而不是series)取单行后是一个Series,Series有index而无columns,可以用name来获取单列的索引
df.head(4) 取头四行
df.tail(3) 取尾三行
df.iloc[1,1] 根据绝对索引来取值,所谓绝对索引即按照0,1,2这样的人眼顺序来进行排列的原始索引
df.iloc[0:3, [0,1]]
df.iloc[1] 绝对索引第一行
4 替换与删除
point_table.rename(columns={0:'point_key', 1:'point', 2:'count1', 3:'count2'}) #索引改名称
df[i]=x #x为常数,全替换;x为向量则要求与替换行/列长度一样
bus=np.where(x2 < 1.5) #np里相当于matlab里的find
df.values[bus]=1.66 * df.values[bus] #根据绝对位置进行部分值的替换
去除nan值:
df4 = pd.read_csv('4.csv', encoding='utf-8')
df4 = df4.dropna() #去除含有nan的行
# 可以通过axis参数来删除含有空数据的全部列
df4 = df4.dropna(axis=1)
df4 = df4 .drop(['工作饱和度'], axis=1) # 删除指定column的列
【1】pandas dataframe删除一行或一列:drop函数 https://blog.csdn.net/songyunli1111/article/details/79306639
5 拼接与拆分
注意:
df.append 生成了新的对象
list.append 直接修改原对象
df.append()
纵向(上下)拼接和横向(左右)拼接:
axis=0为纵向拼接
concat([df1,df2]) 等价于 df1.append(df2)
在axis=1 时为横向拼接 ,此时有
concat([df1,df2],axis=1) 等价于 merge(df1,df2,left_index=True,right_index=True,how='outer')
如果要合并多个Dataframe,可以用list把几个Dataframe装起来,然后使用concat转化为一个新的Dataframe
df=pd.concat([train1, train2, train3, train4],axis=1,ignore_index=False)
拆分
df.groupby['columns_name']
6 计算
使用sum默认对每列求和,sum(1)为对每行求和
两个series可以直接进行加减乘除计算
7 排序
8 DataFrame在IDLE里的查看
pd.set_option('display.width', 200) # 横向最多显示多少个字符, 一般80不适合横向的屏幕,平时多用200.
pd.set_option('display.max_columns', 12)
pd.set_option('display.max_rows', 10) # 显示的最大行数和列数
pd.set_option('colheader_justify', 'left') 显示的单元格内容靠左边还是右边
9 多重索引
temp_df = temp_df.reset_index() 取消多重索引
【1】 DataFrame多重索引 https://blog.csdn.net/kylinxjd/article/details/98621546
10 插入行/列
train['工作饱和度'] = saturation_str # 增加一列
train.insert(4, '工作饱和度', saturation_str) # 插入一列
【1】Python在Dataframe中新添加一列 https://blog.csdn.net/zx1245773445/article/details/99445332
【2】插入:pandas-DataFrame列移动 https://blog.csdn.net/sinat_41701878/article/details/80945861