Pandas 使用总结

1.Pandas 介绍

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

——来自百度百科

简单来说，pandas是一个能够方便快捷地处理表格等结构数据的工具包，能够很方便地读取，处理excel等数据。

能够大大简化数据分析的工作。

2.安装命令

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas

3.导入包

import pandas as pd

4.创建，读取DataFrame

通过数组创建表格

array = [1, 2, 3, 4, 5]
pd.DataFrame(array,columns=['数据'])

通过字典创建表格
```
pd.DataFrame({'数据':array})
```
读入excel文件创建表格
```
pd.read_excel('study.xlsx')
```
read_excel 参数：
- io: 读取的数据流，如果是字符串，则是文件的路径
- sheetname：工作表名称
- header：指定作为标签的列，默认不指定
- 其他参数参见：https://pandas.pydata.org/pandas-docs/version/0.14.0/generated/pandas.read_excel.html
读入csv文件创建表格
```
pd.read_csv('study.csv')
```
read_csv 参数：
- io: 同上
- sep：用作分割的字符串
- quoting :
- 其他参数参考：https://pandas.pydata.org/pandas-docs/version/0.14.0/generated/pandas.read_csv.html#pandas.read_csv

5.保存数据

df.to_excel('study.xlsx')
df.to_csv('study.csv')

6.数据处理之增删改查

增加数据

增加行数据

df.loc[len(df)]=2 # 使用这种方式需要注意索引列的设置方式，不设置索引列，自动生成一行索引列
df_new = pd.concat([df3,df4],ignore_index=True)

增加列数据
```
df['第二列'] = [1, 2, 3, 4, 5]
```

删除数据

df.drop(axis=0,index=0) # 删除某一行
df.drop(axis=1,index=0) # 删除某一列

drop 中如果指定 inplace = True 则会再原来的数据上做修改

另外：

对空值的处理：

df.dropNa()可以删除包含nan的数据行或者列

查询和修改数据

df['某一列'][1]
df.loc[:,'某一列']
df.iloc[1,1]
df.loc[df['某一列']==1]

df.loc[df['某一列']==1&]：通过这种方式可以快速筛选需要的值，其中，表达式支持 &和|作为与或操作

高级功能

df.info() # 可以查看数据表的结构
df.describe() # 可以查看每一列的描述
df.shift(-1) # 可以使数据上下移动

分组

df.groupby(by='列名').apply(lambda x:print(np.sum(x))

后续等待更新

pandas 使用总结