简介
- 2008年WesMcKinney开发出的库
- 专门用于数据挖掘的开源python库
- 以Numpy为基础,借力Numpy模块在计算方面性能高的优势
- 基于matplotlib,能够简便的画图
- 独特的数据结构
优势
- 增强图表可读性
- 便捷的数据处理能力
- 读取文件方便
- 封装了Matplotlib、Numpy的画图和计算
三种结构
-
DataFrame
- 创建
- pd.DataFrame()
- index= -- 行索引
- columns = -- 列索引
- pd.DataFrame()
- 属性
- shape 形状
- index 行索引
- columns 列索引
- values -- 查看值(ndarray)
- T -- 转置
- head() -- 前几行
- tail() -- 后几行
- DataFrame索引的设置
- 设置索引,必须要全部索引进行设置,不能只修改单个
- 重设索引-- df.reset_index(drop=False)
- 设置新的索引 -- df.set_index("")
- 创建
-
multiIndex, panel
- multiIndex
- 把dataframe进行整合
- df.index
- df.index.names
- panel
- 三维数组,特殊处理的原始版本
- panel[:,:,""]
- multiIndex
-
series
- 创建
- pd.Series(np.arange())
- pd.Series([], index=[])
- pd.Series({})
- 属性
- index
- values
- 创建
基本操作
- 索引操作
- data[][]
- data.loc[]
- data.iloc[]
- data.ix[]
- 赋值
- data[""] = **
- data.close = **
- 排序
- dataframe
- df.sort_values(by="", ascending=)
- df.sort_index(ascending=)
- series
- df[""].sort_values()
- df[""].sort_index()
- dataframe
运算
算数运算
- df[""].add()
- df[""].sub()
逻辑运算
- df.query()
- df[df[""].isin([])]
统计运算
- sum()
- min()
- idxmax()
- idxmin()
累积统计函数
- cumsum()
- cummax()
- cummin()
- cumprod()
自定义函数
- df.apply(fund, axis=0)
文件读取与存储
CSV
- pd.read_csv("", usecols=[])
- df.to_csv("", columns=[], index=, mode=, header=)
HDF
- pd.read_hdf("", key="")
- pd.to_hdf("**.h5", key="")
- 优势:
- 1.读取速度快
- 2.提升磁盘利用率,节省空间
- 3.跨平台
JSON
- pd.read_json()
- df.to_json()
高级处理
缺失值
- 判断
- isnull
- notnull
- 处理方式
- 删除dropna
- 替换fillna
离散化
- cut,qcut
- get_dummies
合并
- merge
- concat
交叉表与透视表
- crosstab
- pivot_table
分组聚合
-
group_by