登录注册写文章

科学计算库之Pandas

科学计算库之Pandas

简介

2008年WesMcKinney开发出的库
专门用于数据挖掘的开源python库
以Numpy为基础，借力Numpy模块在计算方面性能高的优势
基于matplotlib，能够简便的画图
独特的数据结构

优势

增强图表可读性
便捷的数据处理能力
读取文件方便
封装了Matplotlib、Numpy的画图和计算

三种结构

DataFrame
- 创建
  - pd.DataFrame()
    - index= -- 行索引
    - columns = -- 列索引
- 属性
  - shape 形状
  - index 行索引
  - columns 列索引
  - values -- 查看值(ndarray)
  - T -- 转置
  - head() -- 前几行
  - tail() -- 后几行
- DataFrame索引的设置
  - 设置索引,必须要全部索引进行设置,不能只修改单个
  - 重设索引-- df.reset_index(drop=False)
  - 设置新的索引 -- df.set_index("")
multiIndex, panel
- multiIndex
  - 把dataframe进行整合
  - df.index
  - df.index.names
- panel
  - 三维数组,特殊处理的原始版本
  - panel[:,:,""]
series
- 创建
  - pd.Series(np.arange())
  - pd.Series([], index=[])
  - pd.Series({})
- 属性
  - index
  - values

基本操作

索引操作
- data[][]
- data.loc[]
- data.iloc[]
- data.ix[]
赋值
- data[""] = **
- data.close = **
排序
- dataframe
  - df.sort_values(by="", ascending=)
  - df.sort_index(ascending=)
- series
  - df[""].sort_values()
  - df[""].sort_index()

运算

算数运算

df[""].add()
df[""].sub()

逻辑运算

df.query()
df[df[""].isin([])]

统计运算

sum()
min()
idxmax()
idxmin()

累积统计函数

cumsum()
cummax()
cummin()
cumprod()

自定义函数

df.apply(fund, axis=0)

文件读取与存储

CSV

pd.read_csv("", usecols=[])
df.to_csv("", columns=[], index=, mode=, header=)

HDF

pd.read_hdf("", key="")
pd.to_hdf("**.h5", key="")
优势:
- 1.读取速度快
- 2.提升磁盘利用率,节省空间
- 3.跨平台

JSON

pd.read_json()
df.to_json()

高级处理

缺失值

判断
- isnull
- notnull
处理方式
- 删除dropna
- 替换fillna

离散化

cut,qcut
get_dummies

合并

merge
concat

交叉表与透视表

crosstab
pivot_table

分组聚合

group_by

最后编辑于：2019.08.01 19:52:00

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

利用python进行数据分析之pandas入门(一)
目录： 5.1 pandas 的数据结构介绍 5.1.1 Series 5.1.2 DataFrame 5.1.3...
凌岸_ing阅读 4,916评论 0赞 17
pySpark 中文API (2)
pyspark.sql模块模块上下文 Spark SQL和DataFrames的重要类： pyspark.sql...
mpro阅读 9,873评论 0赞 13

pandas常用函数汇总
pandas官方文档:http://pandas.pydata.org/pandas-docs/stable/ap...
肖月_1d28阅读 6,393评论 2赞 6
带你看懂pandas中的两种数据结构
Pandas是基于Numpy的一种工具,这个工具是为了解决数据分析任务而创建的,pandas纳入了大量的库和一些标...
CDA数据分析师培训阅读 542评论 0赞 9
Pandas笔记
Series(一维数据) import numpy as npimport pandas as pdp = pri...
A雪_辰A阅读 801评论 0赞 1

友情链接更多精彩内容

赞1赞

赞赏

手机看全文