标题中的英文首字母大写比较规范,但在python实际使用中均为小写。
2018年8月2日笔记
建议读者安装anaconda,这个集成开发环境自带了很多包。
作者推荐到2018年8月2日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex
下面代码的开发环境为jupyter notebook,使用在jupyter notebook中的截图表示运行结果。
1.导入库
使用 pandas,首先就得熟悉它的两个主要数据结构: Series和 Dataframe。
from pandas import Series,DataFrame
import pandas as pd
2.创建Series取索引
Series对象有loc和iloc成员变量,如下图所示:
loc的数据类型为pandas.core.indexing,_LocIndexer
,
iloc的数据类型为pandas.core.indexing,_iLocIndexer
,
用loc进行索引时,中括号[ ]中的值必须是索引的真实值;
用iloc进行索引时,中括号[ ]中的值必须是整数,与列表list索引取值类似,例如obj.iloc[2]就是取第3行的值。
3.Pandas基本数据类型-DataFrame
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型 。
Dataframe既有行索引也有列索引,它可以被看做由 Series组成的字典(共用同一个索引)。
跟其他类似的数据结构相比(如R的dataframe), Data frame中面向行和面向列的操作基本上是平衡的。
其实, Dataframe中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。
3.1 可以用于构造DataFrame的数据
类型 | 说明 |
---|---|
二维ndarray | 数据矩阵,还可以传入行和列 |
由列表或元组成的字典 | 每个序列会变成DataFrame中的一列,所有序列的长度必须相同 |
Numpy的结构化/记录数组 | 类似于"由列表组成的字典" |
由Series组成的字典 | 每个Series会形成1列 |
由字典组成的字典 | 各内层字典会成为1列 |
字典或者Series的列表 | 各项会成为DataFrame的1行,字典键的并集成为列 |
简单例子如下:
from pandas import DataFrame
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Neveda'],
'year':[2000, 2000, 2002, 2001, 2002],
'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(data)
df
上面一段代码的运行结果如下:
自定义列的顺序,代码如下:
from pandas import DataFrame
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Neveda'],
'year':[2000, 2000, 2002, 2001, 2002],
'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(data,columns=['year','state','pop'])
df
3.2 读取DataFrame中的数据
有两种方式读取数据:
-
通过类似字典键索引的方式:
2.通过属性的方式:
3.3 DataFrame增加列
给“财务”列赋值一个标量
给“财务”列赋值一组值
用旧列产生新列
3.4 DataFrame删除列
删除"地区_上海"列:del df['地区_上海']
3.5 DataFrame转置
3.6 DataFrame取值
4.Pandas快速进阶
4.1 DataFrame创建
创建行和列都为自定义值的DataFrame
from pandas import DataFrame
import numpy as np
kwargs = dict(
index = ['上海','北京','广州','天津'],
columns = ['one', 'two', 'three', 'four']
)
df = DataFrame(np.arange(16).reshape(4,4), **kwargs)
df
4.2 DataFrame删除多行
4.3 DataFrame删除多列
4.4 DataFrame选出多行
选出第2、 3行,即选出索引为1、2的行,代码如下:
注意,df.iloc 不是方法,是类似于列表list的可迭代对象,所以后面必须接中括号[ ]
4.5 DataFrame选出多列
选出第2、 3列,即选出索引为1、 2的列,代码如下:
在不知道列名的情况下实现:
练习
Step 1. 导入相应的模块
import pandas as pd
import numpy
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
Step 2. 给定的原始数据集
# Create an example dataframe about a fictional army
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],
'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'],
'deaths': [523, 52, 25, 616, 43, 234, 523, 62, 62, 73, 37, 35],
'battles': [5, 42, 2, 2, 4, 7, 8, 3, 4, 7, 8, 9],
'size': [1045, 957, 1099, 1400, 1592, 1006, 987, 849, 973, 1005, 1099, 1523],
'veterans': [1, 5, 62, 26, 73, 37, 949, 48, 48, 435, 63, 345],
'readiness': [1, 2, 3, 3, 2, 1, 2, 3, 2, 1, 2, 3],
'armored': [1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1],
'deserters': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
'origin': ['Arizona', 'California', 'Texas', 'Florida', 'Maine', 'Iowa', 'Alaska', 'Washington', 'Oregon', 'Wyoming', 'Louisana', 'Georgia']}
Step 3. 根据原始数据集创建一个DataFrame,并赋值给变量army
army = DataFrame(raw_data,columns=raw_data.keys())
Step 4. 设置给定数据中的origin字段为DataFrame的列名,即columns的值,结果如下所示
army.index = army.origin
del army['origin']
army
Step 5. 打印列名为veterans的所有值,效果如下:
army['veterans']
Step 6. 打印列名为 'veterans' 和 'deaths' 的所有数据
army[['veterans','deaths']]
Step 7. 打印出所有的列索引的值
army.columns
Step 8. 筛选出列 regiments 的值不为"Dragoons"的所有数据,如下所示
方法一:
army.iloc[army['regiment'].values != 'Dragoons']
方法二:
army[army['regiment'] != 'Dragoons']
方法二又等同于army.iloc[army['regiment'] != 'Dragoons']
附加题:筛选出如下所示的数据, 即第3到7行,第3到6列的所有数据
army.iloc[range(3,8)][army.columns[3:7]]
想学习更多关于Pandas的知识,请查看作者的《Pandas入门2》
链接:https://www.jianshu.com/p/2ca0ef0d659f