Pandas入门

标题中的英文首字母大写比较规范，但在python实际使用中均为小写。
2018年8月2日笔记
建议读者安装anaconda，这个集成开发环境自带了很多包。
作者推荐到2018年8月2日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex
下面代码的开发环境为jupyter notebook，使用在jupyter notebook中的截图表示运行结果。

1.导入库

使用 pandas,首先就得熟悉它的两个主要数据结构: Series和 Dataframe。

from pandas import Series,DataFrame
import pandas as pd

2.创建Series取索引

Series对象有loc和iloc成员变量，如下图所示：
loc的数据类型为pandas.core.indexing,_LocIndexer，
iloc的数据类型为pandas.core.indexing,_iLocIndexer，
用loc进行索引时，中括号[ ]中的值必须是索引的真实值；
用iloc进行索引时，中括号[ ]中的值必须是整数，与列表list索引取值类似，例如obj.iloc[2]就是取第3行的值。

image.png

3.Pandas基本数据类型-DataFrame

DataFrame 是一个表格型的数据结构,它含有一组有序的列，每列可以是不同的值类型。
Dataframe既有行索引也有列索引,它可以被看做由 Series组成的字典(共用同一个索引)。
跟其他类似的数据结构相比(如R的dataframe), Data frame中面向行和面向列的操作基本上是平衡的。
其实, Dataframe中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。

3.1 可以用于构造DataFrame的数据

类型	说明
二维ndarray	数据矩阵,还可以传入行和列
由列表或元组成的字典	每个序列会变成DataFrame中的一列，所有序列的长度必须相同
Numpy的结构化/记录数组	类似于"由列表组成的字典"
由Series组成的字典	每个Series会形成1列
由字典组成的字典	各内层字典会成为1列
字典或者Series的列表	各项会成为DataFrame的1行，字典键的并集成为列

简单例子如下：

from pandas import DataFrame
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Neveda'],
       'year':[2000, 2000, 2002, 2001, 2002],
       'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(data)
df

上面一段代码的运行结果如下：

image.png

自定义列的顺序，代码如下：

from pandas import DataFrame
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Neveda'],
       'year':[2000, 2000, 2002, 2001, 2002],
       'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(data,columns=['year','state','pop'])
df

image.png

3.2 读取DataFrame中的数据

有两种方式读取数据：

通过类似字典键索引的方式：

image.png

2.通过属性的方式：

image.png

3.3 DataFrame增加列

给“财务”列赋值一个标量

image.png

给“财务”列赋值一组值

image.png

用旧列产生新列

image.png

3.4 DataFrame删除列

删除"地区_上海"列：del df['地区_上海']

3.5 DataFrame转置

image.png

3.6 DataFrame取值

image.png

4.Pandas快速进阶

4.1 DataFrame创建

创建行和列都为自定义值的DataFrame

from pandas import DataFrame
import numpy as np
kwargs = dict(
    index = ['上海','北京','广州','天津'],
    columns = ['one', 'two', 'three', 'four']
)
df = DataFrame(np.arange(16).reshape(4,4), **kwargs)
df

image.png

4.2 DataFrame删除多行

image.png

4.3 DataFrame删除多列

image.png

4.4 DataFrame选出多行

选出第2、 3行，即选出索引为1、2的行，代码如下：
注意，df.iloc 不是方法，是类似于列表list的可迭代对象，所以后面必须接中括号[ ]

image.png

4.5 DataFrame选出多列

选出第2、 3列，即选出索引为1、 2的列，代码如下：

image.png

在不知道列名的情况下实现：

image.png

练习

Step 1. 导入相应的模块

import pandas as pd
import numpy 
from pandas import Series,DataFrame
import matplotlib.pyplot as plt

Step 2. 给定的原始数据集

# Create an example dataframe about a fictional army
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],
            'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'],
            'deaths': [523, 52, 25, 616, 43, 234, 523, 62, 62, 73, 37, 35],
            'battles': [5, 42, 2, 2, 4, 7, 8, 3, 4, 7, 8, 9],
            'size': [1045, 957, 1099, 1400, 1592, 1006, 987, 849, 973, 1005, 1099, 1523],
            'veterans': [1, 5, 62, 26, 73, 37, 949, 48, 48, 435, 63, 345],
            'readiness': [1, 2, 3, 3, 2, 1, 2, 3, 2, 1, 2, 3],
            'armored': [1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1],
            'deserters': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
            'origin': ['Arizona', 'California', 'Texas', 'Florida', 'Maine', 'Iowa', 'Alaska', 'Washington', 'Oregon', 'Wyoming', 'Louisana', 'Georgia']}

Step 3. 根据原始数据集创建一个DataFrame，并赋值给变量army

army = DataFrame(raw_data,columns=raw_data.keys())

Step 4. 设置给定数据中的origin字段为DataFrame的列名，即columns的值，结果如下所示

army.index = army.origin
del army['origin']
army

image.png

Step 5. 打印列名为veterans的所有值，效果如下:

army['veterans']

image.png

Step 6. 打印列名为 'veterans' 和 'deaths' 的所有数据

army[['veterans','deaths']]

image.png

Step 7. 打印出所有的列索引的值

army.columns

image.png

Step 8. 筛选出列 regiments 的值不为"Dragoons"的所有数据，如下所示
方法一：

army.iloc[army['regiment'].values != 'Dragoons']

方法二：

army[army['regiment'] != 'Dragoons']

方法二又等同于army.iloc[army['regiment'] != 'Dragoons']

image.png

附加题：筛选出如下所示的数据，即第3到7行，第3到6列的所有数据

army.iloc[range(3,8)][army.columns[3:7]]

image.png

想学习更多关于Pandas的知识，请查看作者的《Pandas入门2》
链接：https://www.jianshu.com/p/2ca0ef0d659f

Pandas入门

Pandas入门

1.导入库

2.创建Series取索引

3.Pandas基本数据类型-DataFrame

3.1 可以用于构造DataFrame的数据

3.2 读取DataFrame中的数据

3.3 DataFrame增加列

3.4 DataFrame删除列

3.5 DataFrame转置

3.6 DataFrame取值

4.Pandas快速进阶

4.1 DataFrame创建

4.2 DataFrame删除多行

4.3 DataFrame删除多列

4.4 DataFrame选出多行

4.5 DataFrame选出多列

练习

相关阅读更多精彩内容

友情链接更多精彩内容