Pandas入门

整理自Welcome to Python For Data Analysis’s documentation!

预备知识:python基础,线性代数(矩阵运算)基础概念

pandas数据结构

  • Series
  • DataFrame
  • Index数据类型

重要的功能

  • 重新索引
  • 从一个坐标轴删除条目
  • 索引,挑选和过滤
  • 算术和数据对齐、填充

首先用pip安装pandas包,并导入

from pandas import Series, DataFrame
import pandas as pd
import numpy as np
print(pd.__version__)

有两个重要的数据结构: Series 和 DataFrame

pandas数据结构

Series

Series包括index和value,和dict很像,也可以看成一个定长的有序的词典

  • 构造
obj = Series([4, 7, -5, 3])  # 自动添加index
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])  # 指定index

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)  # 从字典创建Series,索引会排序
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)  # 也可以指定索引顺序,但可能有值缺失
  • 检测缺失值:obj4.isnull()

  • 从索引数据访问:obj2['a']

对于Series的value可以直接进行过滤和Numpy的数学操作,就像数组一样

print(obj2[obj2 > 0])
print(obj2 * 2)
print(np.exp(obj2))
  • 数据对齐:执行不同Series之间的运算时,将按索引值对齐后运算。比如执行obj3+obj4

  • name:Series对象本身和它的index都有一个name属性,它和pandas的其它一些关键功能整合在一起:

obj4.name = 'population'
obj4.index.name = 'state'
print(obj4)  # 打印试试看
  • 修改索引:对obj.index重新赋值(dict型)即可

DataFrame

一个Datarame表示一个表格,类似电子表格的数据结构,包含一个经过排序的列表集,它们每一个都可以有不同的类型值(数字,字符串,布尔等等)。

Datarame有行和列的索引;它可以被看作是一个Series的字典(每个Series共享一个索引)。在DataFrame里的面向行和面向列的操作大致是对称的。

在底层,数据是作为一个或多个二维数组存储的,而不是列表,字典,或其它一维的数组集合。

  • 构造:用字典构造,字典的key为列的值,values是等长的列表。
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)  # 自动生成行索引,也可以像Series一样用index指定索引

frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],index=['one', 'two', 'three', 'four', 'five'])  # 用index指定索引,用columns指定列的值

# 使用嵌套的字典构造,外部键会被解释为列索引,内部键会被解释为行索引:
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = DataFrame(pop)  # Nevada是行索引,年份是列索引

还有更多的构造方法

  • 访问:对列进行访问,有两种方式
frame.['state']  # 字典记法
frame.state

对行进行访问,比如通过索引访问一行

frame.ix['three']
  • 数值修改:一列可以通过一个整数或者一个数组赋值。且通过列表或数组给一列赋值时,所赋的值的长度必须和DataFrame的长度相匹配。
frame2.debt = 16.5
frame2.debt = np.arange(5.0)

如果你使用Series来赋值,它会代替在DataFrame中精确匹配的索引的值,并在说有的空洞插入丢失数据:

val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val

给一个不存在的列赋值,将会创建一个新的列。 像字典一样 del 关键字将会删除列

frame2['eastern'] = frame2.state == 'Ohio'
del frame2['eastern']

索引DataFrame时返回的Series是底层数据的一个引用,而不是一份复制的数据。因此,任何在Series上的修改都会影响原来的DataFrame。想要获得复制的数据,可以使用Series的copy函数来显式的拷贝。

  • 属性
    values:frame.values返回一个二维数组
    columns
    index

Index数据类型

用来保存坐标轴标签和其它元数据(如坐标轴名或名称),是不可变

obj = Series(range(3), index=['a', 'b', 'c'])
index = obj.index  # 返回一个Index类型的Numpy数组

Index类型有多种类似集合的方法,见这里;

重要的功能

重新索引

使用reindex重排索引。对于Dataframe可以对index和column都重新索引。

# 对Series重新索引
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)

# 对index和column索引
frame.reindex(index=['a', 'b', 'c', 'd'], method='ffill', columns=states)
# 当reindex的参数只传入一个列表的时候,是对行重新索引

在索引的时候要对数据进行内插或填充,使用method方法

obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3.reindex(range(6), method='ffill')  # ffill或pad前向(或进位)填充,bfill或backfill后向(或退位)填充

# 结果为
#0   blue
#1   blue
#2 purple
#3 purple
#4 yellow
#5 yellow

也可以使用带标签索引的ix可以把重新索引做的更简单:

frame.ix[['a', 'b', 'c', 'd'], states]

从一个坐标轴删除条目

对于Series,使用drop,返回drop掉某些行之后的对象。不改变原来的对象。

obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
new_obj = obj.drop('c')
obj.drop(['d', 'c'])

对于Dataframe,

data = DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])

data.drop(['Colorado', 'Ohio'])  # 删除行
data.drop('two', axis=1)  # 删除列

索引,挑选和过滤

注:这里的索引指的是筛选

Series索引( obj[...] )的工作原理类似与NumPy索引,除了可以使用Series的索引值,也可以仅使用整数来索引。

obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
# 以下方法相同
obj['b']
obj[1]

标签可以切片,与正常的python切片不一样,会把结束点都包含进去。
可以对切片的部分进行赋值。因为切片出来是引用而不是复制的数据。

obj['b':'c'] = 5  # b,c行的数据都为5

DataFrame可以如上面说的按列索引,不过也可以按行索引,比如

data[:2]  # 截取前两行
data[data['three'] > 5]  # 后者返回一个值为bool的Series,满足的行被选择

筛选:

data < 5  # 返回值为bool类型的dataframe
data[data < 5] = 0  # 小于5的值置0

使用ix重新索引:

data.ix[['Colorado',Utah], ['two', 'three']]  # 前面的参数作为行索引,后面的参数作为列名
data.ix[2]  # 选择第3行作为新的Series
data.ix[:'Utah', 'two']  # 可以对行进行切片选择
data.ix[data.three > 5, :3]
obj[val] 功能
obj.ix[val] 从DataFrame的行集选择单行
obj.ix[:, val] 从列集选择单列
obj.ix[val1, val2] 选择行和列
reindex 转换一个或多个轴到新的索引
xs 方法 通过标签选择单行或单列到一个Series
icol, irow 方法 通过整数位置,分别的选择单行或单列到一个Series
get_value, set_value 方法 通过行和列标选择一个单值

参数内可以使用:布尔数组(过滤行),切片(行切片),或bool型的DataFrame(根据一些标准来筛选值)。

算术和数据对齐、填充

带填充值的算术方法

之前已经见过对Datafram做运算的时候会根据行和列的索引自动对齐,缺失的地方引入NA。

对于NA的填充,有如下方法:

# 构造两个DataFrame
df1 = DataFrame(np.arange(12.).reshape((3,4)),columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4,5)),columns=list('abcde'))

df1.add(df2, fill_value=0)  # 如果是fill_value是None,缺失值会被填充为NA,如果是0,会被填充为df2中的值
(df1+df2).fillna(0)  # 缺失值置0

DataFrame 和 Series 间的操作

DataFrame和Series间的算术操作与NumPy数组类似。

按我的理解,Series相当于DataFrame的一行,也就是Series的index是DataFrame的列名。

考虑一个二维数组(Dataframe)和它的一个行(Series)间的相减:

frame = DataFrame(np.arrange(12.).reshape((4, 3)), columns = list('bde'), index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.ix[0]  # 取第一行

frame - series  # frame的每一行会都减去series

如果一个索引在Series的index或者DataFrame的columns中找不到,运算后相应列会被填充为NA。

上面是按行相减。如果想要让Dataframe按列与Series相减,要用到DataFrame.sub方法

series3 = frame['d']
frame.sub(series3, axis=0)  # frame的每一列会都减去series。axis=0表示frame的第0行对齐series3的第一个值进行相减
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容