数据索引和选择

数据索引和选择

第2章,我们详细研究用于在NumPy数组中访问、设置和修改值的方法和工具。这些包括索引(例如,arr[2,1]),切片(如,arr[:,1:5]),过滤(如,arr[arr>0]),花式索引(fancy indexing)(如arr[0,[1,5]])及其组合(如,arr[:,[1,5]]).这儿,我们将研究相似的方式用于访问,修改Pandas中Series和DataFrame对象的值。
如果你曾经用过NumPy模板,对Pandas中的模板将会感觉很熟悉,虽然有一些技巧需要注意。
我们将从一维Series对象的简单例子开始,然后移到复杂些的二维DataFrame对象。

Series中的数据选择

如我们在前面章节所见,Series对象的许多行为与一维Numpy数组相像,也在许多方面像标准的python字典。如果我们记住这两个重叠的类比,这将有助于我们理解这些数组中数据的索引和选择模式。

Series作为字典

像字典一样,Series对象提供了从键集合到值集合的映射。

import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data
a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
data['b']
0.5

我们也可以使用字典类似的Python表达式和方法来检查键/切片和值:

'a' in data
True
data.keys()
Index(['a', 'b', 'c', 'd'], dtype='object')
list(data.items())
[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Series对象甚至可以使用字典相似的语法进行修改。就如你可以通过增加新键来扩展字典,你也能通过赋给新的索引值来扩展Series

data['e'] = 1.25
data
a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

对象的简单易变性是一个方便的特性:在底层,Pandas随时考虑内存布局以及可能发送的数据拷贝活动。用户通常不必担心这些问题。

Series作为一维数组

Series建立了以与字典操作相似的接口,并且提供了与NumPy数组同样风格的数据项(item)选择,包括切片,过滤和花式索引。例子如下:

# slicing by explicit index 通过显示索引切片
data['a':'c']
a    0.25
b    0.50
c    0.75
dtype: float64
# slicing by implicit integer index 通过非显示的整数索引切片
data[0:2]
a    0.25
b    0.50
dtype: float64
# masking 过滤
data[(data > 0.3) & (data < 0.8)]
b    0.50
c    0.75
dtype: float64
# fancy indexing 花式索引
data[['a', 'e']]
a    0.25
e    1.25
dtype: float64

在这些方法之中,切片方法可能带来最多的困惑。注意当使用显示索引切片的时候(如 data['a':'c']),最后的索引使包含在切片中的。然而当使用非显示索引(如,data[0:2])时,切片结果不包含最后的索引值

索引器:loc,iloc和ix

这些切片和索引做法可能会带来困惑。例如,如果你的Series有显示的整数索引,诸如data[1]这样的索引操作将会使用显示索引,而像data[1:3]这样的切片操作将会使用非显示的python风格索引。

data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data
1    a
3    b
5    c
dtype: object
# explicit index when indexing 索引取值时使用显示索引
data[1]
'a'
# implicit index when slicing 切片时使用非显示索引
data[1:3]
3    b
5    c
dtype: object

为了避免整型索引带来的潜在困惑,Pandas提供了一些特殊的索引器属性,这些属性清晰的指定某种索引方案。它们不是功能方法,只是一些为访问Series数据而提供的特定切片接口的属性。
首先,loc属性允许索引操作和切片总是引用显示索引:

data.loc[1]
'a'
data.loc[1:3]
1    a
3    b
dtype: object

iloc属性允许索引操作和切片总是引用python风格的非显示索引:

data.iloc[1]
'b'
data.iloc[1:3]
3    b
5    c
dtype: object

第三个索引属性,ix,是前面两个的混合,对于Series对象它等同与标准的基于[]的索引操作。ix索引器的目的在随后讨论的DataFrame对象环境中会更明显。
Python代码的一个指导原则是“清晰胜过不清晰”。loc和iloc的清晰特性使它们在维护整洁可读代码时更有用;特别时在整数索引的情况下,建议使用这两种属性来让代码易于阅读和理解,并且它们容易减少由于混淆索引/切片约定带来而带来的那些不易察觉的bug。

DataFrame的数据选择

我们记得DataFrame的行为在许多方面像二维结构数组,在另外的方面有些像共享同样索引的Series结构字典。将这些类比记在心里有助于我们理解DataFrame结构的数据选择。

DataFrame作为字典

第一个类比是我们把DataFrame看成相关Series对象的字典。让我们回到州的面积和人口的例子:

area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data
            area        pop
California  423967  38332521
Florida 170312  19552860
Illinois    149995  12882135
New York    141297  19651127
Texas   695662  26448193

构成DataFrame列的那些单个Series可以通过字典风格的列名称索引来访问:

data['area']
California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

同样的,我们也可以使用字符串列名称属性来访问:

data.area
California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

属性风格的列访问实际上与字典风格访问的是同一个对象:

data.area is data['area']
True

虽然这种简记很有用,但我们要记住它并不是在所有情况下都有效!例如,如果列名称不是字符串,或列名称与DataFrame的方法冲突,这种属性风格的访问就会失效。比如,DataFrame有pop()方法,data.pop指向的就不是"pop"列了。

data.pop is data['pop']
False

特别的,你应该抵制通过属性给列赋值的诱惑(如,使用data['pop'] = z 而不是data.pop = z)

data['density'] = data['pop'] / data['area']
data
            area    pop     density
California  423967  38332521    90.413926
Florida 170312  19552860    114.806121
Illinois    149995  12882135    85.883763
New York    141297  19651127    139.076746
Texas   695662  26448193    38.018740

这里简要的展示了Series对象间元素的直接算术语法。我们将对它在Operating on Data in Pandas章进行深入的挖掘。

DataFrame作为二维数组

如之前提到的,DataFrame可以被看做是增强的二维数组。我们可以使用values属性来检查数组中的原始数据:

data.values
array([[  4.23967000e+05,   3.83325210e+07,   9.04139261e+01],
       [  1.70312000e+05,   1.95528600e+07,   1.14806121e+02],
       [  1.49995000e+05,   1.28821350e+07,   8.58837628e+01],
       [  1.41297000e+05,   1.96511270e+07,   1.39076746e+02],
       [  6.95662000e+05,   2.64481930e+07,   3.80187404e+01]])

记住这点,许多数组上的操作也可以用在DataFrame上。例如,我们可以转置整个DataFrame来交换行和列:

data.T
California  Florida Illinois    New York    Texas
area    4.239670e+05    1.703120e+05    1.499950e+05    1.412970e+05    6.956620e+05
pop 3.833252e+07    1.955286e+07    1.288214e+07    1.965113e+07    2.644819e+07
density 9.041393e+01    1.148061e+02    8.588376e+01    1.390767e+02    3.801874e+01

但是,当涉及DataFrame对象的索引时,很显然字典风格的列索引阻止我们简单将它看成是NumPy数组。特别的,传递一个单索引给数组来访问一行:

data.values[0]
array([  4.23967000e+05,   3.83325210e+07,   9.04139261e+01])

传递一个单“索引”来访问一列:

data['area']
California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

因此对于数组风格的索引,我们需要另外的约定。Pandas在这里使用的还是之前提到的loc,iloc和ix索引器。使用iloc索引器,我可以对基础数组进行索引,就像它是简单的NumPy数组一样,只是DataFrame索引和列标签保持在结构里面。

data.iloc[:3, :2]
    area    pop
California  423967  38332521
Florida 170312  19552860
Illinois    149995  12882135

类似的,使用loc索引器我们可以以数组类似的风格对基础数据进行索引,只是它使用的是显示的索引值和列名称:

data.loc[:'Illinois', :'pop']
    area    pop
California  423967  38332521
Florida 170312  19552860
Illinois    149995  12882135

ix索引器允许两种方法的混合:

data.ix[:3, :'pop']
    area    pop
California  423967  38332521
Florida 170312  19552860
Illinois    149995  12882135

记住对于整数索引,ix索引器仍然有同Series对象整型索引一样的令人混淆的问题。
任何熟悉的NumPy风格的数据访问模式都可以被用在这些索引器上。例如,用loc索引器,我们可以将过滤和花式索引结合在一起。例子如下:

data.loc[data.density > 100, ['pop', 'density']]
    pop density
Florida 19552860    114.806121
New York    19651127    139.076746

每种索引方法都可以被用来设置和修改数据;这和你可能熟悉的NumPy操作是一样的:

data.iloc[0, 2] = 90
data
    area    pop density
California  423967  38332521    90.000000
Florida 170312  19552860    114.806121
Illinois    149995  12882135    85.883763
New York    141297  19651127    139.076746
Texas   695662  26448193    38.018740

为了能熟练的操作Pandas数据,我建议在一个简单的DataFrame上花些时间来探索不同索引方法的,索引,切片,过滤及花式索引操作。

额外的索引规定

有几种额外的索引规定同之前讨论的相比看起来有点奇怪,但是在实践中是非常有用的。首先,索引指的是列,而切片用的是行:

data['Florida':'Illinois']
    area    pop density
Florida 170312  19552860    114.806121
Illinois    149995  12882135    85.883763

这些切片操作也可以按编号而不是索引名称来表示行:

data[1:3]
area    pop density
Florida 170312  19552860    114.806121
Illinois    149995  12882135    85.883763

类似的,直接过滤操作也是按行解释的而不是按列:

data[data.density > 100]
area    pop density
Florida 170312  19552860    114.806121
New York    141297  19651127    139.076746

这两种规定语法上与NumPy数组相似,这些可能不是十分符合Pandas的语法规定,但它们在实际中很有用。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容