Numpy的布尔索引与花式索引

目录

  • 布尔索引
  • 花式索引 (Fancy Indexing)
  • 二者的联系?

申明:本文中提到的数组就是特指numpy的数据结构ndarray,同理,一维数组或者N维数组,也是指一维活着N维ndarray。

参考资料:
(https://docs.scipy.org/doc/numpy/reference/arrays.indexing.html#indexing)
Python for Data Analysis 2nd Edition

布尔索引

我们可以通过一个布尔数组来索引目标数组,以此找出与布尔数组中值为True的对应的目标数组中的数据(后面通过实例可清晰的观察)。需要注意的是,布尔数组的长度必须与目标数组对应的轴的长度一致。下面通过几个例子来说明。

一维数组的索引

布尔数组中,下标为0,3,4的位置是True,因此将会取出目标数组中对应位置的元素。

In [24]: arr = np.arange(7)

In [25]: booling1 = np.array([True,False,False,True,True,False,False])

In [26]: arr[booling1]
Out[26]: array([0, 3, 4])
二维数组的索引

布尔数组中,下标为0,3,4的位置是True,因此将会取出目标数组中第0,3,4行。

In [27]: arr = np.arange(28).reshape((7,4))

In [28]: arr
Out[28]: 
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27]])

In [29]: booling1 = np.array([True,False,False,True,True,False,False])

In [30]: arr[booling1]
Out[30]: 
array([[ 0,  1,  2,  3],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

我们还可以通过数组的逻辑运算来作为索引(实际上数组的逻辑运算的结果,也就是一个布尔数组)。假设我们有一个长度为7的字符串数组,然后对这个字符串数组进行逻辑运算,进而把元素的结果(布尔数组)作为索引的条件传递给目标数组(本质上,和上面那个例子是类似的)。例如,还是上面例子中的数组arr,现在就胡乱想象成每一行数据是一个人的一个月其中四天赚的钱。这7行中,可能有某些行属于特定的人,那就想象成不同月份赚到的钱。

In [35]: names = np.array(['Ben','Tom','Ben','Jeremy','Jason','Michael','Ben'])

In [36]: names == 'Ben'
Out[36]: array([ True, False,  True, False, False, False,  True], dtype=bool)

# 找出Ben赚的钱的明细
In [37]: arr[names == 'Ben']
Out[37]: 
array([[ 0,  1,  2,  3],
       [ 8,  9, 10, 11],
       [24, 25, 26, 27]])

# 在此基础上,我们还可以添加常规的索引和切片操作
In [38]: arr[names == 'Ben',3]
Out[38]: array([ 3, 11, 27])

In [39]: arr[names == 'Ben',1:4]
Out[39]: 
array([[ 1,  2,  3],
       [ 9, 10, 11],
       [25, 26, 27]])

上面的例子,通过逻辑运算把属于Ben的明细找了出来。那如果我们想查找不属于Ben的明细,则可以通过!=或者~运算。这种逻辑运算,还可以用来做数据清洗,后面会介绍到。

In [40]: arr[names!='Ben']
Out[40]: 
array([[ 4,  5,  6,  7],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

In [41]: arr[~(names=='Ben')]
Out[41]: 
array([[ 4,  5,  6,  7],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

多个逻辑运算的与和或也是支持的。例如,找出Tom或者Jason的明细,并且想对他们残忍点,把他们的钱都清零。

In [44]: arr[(names == 'Jason') | (names == 'Tom')]
Out[44]: 
array([[ 4,  5,  6,  7],
       [16, 17, 18, 19]])

In [45]: arr[(names == 'Jason') | (names == 'Tom')] = 0

In [46]: arr
Out[46]: 
array([[ 0,  1,  2,  3],
       [ 0,  0,  0,  0],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [ 0,  0,  0,  0],
       [20, 21, 22, 23],
       [24, 25, 26, 27]])

除此之外,我们也可以目标数组上做逻辑运算。实际上,这种逻辑运算的到的结果是和目标数组维度和长度都一样的布尔数组。例如,找出arr中大于15的元素,与上面的例子不一样,这个例子返回的结果是一个一维数组。

In [51]: arr[arr>15]
Out[51]: array([16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27])

借上面的例子引申一下,假设现在想把上述数组中,小于或者等于15的数归零,类似于数据清洗,那么可以通过下面的方式。

In [139]: arr
Out[139]: 
array([[ 0,  1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12, 13],
       [14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27]])

In [140]: arr[arr<=15]=0

In [141]: arr
Out[141]: 
array([[ 0,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  0,  0],
       [ 0,  0, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27]])

花式索引 (Fancy Indexing)

花式索引是NumPy用来描述使用整型数组(这里的数组,可以是NumPy的数组,也可以是python自带的list)作为索引的术语,其意义是根据索引数组的值作为目标数组的某个轴的下标来取值。对于使用一维整型数组作为索引,如果目标是一维数组,那么索引的结果就是对应位置的元素;如果目标是二维数组,那么就是对应下标的行。

In [69]: arr = np.array(['zero','one','two','three','four'])

In [70]: arr[[1,4]]
Out[70]: 
array(['one', 'four'],
      dtype='<U5')
      

In [71]: arr = np.empty((8,4),dtype=np.int)

In [72]: for i in range(8):
    ...:     arr[i] = i
    ...:     

In [73]: arr
Out[73]: 
array([[0, 0, 0, 0],
       [1, 1, 1, 1],
       [2, 2, 2, 2],
       [3, 3, 3, 3],
       [4, 4, 4, 4],
       [5, 5, 5, 5],
       [6, 6, 6, 6],
       [7, 7, 7, 7]])
In [75]: arr[[4,3,0,6]]
Out[75]: 
array([[4, 4, 4, 4],
       [3, 3, 3, 3],
       [0, 0, 0, 0],
       [6, 6, 6, 6]])

In [76]: arr[[-3,-5,-7]]
Out[76]: 
array([[5, 5, 5, 5],
       [3, 3, 3, 3],
       [1, 1, 1, 1]])

对于使用两个整型数组作为索引的时候,那么结果是按照顺序取出对应轴的对应下标的值。特别注意,这两个整型数组的shape应该一致,或者其中一个数组应该是长度为1的一维数组(与NumPy的Broadcasting机制于关系)。例如,以[1,3,5],[2,4,6]这两个整型数组作为索引,那么对于二维数组,则取出(1,2),(3,4),(5,6)这些坐标对应的元素。

In [77]: arr = np.arange(42).reshape(6,7)

In [78]: arr
Out[78]: 
array([[ 0,  1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12, 13],
       [14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27],
       [28, 29, 30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39, 40, 41]])

In [79]: arr[[1,3,5],[2,4,6]]
Out[79]: array([ 9, 25, 41])

二者的联系?

个人的猜想是,布尔索引和花式索引之间,是有联系的。窃以为布尔索引是通过花式索引来实现的(虽然不100%确定,但是我个人感觉可以这么理解。各位请自行判断)。为什么这么说?先来看看官方的文档对布尔索引的说明:

Boolean array indexing
A single boolean index array is practically identical to x[obj.nonzero()]

上面的意思,不就是说x[obj]是等价x[obj.nonzero()](这里obj是一个布尔数组)。我们来验证一下:

In [112]: arr = np.arange(12).reshape(3,4)

In [113]: i = np.array([True,False,True])

In [114]: i.nonzero()
Out[114]: (array([0, 2]),)

In [115]: arr[i]
Out[115]: 
array([[ 0,  1,  2,  3],
       [ 8,  9, 10, 11]])

In [116]: arr[i.nonzero()]
Out[116]: 
array([[ 0,  1,  2,  3],
       [ 8,  9, 10, 11]])

通过以上例子可知大概的关系:arr[i] <=> arr[i.nonzero()] => arr[(array([0,2]),)] => arr[array([0,2]),] => arr[[0,2]](到此为止就是花式索引了)。在来看一个复杂点的例子:

In [131]: i
Out[131]: array([ True, False,  True], dtype=bool)

In [132]: j
Out[132]: array([ True,  True, False, False], dtype=bool)

In [133]: i.nonzero()
Out[133]: (array([0, 2]),)

In [134]: j.nonzero()
Out[134]: (array([0, 1]),)

In [135]: arr[i,j]
Out[135]: array([0, 9])

# 这里不大清楚,为什么结果是一个二维数组
In [136]: arr[i.nonzero(),j.nonzero()]
Out[136]: array([[0, 9]])

In [137]: arr[[0,2],[0,1]]
Out[137]: array([0, 9])
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容