笔记|数据分析之NumPy基础---基本的索引和切片

NumPy

NumPy数组的切片与Python中列表的区别在于它的切片是直接对原始数据进行操作,也就是说你做的任何修改都会直接影响到源数据,因为它修改的是内存中的数据。

NumPy数组切片与列表切片的区别

In [36]: arr = np.arange(10)

In [37]: arr
Out[37]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]: arr[3:6]
Out[38]: array([3, 4, 5])

In [39]: arr[3:6] = 10

In [40]: arr
Out[40]: array([ 0,  1,  2, 10, 10, 10,  6,  7,  8,  9])

In [43]: arr2 = arr  #将arr赋值给一个新的数组arr2

In [44]: arr2
Out[44]: array([ 0,  1,  2, 10, 10, 10,  6,  7,  8,  9])

In [45]: arr2[3:6] = 1

In [46]: arr2
Out[46]: array([0, 1, 2, 1, 1, 1, 6, 7, 8, 9])

In [47]: arr  #先前对arr2进行的操作也直接影响到了arr
Out[47]: array([0, 1, 2, 1, 1, 1, 6, 7, 8, 9])

上面其实涉及到了浅拷贝与深拷贝的问题,已经不属于本篇文章的内容暂时不讨论。

NumPy数组的索引与Python列表索引的区别

# 创建NumPy数组arr
In [50]: arr = np.array([[[1, 2, 3],[4, 5, 6]],[[7, 8, 9],[10, 11, 12]]])

In [51]: arr
Out[51]:
array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [52]: arr[0]
Out[52]:
array([[1, 2, 3],
       [4, 5, 6]])

In [53]: arr2 = [[[1, 2, 3],[4, 5, 6]],[[7, 8, 9],[10, 11, 12]]]

In [54]: arr2
Out[54]: [[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]

# 这里分别对它们的元素进行赋值
In [59]: arr[0] = 1

In [60]: arr
Out[60]:
array([[[ 1,  1,  1],
        [ 1,  1,  1]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [55]: arr2[0]
Out[55]: [[1, 2, 3], [4, 5, 6]]

In [57]: arr2[0] = 1

In [58]: arr2
Out[58]: [1, [[7, 8, 9], [10, 11, 12]]]

这里还是因为NumPy中的所有运算都是针对数组的关系,所以就算是数组中元素是个数组,它依旧会对数组进行遍历然后赋值,不会像Python那样把列表强行改成了1。

NumPy数组的切片

它的基本用法和Python切片差不多,这里不再多赘述。具体可以之前写的这篇文章:深度解析Python切片

这里主要分析下在NumPy多维数组中,它的切片是什么样子的

In [61]: arr = np.array([[1, 2, 3],[4, 5, 6],[7, 8, 9]])

In [63]: arr[1:2]
Out[63]: array([[4, 5, 6]])

In [64]: arr[1:2, 0:1]
Out[64]: array([[4]])  # 高维数组的切片输出的结果是一个数组

In [83]: arr[:2, :] = 1

In [84]: arr  # 同样,对高维数组的赋值也会扩散到整个选区
Out[84]:
array([[1, 1, 1],
       [1, 1, 1],
       [7, 8, 9]])

它也支持反向切片


In [98]: arr[-1:0:-1]
Out[98]:
array([[7, 8, 9],
       [1, 1, 1]])

布尔型索引

顾名思义,它意味着ndarray将通过布尔值来索引。布尔值是如何与索引产生联系的?

In [112]: values = np.array([1+2, 2+2, 1+3, 2+3, 5-1, 2+4])

In [114]: values == 4
Out[114]: array([False,  True,  True, False,  True, False])

In [109]: data = np.random.randn(6, 3)

In [110]: data
Out[110]:
array([[-0.2727878 , -0.38506136, -1.17539146],
       [ 0.90674017, -0.8799524 , -1.18851203],
       [ 0.22901328,  2.14870512,  0.22426147],
       [ 1.32918343, -0.62140714, -0.45032477],
       [ 0.34037236,  0.1902144 ,  0.28806536],
       [-2.57158431, -0.77592511,  1.13117563]])

In [115]: data[values == 4]
Out[115]:
array([[ 0.90674017, -0.8799524 , -1.18851203],
       [ 0.22901328,  2.14870512,  0.22426147],
       [ 0.34037236,  0.1902144 ,  0.28806536]])

在这里data[values == 4]最终的取值由它包含的True值的索引值决定。values == 4 就意味着data根据索引124取出对应的数据放到了一个数组中。

布尔型索引还有其他玩法

In [117]: data[values != 4]
Out[117]:
array([[-0.2727878 , -0.38506136, -1.17539146],
       [ 1.32918343, -0.62140714, -0.45032477],
       [-2.57158431, -0.77592511,  1.13117563]])

在条件判断中的&|这两个运算符也能使用,需要注意的是andor则不能在布尔型数组中使用

In [120]: data[(values == 4) | (values == 3)]
Out[120]:
array([[-0.2727878 , -0.38506136, -1.17539146],
       [ 0.90674017, -0.8799524 , -1.18851203],
       [ 0.22901328,  2.14870512,  0.22426147],
       [ 0.34037236,  0.1902144 ,  0.28806536]])

花式索引

花式索引其实是利用整数数组进行索引的方式。

In [134]: arr = np.empty((8, 4))

In [135]: for i in range(8):
     ...:     arr[i] = i
     ...:

In [136]: arr
Out[136]:
array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

整数数组的索引不但能把对应的数据给取出来放入一个数组中,还能将结果与传入数组的顺序相对应

In [137]: arr[[4,3,2,1]]
Out[137]:
array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [2., 2., 2., 2.],
       [1., 1., 1., 1.]])

In [139]: arr[[6, -2, 2, 0]] #它也支持负数索引
Out[139]:
array([[6., 6., 6., 6.],
       [6., 6., 6., 6.],
       [2., 2., 2., 2.],
       [0., 0., 0., 0.]])
# 从数据结果中可以发现,花式索引是将数据复制出来的,我传入的 6与-2就已经说明了。很显然,它和切片还是有一些区别的。

如果传入多个数组索引会发生什么?

In [142]: arr = np.random.randn(10, 4)

In [143]: arr
Out[143]:
array([[-1.43876298, -0.23957973, -1.83891463,  2.08959497],
       [-0.79340387,  0.78143357, -0.61248365, -1.2307146 ],
       [ 0.80405578,  0.53750907,  1.36936934, -0.9900462 ],
       [-0.91811926, -2.09393981,  0.48268699, -0.21606196],
       [ 1.28271354,  0.21576689, -0.15377526, -0.91878478],
       [-1.58513838,  0.58090698,  0.13100848, -0.82052273],
       [ 0.49242816,  2.6476725 , -0.10732899,  2.16061303],
       [-0.95456289,  0.65855723, -0.5262351 , -0.51669448],
       [-1.47027242,  0.34633814, -1.20603468,  0.14270022],
       [ 0.42067564, -0.06938376,  1.31784661,  0.18053118]])

In [144]: arr[[1, 2, 3, 4],[1, 1, 1, 1]]
Out[144]: array([ 0.78143357,  0.53750907, -2.09393981,  0.21576689])

其实它最终是按照(1,1)、(2,1)、(3,1)、(4,1)来取出数据的,和以往的索引方式有很大的区别。

总结

在本章中学到了NumPy索引的一些玩法:
布尔型索引:可以根据另一个数组以条件判断产生的布尔值对其索引。
切片索引:基本操作方式和Python切片差不多,唯一要注意的是它的赋值将会扩散到整个切片区域,还有一点切片索引将会对源数据进行操作,需要特别注意。
花式索引 :很特殊的一种索引方式,脑洞大开的设计居然可以用数组来对数组进行索引,同时还可以对取出的数据进行排序,我想这个排序功能以后会经常使用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,406评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,395评论 3 398
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,815评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,537评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,536评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,184评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,776评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,668评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,212评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,299评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,438评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,128评论 5 349
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,807评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,279评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,395评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,827评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,446评论 2 359

推荐阅读更多精彩内容