利用Python进行数据分析-NumPy基础

本文出自<利用Python进行数据分析 第2版>  侵删

NumPy

NumPy 是Python数值计算最重要的基础包,可以高效处理大数组的数据.

NumPy的ndarray:一种多维的数组对象

ndarray是一个快速而又灵活的同构数据多维容器,是一个N维数组对象,其中所有的元素对象必须要是相同的数据类型,每一个对象包含一个元组和一个属性,分别是shape(一个表示各维度大小的元组)和dtype(一个说明数组数据类型的对象)

创建ndarray

创建ndarray最简单的方法是使用array函数,它接受一切序列型的对象(包括其它数组),然后产生一个新的含有传入数据的NumPy数组

In [1]: list1 = (1,2,3)
In [3]: import numpy as np
In [5]: data = np.array(list1)

In [6]: data
Out[6]: array([1, 2, 3])

嵌套序列会被转换成一个多维的数组,array函数会为新建的数组推断出一个较为合适的数据类型,数据类型保存在一个特殊的dtype对象中

In [7]: list2 = [[1,2,3],[4,5,6]]

In [8]: data2 = np.array(list2)

In [9]: data2
Out[9]: 
array([[1, 2, 3],
       [4, 5, 6]])

In [10]: data2.shape  #查看维度大小
Out[10]: (2, 3)

In [11]: data2.dtype #查看元素类型
Out[11]: dtype('int64')

常用函数

zeros:创建指定长度或者形状全为0的数组

ones:创建指定长度或者形状全为1的数组

empty:可以创建一个没有任何具体值的数组

使用这些方法创建数组,只需要传入一个可以表示形状的元组便可

In [12]: np.zeros((10))
Out[12]: array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [13]: np.ones((2,3))
Out[13]: 
array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

In [14]: np.empty((2,3,4))
Out[14]: 
array([[[  6.94667955e-310,   4.65986064e-310,   6.94667972e-310,
           6.94667971e-310],
        [  6.94667972e-310,   6.94667971e-310,   6.94667852e-310,
           6.94667972e-310],
        [  6.94667852e-310,   6.94667852e-310,   3.55727265e-321,
           5.53353523e-322]],

       [[  0.00000000e+000,   6.94667867e-310,   6.94666603e-310,
           6.94666605e-310],
        [  6.94666603e-310,   6.94667969e-310,   6.94666603e-310,
           6.94667725e-310],
        [  6.94667974e-310,   6.94666603e-310,   6.94667974e-310,
           6.94667971e-310]]])

arange是Python内置函数range的数组版

In [15]: np.arange(10)
Out[15]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
数组创建函数

备注:数据类型基本都是float64(浮点数)


NumPy的数据类型

NumPy的数据类型

创建时可以指定类型

In [21]: data2 = np.array([1,2,3],dtype=np.float64)

In [22]: data2
Out[22]: array([ 1.,  2.,  3.])

In [23]: data2.dtype
Out[23]: dtype('float64')

创建后可以修改类型,astype函数

In [24]: data2.astype(int)
Out[24]: array([1, 2, 3])

In [25]: data2.dtype   #注意,astype只会返回转换后的类型,但并不会实际地去转换元素类型  
Out[25]: dtype('float64')

NumPy数组的运算

数组不需要通过循环便可执行批量运算

In [51]: arr = np.array([[1., 2., 3.], [4., 5., 6.]])

In [52]: arr
Out[52]: 
array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

In [53]: arr * arr   #乘
Out[53]: 
array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

In [54]: arr - arr  #减
Out[54]: 
array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])
In [55]: 1 / arr  #除
Out[55]: 
array([[ 1.    ,  0.5   ,  0.3333],
       [ 0.25  ,  0.2   ,  0.1667]])

In [56]: arr ** 0.5 #指数
Out[56]: 
array([[ 1.    ,  1.4142,  1.7321],
       [ 2.    ,  2.2361,  2.4495]])

大小相同的数组可以产生布尔值数组
大小不同的数组之间的运算叫做广播

In [57]: arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

In [58]: arr2
Out[58]: 
array([[  0.,   4.,   1.],
       [  7.,   2.,  12.]])

In [59]: arr2 > arr
Out[59]:
array([[False,  True, False],
       [ True, False,  True]], dtype=bool)

切片和索引

NumPy产生的切片是视图,而并非是新的对象,当将一个标量值传给一个切片时,如arr[5:8]=12时,该值会自动传播到整个选区,这意味这在视图上,任意数据的修改都会影响到源数组

In [32]: data2 = np.array([1,2,3])

In [33]: data3 = data2[1:2]

In [34]: data3
Out[34]: array([2])

In [35]: data3[0] = 12     #通过索引去赋值,也可以通过索引去访问

In [36]: data3
Out[36]: array([12])

In [37]: data2
Out[37]: array([ 1, 12,  3])

切片[:]会给所有值赋值,例如arr[:] = 13
NumPy对数据的处理不包括复制粘贴的优势将体现在处理大规模的数据中 ,如果我们需要的是一份副本而不是一个视图的话,我们可以使用arr[5:8].copy()
索引的返回值可为元素也可为数组

In [39]: arr
Out[39]: 
array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [40]: arr[1]
Out[40]: 
array([[ 7,  8,  9],
       [10, 11, 12]])

In [41]: arr[1,1]    #访问索引以(1,1)开头的那些值
Out[41]: array([10, 11, 12])

In [45]: arr[:1,1:,2:3]  #切片的用法基本一致
Out[45]: array([[[6]]])

切片示意图

布尔型索引

常用于数据的匹配

In [46]: names = np.array(['wt','Bob'])

In [47]: scores = np.array([90,80])

In [48]: names == 'wt'
Out[48]: array([ True, False], dtype=bool)

In [49]: scores[names == 'wt']
Out[49]: array([90])

注意:布尔型数组的长度需要匹配对应数组的最高维度,在匹配的同事,我们还可以索引列,例如scores[name == 'wt',2:],还可以通过这样来赋值,例如:scores[names == 'wt'] = 0
备注:~操作符可以用来反转条件,例如cond = names == 'wt',~cond就等同于names != 'wt'
还有一点值得注意的是:Python关键字and和or在布尔型数组中无效,要使用&和|.

花式索引

数组装置

转置是重塑的一种特殊形式,它返回的是源数据的视图,不会进行任何的复制操作,转置使用数组的T属性
高维数组的装置需要使用transpose

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [11]: arr.T
Out[11]: 
array([[ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.]])

计算矩阵内积

使用np.dot(arr1, arr2)来计算两个矩阵的内积

通用函数:快速的元素级数组函数

通用函数是一种对ndarray中的数据执行元素级运算的函数

In [15]: arr1 = np.array([2,2])

In [16]: np.sqrt(arr1)
Out[16]: array([ 1.41421356,  1.41421356])
常用的ufunc

常用的ufunc

常用的ufunc

常用的ufunc

常用的ufunc

将条件逻辑表述为数组运算

假设我们想根据cond中的值来选取xarr和yarr的值

In [29]: xarr = np.array([1.1,1.2,1.3,1.4,1.5])

In [30]: yarr = np.array([2.1,2.2,2.3,2.4,2.5])

In [31]: cond = np.array([True,False,True,True,False])

In [32]: result = [(x if c else y) for x,y,c in zip(xarr,yarr,cond)]

In [33]: result
Out[33]: [1.1000000000000001, 2.2000000000000002, 1.3, 1.3999999999999999, 2.5]

等同于

In [34]: result = np.where(cond,xarr,yarr)

In [35]: result
Out[35]: array([ 1.1,  2.2,  1.3,  1.4,  2.5])

np.where的第二个和第三个不必是数组,它们都可以是标量值.在数据分析的工作中,where的工作通常是根据一个数组产生另一个数组.假设一个由随机数组组成的矩阵,大于零的数都变成3,小于0的数都变成-3,若此时用利用where,则会变得非常方便

In [36]: arr = np.random.randn(6,6)

In [37]: arr
Out[37]: 
array([[-1.45536948, -0.01610929, -0.02849423, -0.82497092,  1.05006367,
        -0.20924655],
       [-0.4434815 , -0.33147041, -0.61486327, -0.5423556 ,  1.512384  ,
        -1.35921009],
       [-0.53875138, -0.25256538,  0.32190533, -0.20779243,  0.48525456,
         0.97019284],
       [ 0.12193935, -0.26348046,  0.86740783, -0.32927907,  0.35186663,
         2.24697225],
       [-0.49439342,  0.38880278,  0.52902035,  0.86600846,  1.31413569,
         0.58566283],
       [ 0.34011322,  0.96141724, -1.00353822, -0.30896308, -1.03500063,
        -0.43719574]])

In [38]: arr>0
Out[38]: 
array([[False, False, False, False,  True, False],
       [False, False, False, False,  True, False],
       [False, False,  True, False,  True,  True],
       [ True, False,  True, False,  True,  True],
       [False,  True,  True,  True,  True,  True],
       [ True,  True, False, False, False, False]], dtype=bool)

In [39]: np.where(arr>0,3,-3)
Out[39]: 
array([[-3, -3, -3, -3,  3, -3],
       [-3, -3, -3, -3,  3, -3],
       [-3, -3,  3, -3,  3,  3],
       [ 3, -3,  3, -3,  3,  3],
       [-3,  3,  3,  3,  3,  3],
       [ 3,  3, -3, -3, -3, -3]])

In [40]: np.where(arr>0,3,arr)   #把大于0的数赋值为3,其余赋值arr
Out[40]: 
array([[-1.45536948, -0.01610929, -0.02849423, -0.82497092,  3.        ,
        -0.20924655],
       [-0.4434815 , -0.33147041, -0.61486327, -0.5423556 ,  3.        ,
        -1.35921009],
       [-0.53875138, -0.25256538,  3.        , -0.20779243,  3.        ,
         3.        ],
       [ 3.        , -0.26348046,  3.        , -0.32927907,  3.        ,
         3.        ],
       [-0.49439342,  3.        ,  3.        ,  3.        ,  3.        ,
         3.        ],
       [ 3.        ,  3.        , -1.00353822, -0.30896308, -1.03500063,
        -0.43719574]])

In [41]: np.where(arr>0,arr,3)    #把大于0的赋值为arr,其余赋值为3 
Out[41]: 
array([[ 3.        ,  3.        ,  3.        ,  3.        ,  1.05006367,
         3.        ],
       [ 3.        ,  3.        ,  3.        ,  3.        ,  1.512384  ,
         3.        ],
       [ 3.        ,  3.        ,  0.32190533,  3.        ,  0.48525456,
         0.97019284],
       [ 0.12193935,  3.        ,  0.86740783,  3.        ,  0.35186663,
         2.24697225],
       [ 3.        ,  0.38880278,  0.52902035,  0.86600846,  1.31413569,
         0.58566283],
       [ 0.34011322,  0.96141724,  3.        ,  3.        ,  3.        ,
         3.        ]])

数学和统计方法

image.png

image.png

用于布尔型数组的方法

In [47]: arr = np.array([-1,2,-3])

In [48]: (arr > 0).sum()  #计算元素大于0的个数
Out[48]: 1

另外还有两个方法any和all,它们对布尔型数组非常有用。any用于测试数组中是否存在一个或多个True,而all则检查数组中所有值是否都是True:

In [192]: bools = np.array([False, False, True, False])

In [193]: bools.any()
Out[193]: True

In [194]: bools.all()
Out[194]: False

这两个方法也能用于非布尔型数组,所有非0元素将会被当做True。

排序

In [195]: arr = np.random.randn(6)

In [196]: arr
Out[196]: array([ 0.6095, -0.4938,  1.24  , -0.1357,  1.43  , -0.8469])

In [197]: arr.sort()

In [198]: arr
Out[198]: array([-0.8469, -0.4938, -0.1357,  0.6095,  1.24  ,  1.43  ])

唯一化以及其它集合逻辑

NumPy提供了一些针对ndarray的基本集合运算,最常用的是np.unique

In [56]: arr = np.array(['wt','jm','wt'])   

In [57]: np.unique(arr)   #找到唯一值,并返回
Out[57]: 
array(['jm', 'wt'],
      dtype='<U2')
常用的集合运算

线性代数

NumPy提供了一个用于矩阵乘法的dot函数(既是一个数组方法也是numpy命名空间中的一个函数)


与线性代数相关的方法

伪随机数的生成

numpy.random模块对Python内置的random进行了补充,增添一些可以高效生成多种概率发布的样本值的方法


常用的函数

常用的函数
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容