最后一次更新日期: 2019/4/13
NumPy 是一个 Python 包。 它代表 “Numeric Python”。 它是一个由多维数组对象(ndarray)和用于处理数组的例程集合组成的库。
使用NumPy,开发人员可以执行以下操作:
- 数组的算数和逻辑运算。
- 傅立叶变换和用于图形操作的例程。
- 与线性代数有关的操作。 NumPy 拥有线性代数和随机数生成的内置函数。
使用前先导入模块:
import numpy as np
1. 索引
通过ndarray[index1,index2...]
的形式指定索引。
(1). 定位元素
In [452]: a=np.array([[1,2],[3,4]])
In [453]: a[1,1]
Out[453]: 4
(2). 数据切片
In [454]: a[:,1]
Out[454]: array([2, 4])
In [455]: a[0:1,:]
Out[455]: array([[1, 2]])
通过low:high
的形式限定索引范围,区间前闭后开,上下限留空表示不限制。
标量值索引会使对应维度消失,范围索引则不会。
(3). 倒序索引
In [457]: a[-1,:-1]
Out[457]: array([3])
-n
表示倒数第n个。
(4). 按步长选取
In [458]: a[0:2:2]
Out[458]: array([[1, 2]])
通过low:high:step
的形式限定索引范围和步长。
(5). 序列反转
In [459]: a[::-1]
Out[459]:
array([[3, 4],
[1, 2]])
等效于a[-1:-len(a)-1:-1]
。
(6). 布尔索引
In [460]: a>2
Out[460]:
array([[False, False],
[ True, True]], dtype=bool)
In [461]: (a>2)&(a<4)
Out[461]:
array([[False, False],
[ True, False]], dtype=bool)
In [462]: a[(a>2)&(a<4)]
Out[462]: array([3])
对ndarray
应用逻辑运算符会得到布尔索引,布尔索引标识了每个元素符合逻辑判断条件的情况,使用该索引筛选数组将得到所有满足条件的元素构成的一维数组。
(7). 数组索引
In [463]: a[[0,1],[1]]
Out[463]: array([2, 4])
In [464]: a[[0,1],[1,0]]
Out[464]: array([2, 3])
将对应轴上需要选取的索引以数组形式传入,当在多个轴上传入数组索引时,索引会被一一对应。支持list,tuple,ndarray,支持倒序索引。
(8). 综合示例
获取第二列大于2的行的第一列
In [465]: a[a[:,1]>2,0]
Out[465]: array([3])
获取二维数组的顶角元素
In [466]: a[[0,-1]][:,[0,-1]]
Out[466]:
array([[1, 2],
[3, 4]])
In [467]: a[[0,0,-1,-1],[0,-1,0,-1]].reshape((2,2))
Out[467]:
array([[1, 2],
[3, 4]])
此处使用的reshape
重塑方法会在重构章节讲到。
(9). 获取布尔索引指示的位置
In [473]: a>2
Out[473]:
array([[False, False],
[ True, True]], dtype=bool)
In [474]: np.where(a>2)
Out[474]: (array([1, 1], dtype=int64), array([0, 1], dtype=int64))
In [476]: a[np.where(a>2)]
Out[476]: array([3, 4])
In [477]: np.where(a>2,a,-a)
Out[477]:
array([[-1, -2],
[ 3, 4]])
只输入数组时,内部会调用nonzero
方法,返回值为一个tuple
,包含每个轴上的索引值序列。
通过第二个参数x
和第三个参数y
,可以根据是否满足条件对元素进行不同的计算,返回同样形状的数组。
(10). 特定值查找
指定值序列
In [655]: a=np.arange(5)
In [656]: np.isin(a,[3,4])
Out[656]: array([False, False, False, True, True], dtype=bool)
第二个参数test_elements
为指定值序列,返回布尔索引。
值排序搜索
In [683]: a=np.array([1,3,5,7,9])
In [684]: np.searchsorted(a,[3,6])
Out[684]: array([1, 3], dtype=int64)
第一个参数a
为升序一维数组,非升序可通过第四个参数指定排序sorter=np.argsort(a)
,第二个参数v
为需要被插入a
的值或值序列,第三个参数side
为判断方式,'left'
表示a[i-1] < v <= a[i]
,'right'
表示a[i-1] <= v < a[i]
。该方法将逐个搜索v的每个元素在升序数组a中合适的插入位置,返回数组索引。
空值
In [661]: a=np.array([np.nan,1,2,3])
In [662]: np.isnan(a)
Out[662]: array([ True, False, False, False], dtype=bool)
返回布尔索引。
(11). 返回索引的方法
函数 | 作用 | 说明 |
---|---|---|
np.argsort | 返回排序后索引 | - |
np.argmax | 返回最大值索引 | - |
np.argmin | 返回最小值索引 | - |
np.argpartition | 返回分区索引 | 第二个参数kth 指定用于分区的元素索引 |
np.argwhere | 返回符合条件的值索引 | 和np.where 类似,但返回值的形式不太适合索引 |
np.where | 返回符合条件的值索引 | - |
np.isin | 返回判断元素是否在指定列表中的布尔索引 | 第二个参数test_elements 为指定的值序列 |
np.isnan | 返回判断元素是否nan值的布尔索引 | - |
np.searchsorted | 返回待插入值在升序序列中的插入位置 | 第一个参数a 为升序一维数组,第二个参数v 为待插入值 |
np.digitize | 返回分箱后的索引 | 第二个参数bins 指定分箱方式 |
2. 遍历
(1). 序列结构遍历
a=np.array([[1,2],[3,4]])
for buf1 in a:
for buf2 in buf1:
print(buf2)
(2). 索引遍历
for i in range(a.shape[0]):
for j in range(a.shape[1]):
print(a[i,j])
以上两种方法在遍历元素时,维数是多少就要嵌套多少层循环,效率不算高,但可以在每一层循环中嵌入额外的计算。
(3). 快速迭代器遍历
for item in np.nditer(a):
print(item)
默认选择元素的顺序是和数组内存布局一致的,而不是使用标准C或者Fortran顺序。这是为了使用效率而设计的,这反映了默认情况下只需访问每个元素,而无需考虑其特定顺序。可通过order
参数来指定特定的顺序来访问数组。
(4). 平铺迭代器遍历
for item in a.flat:
print(item)
将数组转换为1-D的迭代器。
3. 抽样
(1). 无放回抽样
In [506]: a=np.array([[1,2],[3,4]])
In [507]: idx=np.random.choice(np.arange(a.shape[0]),size=1,replace=False)
In [508]: a[idx]
Out[508]: array([[3, 4]])
(2). 有放回抽样
In [511]: idx=np.random.randint(0,a.shape[0],size=3)
In [512]: a[idx]
Out[512]:
array([[1, 2],
[3, 4],
[1, 2]])
也可使用np.random.choice(np.arange(a.shape[0]),size=3)
生成索引。
以上都是在单个轴方向上抽样,如果想在多个轴方向上抽样,由于抽样后必然会破坏数组结构,建议先将用于抽样的轴展开,比如用reshape
方法,见下面的示例,关于reshape
方法的说明在重构章节。
(3). 多轴方向抽样
In [524]: a=np.array([[[1,2],[3,4]],[[5,6],[7,8]]])
In [525]: a2=a.reshape((2,4))
In [526]: idx=np.random.randint(0,a2.shape[0],size=2)
In [527]: a2[:,idx]
Out[527]:
array([[1, 2],
[5, 6]])
4. 视图
在对数组进行了索引切片后,返回的通常是原数组的一个视图,不会完整的拷贝数据,因此在这种情况下进行更新操作会影响到原数组和所有视图。
可通过ndarray.view()
方法获得一个完整视图,等效于ndarray[:,:,...]
。
想将视图转换为拷贝可使用ndarray.copy()
方法。
In [542]: a=np.array([[1,2],[3,4]])
In [543]: a2=a[1,:]
In [544]: a2
Out[544]: array([3, 4])
In [545]: a2[:]=0
In [546]: a
Out[546]:
array([[1, 2],
[0, 0]])