4.1 ndarray:多维数组
数组使得你可以使用类似于标量数据运算的操作,作用于大量数据。
ndarray存储同类型的数据,有两个属性:shape
返回一个tuple,描述每一个维度的尺寸,dtype
返回数据类型。
创建数组
ndarray的默认数据类型为float64。
np.array
函数
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
函数名称 | 功能 |
---|---|
np.zeros(tuple) ,zeros_like | 返回全是0的数组,tuple用于指定维度 |
ones,ones_like | 返回全是1的数组,tuple用于指定维度 |
empty(tuple), empty_like() | 返回空数组,没有进行初始化,要小心 |
full, full_like | 返回给定类型和shape,填充为fill value 的值 |
eye,identity | 返回n维单位矩阵 |
数据类型
ndarray属性的dtype存储类型。numpy中的类型可以与c或Fortran进行对比和交互。
使用astype
函数进行转换。
- float转换为int时,会截断小数点后的值。
- 如果你的数组内容是代表数字的string,可以使用
a.astype(np.float64)
进行转换。 - astype函数总是创建一个新数组
算数运算
数组使得我们不需要写for循环就可以操作大量数据,这在numpy中称为向量化(vectorization)。任何相同size的数组的算数运算都等同于每个对应的元素的算数运算
不同size的数组运算称为广播(broadcasting) 在附录A进行介绍
基本的索引和切片
一维数组
形式上像列表索引,其实质是对原数组的view,这意味着,对这个view的操作会映射到原数组上。
a=np.arange(10)
a[5:8]=12
print(a)
arr = a[5:8]
arr[:]=23
print(a)
==========================output
[ 0 1 2 3 4 12 12 12 8 9]
[ 0 1 2 3 4 23 23 23 8 9]
从上面还可以看到,如果将一个标量传递给一个数组,那么该值会发生广播。
如果确实需要拷贝,可以使用ndarray的copy函数,例如
arr[5:8].copy()
多维数组
对于多维数组,最外侧的是axis0,后面依次是axis1,axis2。对于二维数组,可以理解成行(axis0),列(axis1).
在索引时,可以使用array[0][2]
形式,也可以使用array[0,2]
形式。当索引数量小于维数时,得到的是小一维的数组,例如:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d[0]
=========================
array([[1, 2, 3],
[4, 5, 6]])
多维数组切片时,也是分别针对每一维进行切片,只有一个数字则只切axis0. arr2d[1,:2]
arr2d[1:3,2:4]
记住,切片是view,会改变原数组。
布尔索引 boolean indexing
使用boolean索引返回True对应的元素组成的数组。在进行条件组合时,使用&
|
~
进行“和,或,求反”,不要使用python内置的and,or。
布尔索引总是创建copy。
对于二维数据的操作,使用pandas将会更方便。
花式索引 fancy indexing
使用一个整数数组的形式进行索引。会按照索引数组的顺序抽取数组元素组成新的数组。
如果传递两个整数数组,则会将两个整数数组配对成tuple,抽取tuple对应的元素,形成一维数组。
如果传递一个全索引:
,和整数数组,则会按照整数数组的顺序抽取数组元素组成新数组,类似于使用一个整数数组的情况,但是可以指定到任意维度。
arr = np.arange(32).reshape((8,4))
print("Origin:\n",arr)
print("arr[[1,5,7,2]]:\n",arr[[1,5,7,2]])
print("arr[[1,5,7,2],[0,1,0,1]]:\n",arr[[1,5,7,2],[0,1,0,1]])
print("arr[[1,5,7,2]][[0,3,1,2],:]\n",arr[[1,5,7,2]][[0,3,1,2],:])
===================================================
Origin:
[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]
[12 13 14 15]
[16 17 18 19]
[20 21 22 23]
[24 25 26 27]
[28 29 30 31]]
arr[[1,5,7,2]]:
[[ 4 5 6 7]
[20 21 22 23]
[28 29 30 31]
[ 8 9 10 11]]
arr[[1,5,7,2],[0,1,0,1]]:
[ 4 21 28 9]
arr[[1,5,7,2]][[0,3,1,2],:]
[[ 4 5 6 7]
[ 8 9 10 11]
[20 21 22 23]
[28 29 30 31]]
花式索引会常见数组的复制,生成一个新数组
数组转置和轴变换(transposing arrays and swapping axes)
转置也是一种view,不产生新数组
ndarray有transpose()方法或T
属性都可以求转置。转置在使用np.dot
方法求内积时很有用。
对于多维数组,transpose方法接受一个tuple,指明将原axis按照tuple的顺序进行交换,以三维为例:
a.transpose(2,1,0)
则 $a_{ijk} = b_{kji}$ ,a.transpose(1,2,0)
则 $a_{ijk}=b_{jki}$
a.T
是swapaxes
方法的一种简写,使用swapaxes需要提供两个axis,这两个互换。同样可以使用transpose方法实现。a.T
相当于所有axis倒过来。
arr = np.arange(16).reshape((2,2,4))
arr2 = arr.transpose(1,2,0)
print('origin:\n',arr)
print('arr.transpose(1,2,0):\n',arr2)
print('{0:d} == {1:d}'.format(arr[0,1,3],arr2[1,3,0]))
arr3 = arr.swapaxes(1,2)
print(arr3 == arr.transpose(0,2,1))
print(arr.swapaxes(0,2) == arr.transpose(2,1,0))
print(arr.T == arr.transpose(2,1,0))
=====================================output
origin:
[[[ 0 1 2 3]
[ 4 5 6 7]]
[[ 8 9 10 11]
[12 13 14 15]]]
arr.transpose(1,2,0):
[[[ 0 8]
[ 1 9]
[ 2 10]
[ 3 11]]
[[ 4 12]
[ 5 13]
[ 6 14]
[ 7 15]]]
7 == 7
[[[ True True]
[ True True]
[ True True]
[ True True]]
[[ True True]
[ True True]
[ True True]
[ True True]]]
[[[ True True]
[ True True]]
[[ True True]
[ True True]]
[[ True True]
[ True True]]
[[ True True]
[ True True]]]
[[[ True True]
[ True True]]
[[ True True]
[ True True]]
[[ True True]
[ True True]]
[[ True True]
[ True True]]]
4.2 全局方法universal function
universal function 或称为ufunc,是对array的每个元素进行处理,可以将其看成是普通函数的向量化封装。
分为:
- 一元ufunc:abs,fabs, sqrt, square, exp, log, log10, log2, log1p, sign, ceil, floor, rint, modf, isnan, isfinite, isinf, cos, cosh, sin, sinh, tan, tanh, logical_not(~arr)
- 二元ufunc(需要两个参数):add, subtract, multiply, divide, floor_divide, power, maximum, fmax, minimum, fmin, mod, copysign, greater, greater_equal, less, less_equal, equal, not_equal, logical_and, logical_or, logical_xor
ufunc一般返回一个数组,特别地,modf返回小数部分和整数部分两个数组。
ufunc 一般可以使用out
参数指定结果输出到那个数组,通过将该值制定为原数组可以实现对其更改(operate in-place).
4.3 数组导向编程
通过向量化来完成,这样就不用写循环遍历了。这种速度快1,2个量级。broadcasting是向量化的十分重要的工具。后面会讲。
这里使用np.meshgrid
来举例。np.meshgrid
用于产生坐标网格,接受n个1-D数组,$x_i$ , 返回n个shape为($l_1$,$l_2$ ,$\dots$ ,$l_n$ )的ndarray。其中$l_i$ = len($x_i$ )。
条件判断 np.where
np.where
接受三个参数,一个boolean array,2个array-like,分别记为x,y。如果boolarray为真,则取x的值,否则取y的值。x,y可以不是array,可以是scale。
np.where(arr>0, 2, -2)
: 将arr中大于0的置为2,其他的置为-2
np.where(arr>0, 2, arr)
: arr中大于0的置为2, 其他的不变。
数学和统计方法
基本的统计方法有:sum, mean, std, var, min, max, argmin, argmax, cumsum, cumprod
使用时可以调用array实例的方法,也可以使用Numpy的顶层函数(使用np.sum(array))
向mean,sum可以接受axis参数,用于指定对于哪个轴进行计算。
argmax, argmin 返回最大,最小值的索引
cumsum, cumprod 是累计加和(从0开始)或累乘(从1开始)得到一个新数组。
arr = np.random.randn(3,4)
print(arr.mean())
print(np.sum(arr))
print(arr.mean(axis=0))
print(arr.cumsum(axis=0))
布尔数组的方法
- 使用sum()统计True的个数
- 使用any(),如果有一个True就返回True
- 使用all(),所有都为True返回True
排序
使用np.sort进行排序。返回一个排序后的拷贝。对于多维数组,可以使用axis参数直接指定对那个轴进行排序。
集合操作
对于1维数组,numpy有一些几何操作:
- unique(x) : 返回排序后的,x数组的集合
- intersect1d(x,y): 返回排序后的,x,y共有元素
- union1d(x,y): 返回排序后的x,y并操作
- in1d(x,y): 返回boolean array, x in y
- setdiff1d(x,y): 差集,在x,不在y的元素
- setxor1d(x,y): 在x或在y,但是不同时在的元素