numpy简要（1）

4.1 ndarray：多维数组

数组使得你可以使用类似于标量数据运算的操作，作用于大量数据。

ndarray存储同类型的数据，有两个属性：shape 返回一个tuple，描述每一个维度的尺寸，dtype 返回数据类型。

创建数组

ndarray的默认数据类型为float64。

np.array 函数

data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)

函数名称	功能
np.zeros(tuple) ，zeros_like	返回全是0的数组，tuple用于指定维度
ones,ones_like	返回全是1的数组，tuple用于指定维度
empty(tuple), empty_like()	返回空数组，没有进行初始化，要小心
full, full_like	返回给定类型和shape，填充为`fill value`的值
eye,identity	返回n维单位矩阵

数据类型

ndarray属性的dtype存储类型。numpy中的类型可以与c或Fortran进行对比和交互。

使用astype函数进行转换。

float转换为int时，会截断小数点后的值。
如果你的数组内容是代表数字的string，可以使用a.astype(np.float64) 进行转换。
astype函数总是创建一个新数组

算数运算

数组使得我们不需要写for循环就可以操作大量数据，这在numpy中称为向量化（vectorization）。任何相同size的数组的算数运算都等同于每个对应的元素的算数运算

不同size的数组运算称为广播（broadcasting） 在附录A进行介绍

基本的索引和切片

一维数组

形式上像列表索引，其实质是对原数组的view，这意味着，对这个view的操作会映射到原数组上。

a=np.arange(10)
a[5:8]=12
print(a)
arr = a[5:8]
arr[:]=23
print(a)
==========================output
[ 0  1  2  3  4 12 12 12  8  9]
[ 0  1  2  3  4 23 23 23  8  9]

从上面还可以看到，如果将一个标量传递给一个数组，那么该值会发生广播。

如果确实需要拷贝，可以使用ndarray的copy函数，例如arr[5:8].copy()

多维数组

对于多维数组，最外侧的是axis0，后面依次是axis1，axis2。对于二维数组，可以理解成行（axis0），列（axis1）.

在索引时，可以使用array[0][2] 形式，也可以使用array[0,2] 形式。当索引数量小于维数时，得到的是小一维的数组，例如：

arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d[0]
=========================
array([[1, 2, 3],
       [4, 5, 6]])

多维数组切片时，也是分别针对每一维进行切片，只有一个数字则只切axis0. arr2d[1,:2] arr2d[1:3,2:4]

记住，切片是view，会改变原数组。

布尔索引 boolean indexing

使用boolean索引返回True对应的元素组成的数组。在进行条件组合时，使用& | ~ 进行“和，或，求反”，不要使用python内置的and，or。

布尔索引总是创建copy。

对于二维数据的操作，使用pandas将会更方便。

花式索引 fancy indexing

使用一个整数数组的形式进行索引。会按照索引数组的顺序抽取数组元素组成新的数组。

如果传递两个整数数组，则会将两个整数数组配对成tuple，抽取tuple对应的元素，形成一维数组。

如果传递一个全索引: ，和整数数组，则会按照整数数组的顺序抽取数组元素组成新数组，类似于使用一个整数数组的情况，但是可以指定到任意维度。

arr = np.arange(32).reshape((8,4))
print("Origin:\n",arr)
print("arr[[1,5,7,2]]:\n",arr[[1,5,7,2]])
print("arr[[1,5,7,2],[0,1,0,1]]:\n",arr[[1,5,7,2],[0,1,0,1]])
print("arr[[1,5,7,2]][[0,3,1,2],:]\n",arr[[1,5,7,2]][[0,3,1,2],:])
===================================================
Origin:
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]
arr[[1,5,7,2]]:
 [[ 4  5  6  7]
 [20 21 22 23]
 [28 29 30 31]
 [ 8  9 10 11]]
arr[[1,5,7,2],[0,1,0,1]]:
 [ 4 21 28  9]
arr[[1,5,7,2]][[0,3,1,2],:]
 [[ 4  5  6  7]
 [ 8  9 10 11]
 [20 21 22 23]
 [28 29 30 31]]

花式索引会常见数组的复制，生成一个新数组

数组转置和轴变换（transposing arrays and swapping axes）

转置也是一种view，不产生新数组

ndarray有transpose()方法或T 属性都可以求转置。转置在使用np.dot 方法求内积时很有用。

对于多维数组，transpose方法接受一个tuple，指明将原axis按照tuple的顺序进行交换，以三维为例：

a.transpose(2,1,0) 则 $a_{ijk} = b_{kji}$ ，a.transpose(1,2,0) 则 $a_{ijk}=b_{jki}$

a.T 是swapaxes 方法的一种简写，使用swapaxes需要提供两个axis，这两个互换。同样可以使用transpose方法实现。a.T 相当于所有axis倒过来。

arr = np.arange(16).reshape((2,2,4))
arr2 = arr.transpose(1,2,0)
print('origin:\n',arr)
print('arr.transpose(1,2,0):\n',arr2)
print('{0:d} == {1:d}'.format(arr[0,1,3],arr2[1,3,0]))
arr3 = arr.swapaxes(1,2)
print(arr3 == arr.transpose(0,2,1))
print(arr.swapaxes(0,2) == arr.transpose(2,1,0))
print(arr.T == arr.transpose(2,1,0))
=====================================output
origin:
 [[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]]
arr.transpose(1,2,0):
 [[[ 0  8]
  [ 1  9]
  [ 2 10]
  [ 3 11]]

 [[ 4 12]
  [ 5 13]
  [ 6 14]
  [ 7 15]]]
7 == 7
[[[ True  True]
  [ True  True]
  [ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]
  [ True  True]
  [ True  True]]]
[[[ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]]]
[[[ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]]]

4.2 全局方法universal function

universal function 或称为ufunc，是对array的每个元素进行处理，可以将其看成是普通函数的向量化封装。

分为：

一元ufunc：abs,fabs, sqrt, square, exp, log, log10, log2, log1p, sign, ceil, floor, rint, modf, isnan, isfinite, isinf, cos, cosh, sin, sinh, tan, tanh, logical_not(~arr)
二元ufunc（需要两个参数）：add, subtract, multiply, divide, floor_divide, power, maximum, fmax, minimum, fmin, mod, copysign, greater, greater_equal, less, less_equal, equal, not_equal, logical_and, logical_or, logical_xor

ufunc一般返回一个数组，特别地，modf返回小数部分和整数部分两个数组。

ufunc 一般可以使用out 参数指定结果输出到那个数组，通过将该值制定为原数组可以实现对其更改（operate in-place).

4.3 数组导向编程

通过向量化来完成，这样就不用写循环遍历了。这种速度快1,2个量级。broadcasting是向量化的十分重要的工具。后面会讲。

这里使用np.meshgrid 来举例。np.meshgrid 用于产生坐标网格，接受n个1-D数组，$x_i$ , 返回n个shape为（$l_1$,$l_2$ ,$\dots$ ,$l_n$ )的ndarray。其中$l_i$ = len($x_i$ )。

条件判断 np.where

np.where 接受三个参数，一个boolean array，2个array-like，分别记为x,y。如果boolarray为真，则取x的值，否则取y的值。x,y可以不是array，可以是scale。

np.where(arr>0, 2, -2) : 将arr中大于0的置为2，其他的置为-2

np.where(arr>0, 2, arr) : arr中大于0的置为2，其他的不变。

数学和统计方法

基本的统计方法有：sum, mean, std, var, min, max, argmin, argmax, cumsum, cumprod

使用时可以调用array实例的方法，也可以使用Numpy的顶层函数（使用np.sum(array))

向mean，sum可以接受axis参数，用于指定对于哪个轴进行计算。

argmax, argmin 返回最大，最小值的索引

cumsum, cumprod 是累计加和（从0开始）或累乘（从1开始）得到一个新数组。

arr = np.random.randn(3,4)
print(arr.mean())
print(np.sum(arr))
print(arr.mean(axis=0))
print(arr.cumsum(axis=0))

布尔数组的方法

使用sum()统计True的个数
使用any()，如果有一个True就返回True
使用all()，所有都为True返回True

排序

使用np.sort进行排序。返回一个排序后的拷贝。对于多维数组，可以使用axis参数直接指定对那个轴进行排序。

集合操作

对于1维数组，numpy有一些几何操作：

unique(x) : 返回排序后的，x数组的集合
intersect1d(x,y): 返回排序后的，x，y共有元素
union1d(x,y): 返回排序后的x，y并操作
in1d(x,y): 返回boolean array, x in y
setdiff1d(x,y): 差集，在x，不在y的元素
setxor1d(x,y): 在x或在y，但是不同时在的元素