NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发,2005 年,Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色,并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。
NumPy 是一个运行速度非常快的数学库,主要用于数组计算,包含:
一个强大的N维数组对象 ndarray
广播功能函数
整合 C/C++/Fortran 代码的工具
线性代数、傅里叶变换、随机数生成等功能
在机器学习中常用的语法如下:
1、ndarray的创建
数组转换:将Python下的list转换为ndarray
import numpy as npdata= [6,7.5,8,0,1]array= np.array(data)输出:array([ 6. , 7.5, 8. , 0. , 1. ])
二维数组
data = [[1,2,3,4],[5,6,7,8]]array = np.array(data)array输出为:array([[1, 2, 3, 4], [5, 6, 7, 8]])
等差数组
np.arange(1,15,2)输出为:array([1,3,5,7,9,11,13])
随机整数数组
data = np.random.randint(0,10,size=(3,4))data输出为:array([[2,2,4,5],[7, 5, 8, 5],[9, 0, 6, 1]])
2、ndarray的数据类型
指定array的数据类型data1 = np.array([1,2,3],dtype=np.int32)data2 = np.array([1,2,3],dtype=np.float32)#查看array的数据类型arr2.dtype### dtype('float32')
3、数组运算
data = np.array([[1,2,3],[4,5,6]],dtype=np.float32)data * data输出:array([[ 1., 4., 9.], [ 16., 25., 36.]], dtype=float32)
4、索引和切片
numpy基本的索引和切片功能和Python列表的操作相似,不过要注意的是numpy中数组切片是原始数组的视图,这意味着数据不会被复制,视图上任何数据的修改都会反映到原数组上,因为numpy被设计用来处理大数据,如果切片不是视图而是复制产生新数据的话,会产生相应的性能和内存问题。如下面的例子,对切片的操作会影响原数组:
arr = np.arange(10)arr[5]# 5arr[5:8]#array([5, 6, 7])arr[5:8]=12t = arr[5:8]t[1] = 12345arr#array([ 0, 1, 2, 3, 4, 12, 12345, 12, 8, 9])
6、数组转置和轴对换
数组的转置是重塑的一种特殊形式,它返回的事原数据的视图。不仅有transpose方法,还有特殊的T属性:
arr = np.arange(15).reshape((5,3))
arr.T
#array([[ 0, 3, 6, 9, 12],
[ 1, 4, 7, 10, 13],
[ 2, 5, 8, 11, 14]])
对于高维数组,tranpose需要得到一个由轴编号组成的元组才能对这些轴进行转置,太费脑子:
arr = np.arange(16).reshape((2,2,4))
arr
#array([[[ 0, 1, 2, 3],
[ 4, 5, 6, 7]],
[[ 8, 9, 10, 11],
[12, 13, 14, 15]]])
arr.transpose((1,0,2))
#array([[[ 0, 1, 2, 3],
[ 8, 9, 10, 11]],
[[ 4, 5, 6, 7],
[12, 13, 14, 15]]])
还可以使用swapaxes函数进行转置,它接受一对轴编号:
arr.swapaxes(1,2)
7、数组函数
通用函数:元素级数组函数
通用函数中,有一元的函数,如abs,sqrt,square,exp,log等等,也有二元的函数maximum、minimum等等,这些都比较简单,我们举两个例子即可:
arr = np.arange(10)
np.sqrt(arr)
x = np.random.randn(8)
y = np.random.randn(8)
np.maximum(x,y)
#array([ 0.68417031, 0.22971426, 1.69724546, 1.19366822, -0.79176777, -0.43557768, 0.66628223, 0.85093113])
where函数
where函数,三个参数,条件,条件为真时选择值的数组,条件为假时选择值的数组:
xarr = np.array([1.1,1.2,1.3,1.4,1.5])
yarr = np.array([2.1,2.2,2.3,2.4,2.5])
cond = np.array([True,False,True,True,False])
np.where(cond,xarr,yarr)
输出为:
array([ 1.1, 2.2, 1.3, 1.4, 2.5])
也可以使用下面的形式,后两个参数为指定值:
np.where(xarr>1.2,2,-2)
#array([-2, -2, 2, 2, 2])
数学和统计方法
数学和统计方法既可以当作数组的实例方法调用,也可以当作顶级numpy函数调用,比如下面两种计算数组均值的方法是等效的:
arr = np.random.randn(5,4)
arr.mean()
np.mean(arr)
mean或sum这一类函数可以接受一个axis参数,用于计算该轴向上的统计值,最终结果是一个少一维的数组。对于一个二维数组,axis=0相当于按列操作,最终元素的个数和第二维的大小相同,axis=1相当于按行操作,最终元素的个数和第一维的大小相同:
arr.mean(axis=1)
#array([ 0.29250253, -0.50119163, 0.11746254, 0.23338843, 0.15912472])
arr.sum(0)
#array([ 1.92728592, 0.67480797, -2.8398905 , 1.44294295])
也可以用cumsum(累加值计算)和cumprod(累积值计算)保留中间计算结果:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr.cumsum(0)
#array([[ 1, 2, 3],
[ 5, 7, 9],
[12, 15, 18]])
arr.cumprod(1)
#array([[ 1, 2, 6],
[ 4, 20, 120],
[ 7, 56, 504]])
排序方法
np中还提供了排序方法,排序方法是就地排序,即直接改变原数组:
arr = np.random.randn(8)
arr
#array([-0.85668922, -2.0049649 , -0.89885165, -0.04185277, 0.73736138,-0.03509021, -1.89745107, -2.36576122])
arr.sort()
arr
#array([-2.36576122, -2.0049649 , -1.89745107, -0.89885165, -0.85668922,-0.04185277, -0.03509021, 0.73736138])
集合运算函数
unique计算x中的唯一元素,并返回有序结果
arr = np.array([1,3,2,5,2,4,2,2,1,4,5,2])
np.unique(arr)
#array([1, 2, 3, 4, 5])
numpy提供了下面三个常见的集合运算函数:
intersect1d(x,y) 用于计算x和y的公共结果,并返回有序结果
union1d(x,y) 用于计算x和y的并集,并返回有序结果
setdiff1d(x,y),集合的差,即元素在x中不在y中
x = np.array([1,2,4,5])
y = np.array([3,4,5])
np.intersect1d(x,y)
#array([4, 5])
np.union1d(x,y)
#array([1, 2, 3, 4, 5])
np.setdiff1d(x,y)
#array([1, 2])
8、线性代数
numpy还提供了许多线性代数运算的函数,比如计算矩阵的乘积:
#矩阵的乘积
x = np.array([[1,2,3],[4,5,6]])
y = np.array([[6,23],[-1,7],[8,9]])
np.dot(x,y)
下面可以计算矩阵的逆、行列式、特征值和特征向量、qr分解值,svd分解值:
#计算矩阵的逆
from numpy.linalg import inv,det,eig,qr,svd
t = np.array([[1,2,3],[2,3,4],[4,5,6]])
inv(t)
#计算矩阵行列式
det(t)
#计算QR分解址
qr(t)
#计算奇异值分解值svd
svd(t)
#计算特征值和特征向量
eig(t)