整个 NumPy 库的基础是 ndarray 对象。它是一种由同质元素组成的多维数组,元素数量市事先指定好的。同质指的是几乎所有元素的类型和大小都相同。 事实上,还有一个叫 dtype 的 NumPy 对象来指定;每个 ndarray 只有一种 dtype 类型。
np.shape 数组的型 即数组的维数以及元素数量,数组的维统称为轴(用 ndim 属性来确定),轴的数量称作秩
itemsize 定义了数组中每个元素的长度为几个字节
用逗号分隔的数据集称之为CSV(Command-Separated Value,逗号分隔值)数据集,他是一种常见的文件格式,用来储存批量的数据。
CSV 文件只能有效存储和读取一维和二维数组,因为更高的维度无法更直观的在文本中显现
- ndarray.ndim
数组的维数
- ndarray.shape
数组几行几列。对于具有 n 行和 m 列的矩阵, shape
将是 (n,m)
- ndarray.reshape
改变数组的行列 ndarray.reshape(m,n)
,数组将被变成m
行n
列的数组
-
ndarray.size
数组元素的总数。这等于shape
的元素的乘积。
一、创建数组
- numpy.array()
- 创建的是数组,接收以 list 和 tuple 形式的数据
- 可以使用
shape
和dtype
方法查看数组的维度和数据格式
- 自带的数组创建方法
#生成一个各元素均为1的数组
np.ones((3, 3))
#指定一个 3x3 的二维数组
np.zeros((3, 3))
#这两个函数默认使用 float64 数据类型
np.arange(0, 10)
#生成一个数值序列的数组 第三个参数是步长
# reshape 按照指定的形状将一维数组拆分成不同的部分
np.arange(0,12).reshape(3, 4)
# 将头和尾的数字所指定的范围分成几个部分
np.linspace(0, 10, 5) #将 0~9 分成 5 个部分
# 生成 3 个随机数
np.random.random(3)
二、基本操作
基本的加减乘除都支持,另外还可以 求正弦值或者平方根,也支持自增自减
特别说明 * 代表各元素对应位置相乘,与矩阵的乘法不一样
1.矩阵积
np.dot() # 矩阵乘法 矩阵 A*B 不等于 B*A
2.通用函数
universal function 通常叫做 ufunc
支持 三角函数 log 以及平方根
np.sqrt()
np.sin()
np.log() # 有一点这个 log 是以谁为底的
3.聚合函数
求数组最大值最小值等等
np.sum()
np.min()
np.max()
np.mean() # 返回平均值
np.std() # 返回标准差
三、索引 切片 迭代
1.索引
对于一维数组来说,跟 list 差不多, 方括号内可以传入多个索引值,用逗号隔开
二维数组 采用[行索引, 列索引]
a[1, 2] # 表示第一行第二列
请注意
x[0,2] = x[0][2]
但是第二种情况效率更低,因为一个新的临时数组在第一个索引后创建了,这个临时数组随后才被2这个数字索引。
分片操作不会引发 copy 操作,而是创建原 ndarray 的 view; 它们所指向的内存是同一片区域,无论修改原 ndarray 还是修改 view, 都会同时改变二者的值。
#由值3,3,1,8组成的索引数组创建长度为4的数组,
#然后将其替换为在原数组中相应索引的值。
x = np.arange(10, 1, -1)
array([10, 9, 8, 7, 6, 5, 4, 3, 2])
x[np.array([3, 3, 1, 8])]
array([7, 7, 9, 2])
2.切片
一维数组跟 list 差不多
二维需指定行索引和列索引
a[0, :] # 取出第一行的所有元素
a[:, 0] # 取出第一列的所有元素
a[:2, :2] # 抽取一个 2x2 的矩阵
a[[0,2], 0:2] # 如果抽取的行或列的索引不连续,可以将这几个索引放到数组中
3.迭代
如果想遍历矩阵的每个元素,可以遍历 a.flat
for item in a.flat:
print item
更优雅的遍历 apply_along_axis() 函数
# 对矩阵 A 的每一列进行求去平均值
np.apply_along_axis(np.mean, axis=0, arr=A)
# axis=0 对列操作, axis=1 对行操作
# 也可以字节定义函数替换 np.mean
四、条件和布尔数组
# 数组 A 中的值将会被替换成 bool 值
a < 0.5
# 挑选出符合条件的数组,即 a 中所有小于 0.5 的值
a[a < 0.5]
四、形状变换
np.reshape()
a.shape = (3, 4)
a = a.ravel() # 将矩阵变为原来的形状
a.transpose() # 矩阵转置
五、数组操作
a = np.ones((3, 3))
b = np.zeros((3,3))
# 将两个矩阵按照垂直方向合并
np.vstack((a, b))
# 将两个矩阵按照水平方向合并
np.hstack((a, b))
另外用于多个数组之间栈操作的函数是 column_stack() 和 row_stack()。 这两个函数把一维数组作为列或行压入栈结构,以形成一个新的二维数组。
np.hsplit() # 水平切分
np.vsplit() # 垂直切分
# 按列将矩阵 A 切分为 3 部分
[a, b, c] = np.split(A, [1,3], axis=1)
# axis=0 按行切分 axis=1 按列切分
# 与 apply_along_axis 正好相反
六、常用概念
1.对象的副本或视图
a = np.array([1, 2, 3, 4])
b = a
a[2] = 0
b
[1, 2, 0, 4]
将数组 a 赋给数组 b,实际上不是为 a 创建副本,b 只不过是调用数组 a 的另外一种方式,对 a 的任意修改都会影响 b。
数组切片操作返回的对象只是原数组的视图。
列表操作得到的是副本。
如果想为原数组生成一份完整的副本,使用 copy() 函数即可。
七、结构化数组
可以构建更为复杂的数组,称为结构化数组,它包含的是结构或记录而不是独立的元素。
bytes b1
int i1, i2, i4, i8
unsigned ints u1, u2, u4, u8
floats f2, f4, f8
complex c8, c16
fixed length strngs a<n>
structured = np.array([(1, 'First', 0.5, 1+2j),
(2, 'Second', 103, 2-3j),
(3, 'Third', 2.5, 7+2j)],
dtype=('int16, a6, float32, complex64'))
array([(1, 'First', 0.5, 1.+2.j), (2, 'Second', 103. , 2.-3.j),
(3, 'Third', 2.5, 7.+2.j)],
dtype=[('f0', '<i2'), ('f1', 'S6'), ('f2', '<f4'), ('f3', '<c8')])
# 使用更有意义的内容作为字段的名字
structured = np.array([(1, 'First', 0.5, 1+2j),
(2, 'Second', 103, 2-3j),
(3, 'Third', 2.5, 7+2j)],
dtype=[('id', 'i2'), ('position', 'a6'), ('value', 'f4'), ('complex', 'c8')])
array([(1, 'First', 0.5, 1.+2.j), (2, 'Second', 103. , 2.-3.j),
(3, 'Third', 2.5, 7.+2.j)],
dtype=[('id', '<i2'), ('position', 'S6'), ('value', '<f4'), ('complex', '<c8')])
# 也可以更改名字
structured.dtype.names = ('id', 'order', 'value', 'complex')
# 可以通过字段名字来获取数组的某一列
structured['id']
八、数组数据文件的读写
1.二进制文件的读写
data = np.random.random(20)
np.save('saved_data', data)
# 读取的时候文件后缀名要加 npy
data1 = np.load('saved_data.npy')
2.特殊文件
data = np.genfromtxt('data.csv', delimiter=',', names=True)
# 参数:存放数据的文件名,用于分割值的字符和是否含有标题
# 内容为空的项填充为 nan 值
补充
numpy的广播机制还不太了解,有待补充