第四课 - NumPy 入门
本课内容:
- 0. 导入 NumPy 包
- 1. 创建 NumPy 数组
- 2. 索引和切片
- 3. 读取文件
- 4. 布尔型索引
- 5. 数组的运算
- 6. 常用函数举例
NumPy 是 Numerical Python 的简称,是 Python 科学计算的核心包。其强大的科学计算能力在很多高级包中得到应用。比如,在后续课程中的 pandas 就是基于 NumPy 的一种工具包。
numpy主要特点
- 使用向量化操作以简化数据处理,包括取子集,过滤,和变形等等。
- 高效的数据总结,排序功能。
- numpy数组中的元素只能是同一种数据类型
- numpy数组的运算,更简洁且高效
0. 导入 NumPy 包
import numpy as np
1. 创建 NumPy 数组
numpy的一个重要对象(object)是 ndarray, 也称 NumPy 数组
- ndarray 是 Multidimensional Array的缩写,中文称为多(multi)维(dimensional)数组(array)。
- 数组可以存储大量数据并在其进行数学运算,我们可以使用数组在一块数据上进行操作从而避免使用循环来操作单个元素。
1-1. 一维数组
value = [1,2,3]
arr1d = np.array(value)
arr1d
输出:array([1, 2, 3])
& type(arr1d) # 查看数据类型
输出:numpy.ndarray
& arr1d.ndim # 查看维度,返回1,说明是一维数组
输出:1
1-2. 二维数组
value = [[1,2,3],[4,5,6]] # 从二维列表中创建二维数组
arr2d = np.array(value)
arr2d
输出:array([[1, 2, 3],
[4, 5, 6]])
二维数组就类似一个矩阵
| 1 2 3 |
| 4 5 6 |
- 0轴 (axis=0) 是列,也就是垂直方向
- 1轴 (axis=1) 是行,也就是水平方向
- 矩阵对于数据分析来说,是一个重要的概念,一般用列来代表观测对象的各种属性、特征,用行来记录每一个观测对象的一组测量数据。
& arr2d.ndim #查看维度,返回2,代表二维数组
输出:2
& arr2d.shape
输出:(2, 3) # 注意,结果存储在一个元组里
- 使用shape来查看行数以及列数
- arr2d是一个两行三列的二维数组
1-3. 其他快速创建数组的函数
- 一维数组
np.zeros(5) # 创建全0数组
输出:array([ 0., 0., 0., 0., 0.])
np.empty(10) # 创建空数组,其元素的值不一定为0,它返回的是一些未初始化的垃圾值。
输出:array([ -1.72723371e-077, 2.00389882e+000, 1.94100914e-080,
3.90719476e-086, 2.28191497e+232, 4.08955235e-080,
2.55671117e+161, 1.98854918e-081, 3.03467606e-086,
6.95335581e-309])
np.ones(5) # 创建元素都为1的数组
输出:array([ 1., 1., 1., 1., 1.])
np.arange(10)
- np.arange 类似于Python中的range函数,是它的数组版
- 数组元素从0 到 9
输出:array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
np.arange(2, 10, 2)
- 10以内的偶数构成数组
- arange() 中的参数分别是:起始值,终值(不被包含),步长(类似等差数列)
输出:array([2, 4, 6, 8])
np.random.rand(5) # 创建 [0, 1) 之间的随机数
输出:array([ 0.78408467, 0.38615392, 0.20028395, 0.4741344 , 0.8794998 ])
np.random.randint(1, 10, size=8) # 创建指定范围内的随机整数
输出:array([6, 4, 9, 2, 2, 3, 1, 3])
- 二维数组
np.zeros((2,3)) # 输入的是元组
输出:array([[ 0., 0., 0.],
[ 0., 0., 0.]])
np.empty((3,3))
输出:array([[ 4.94065646e-324, 9.88131292e-324, 1.48219694e-323],
[ 1.97626258e-323, 2.47032823e-323, 2.96439388e-323],
[ 3.45845952e-323, 3.95252517e-323, 4.44659081e-323]])
In [17]:
np.random.rand(3,5)
输出:array([[ 0.61108731, 0.28309232, 0.3224213 , 0.97465818, 0.67250497],
[ 0.42063949, 0.97061055, 0.63820155, 0.53084675, 0.65285927],
[ 0.36935495, 0.4308036 , 0.40956562, 0.42018877, 0.78010878]])
np.random.randint(1, 10, size=(3,5))
输出:array([[9, 5, 7, 9, 4],
[2, 6, 6, 7, 3],
[6, 7, 4, 5, 1]])
2. 索引和切片
选取数组中的元素或者是数据的子集
使用[ ]运算符对数进行切片和索引等操作
2-1. 一维数组
- 一维数组的索引和切片,与Python列表差不多
arr = np.arange(10) # 创建一个一维的数组
arr
输出:array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arr[3] # 一维数组的索引
输出:3
arr[3:7] # 一维数组的切片
输出:array([3, 4, 5, 6])
* 数组切片是原始数组的视图,也就是说数据不会被复制,任何修改都会影响到原有的数组上。
arr2 = arr[3:7]
arr2[0] = 13
arr # arr的元素被改变了
输出:array([ 0, 1, 2, 13, 4, 5, 6, 7, 8, 9])
* 如果要对数组的切片进行复制,需要使用.copy()
方法
arr = np.arange(10)
arr3 = arr[3:7].copy() # 使用.copy()
arr3[0] = 13
arr # arr的元素没有被改变
输出:array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
2-2. 二维数组
mat = np.arange(1,17) # 用一维数组来生成二维数组
mat.shape = (4, 4)
mat
输出:array([[ 1, 2, 3, 4],
[ 5, 6, 7, 8],
[ 9, 10, 11, 12],
[13, 14, 15, 16]])
- 获取二维数组的某一行
- 对于二维数组,每个索引对应的是一个一维数组!
mat[0] # 对应第0行
输出:array([1, 2, 3, 4])
* 获取二维数组的行
* mat[起始行:终结行] :从起始行开始,但不包括终结行
* mat[起始行:] : 从起始行到最后一行
* mat[: 终结行] : 从第0行到终结行但不包括终结行
mat[1:3] #等价于mat[[1,2]]
输出:array([[ 5, 6, 7, 8],
[ 9, 10, 11, 12]])
- 类似于列表切片,查看第二和第三行
- ndarray的切片是沿着行方向的
- 和列表切片一样,第三行是不包括的
* 获取二维数组的行和列
* 查看某一个元素,有两种方式
mat[1][3] # 先获取第一行,再查找第三列
输出:8
mat[1,3] # 用一个逗号来隔开行和列的索引
输出:8
* 索引和切片的混用
方括号第一个参数指定要取的行位置,第二个参数指定要取得列位置,中间使用逗号隔开
mat[0:3, 1] # 取出第0行到第2行,第1列
输出:array([ 2, 6, 10])
mat[2:, 2:]
输出:array([[11, 12],
[15, 16]])
- 可以同时在行和列同时做切片
- 取出第1行到最后一行,第2列到第3列
3. 读取文件
wine_data = np.genfromtxt('winequality-red.csv', delimiter=';', skip_header=1)
wine_data
输出:array([[ 7.4 , 0.7 , 0. , ..., 0.56 , 9.4 , 5. ],
[ 7.8 , 0.88 , 0. , ..., 0.68 , 9.8 , 5. ],
[ 7.8 , 0.76 , 0.04 , ..., 0.65 , 9.8 , 5. ],
...,
[ 6.3 , 0.51 , 0.13 , ..., 0.75 , 11. , 6. ],
[ 5.9 , 0.645, 0.12 , ..., 0.71 , 10.2 , 5. ],
[ 6. , 0.31 , 0.47 , ..., 0.66 , 11. , 6. ]])
读取红酒品质数据,原数据以分号进行分隔,并且跳过第一行
数据文件中第一行是字段名,属于字符串类型,而numpy数组的所有元素必须是一致的数据类型,故需要跳过第一行,否则会出错。
wine_data.shape # 查看数组的形状,行和列
输出:(1599, 12)
wine_data.dtype # 查看数组中元素的类型
输出:dtype('float64')
wine = wine_data[:10, [8,10,11]]
- 取前10行数据中的8,10,11列,分别对应红酒的PH值、酒精度、质量评分这三类属性#
为简单起见,后续将使用这组数据进行分析示例
wine
输出:array([[ 3.51, 9.4 , 5. ],
[ 3.2 , 9.8 , 5. ],
[ 3.26, 9.8 , 5. ],
[ 3.16, 9.8 , 6. ],
[ 3.51, 9.4 , 5. ],
[ 3.51, 9.4 , 5. ],
[ 3.3 , 9.4 , 5. ],
[ 3.39, 10. , 7. ],
[ 3.36, 9.5 , 7. ],
[ 3.35, 10.5 , 5. ]])
4. 布尔型索引
- 之前的切片索引方法是通过指定行或列的位置来取一个数组的一部分
- 顾名思义,布尔索引是通过一个布尔型数组来确定所需要的行或者列的位置
- 当行或列位置对应的布尔索引为True的时候,我们会保留这个行或列。反之,当对应的布尔索引为False的时候,则不选取。
例1:获取评分大于5的红酒数据
wine[:, 2] > 5# 第2列数据代表质量评分
输出:array([False, False, False, True, False, False, False, True, True, False], dtype=bool)
wine[wine[:, 2] > 5]
输出:array([[ 3.16, 9.8 , 6. ],
[ 3.39, 10. , 7. ],
[ 3.36, 9.5 , 7. ]])
例2:获取评分大于5,且酒精度大于等于10的红酒数据
mask = (wine[:,2] > 5) & (wine[:,1] >= 10)
mask
- 第1列代表酒精度,第2列代表评分
- 使用布尔运算符 (& , | ) 来组合多个布尔条件
输出:array([False, False, False, False, False, False, False, True, False, False], dtype=bool)
wine[mask]
输出:array([[ 3.39, 10. , 7. ]])
5. 数组的运算
5-1. 数组与单个数之间的运算
mat / 2 # 每个元素都除以2
输出:array([[ 0.5, 1. , 1.5, 2. ],
[ 2.5, 3. , 3.5, 4. ],
[ 4.5, 5. , 5.5, 6. ],
[ 6.5, 7. , 7.5, 8. ]])
mat ** 2 # 每个元素都平方
输出:array([[ 1, 4, 9, 16],
[ 25, 36, 49, 64],
[ 81, 100, 121, 144],
[169, 196, 225, 256]])
(mat + 100) / 100
输出:array([[ 1.01, 1.02, 1.03, 1.04],
[ 1.05, 1.06, 1.07, 1.08],
[ 1.09, 1.1 , 1.11, 1.12],
[ 1.13, 1.14, 1.15, 1.16]])
例:将红酒评分数据转换成百分制,即原评分乘以10
score = wine[:, 2] # 获取评分数据的数组
score
输出:array([ 5., 5., 5., 6., 5., 5., 5., 7., 7., 5.])
score * 10
输出:array([ 50., 50., 50., 60., 50., 50., 50., 70., 70., 50.])
- Numpy 数组的任何算数运算,都会将运算运用到元素级别。
- 这样的矢量化运算是NumPy 数组的优势, Python列表要实现这一操作就需要编写循环。
5-2. 数组与数组之间的运算
- 两个行列数相符的数列可以进行运算
- 运算操作将应用到数列中对应的每一个元素
mat + mat # 两个数组相加
输出:array([[ 2, 4, 6, 8],
[10, 12, 14, 16],
[18, 20, 22, 24],
[26, 28, 30, 32]])
np.add(mat, mat)
输出:array([[ 2, 4, 6, 8],
[10, 12, 14, 16],
[18, 20, 22, 24],
[26, 28, 30, 32]])
mat * mat
- 两个数组相乘, 也可以使用np.multiply函数实现
- 对应元素之间的乘法,不同于线性代数中的矩阵相乘
输出:array([[ 1, 4, 9, 16],
[ 25, 36, 49, 64],
[ 81, 100, 121, 144],
[169, 196, 225, 256]])
例:将每一行的红酒数据与第0行数据进行比较,即计算与第0行数据的差值
wine - wine[0]
- 注意,这里两个数组的大小不同
- 大小不同的数组之间的运算叫做广播
输出:array([[ 0. , 0. , 0. ],
[-0.31, 0.4 , 0. ],
[-0.25, 0.4 , 0. ],
[-0.35, 0.4 , 1. ],
[ 0. , 0. , 0. ],
[ 0. , 0. , 0. ],
[-0.21, 0. , 0. ],
[-0.12, 0.6 , 2. ],
[-0.15, 0.1 , 2. ],
[-0.16, 1.1 , 0. ]])
6. 常用函数举例
wine
输出:array([[ 3.51, 9.4 , 5. ],
[ 3.2 , 9.8 , 5. ],
[ 3.26, 9.8 , 5. ],
[ 3.16, 9.8 , 6. ],
[ 3.51, 9.4 , 5. ],
[ 3.51, 9.4 , 5. ],
[ 3.3 , 9.4 , 5. ],
[ 3.39, 10. , 7. ],
[ 3.36, 9.5 , 7. ],
[ 3.35, 10.5 , 5. ]])
例1:计算红酒数据每一个属性的平均值(即每一列数据的平均值)
np.sum(wine)
- 首先用np.sum()获取数据的和
- 这里将数组中的所有元素相加了,但是我们想要的是每一列数据的和
输出:185.55000000000001
np.sum(wine, axis=0) # 使用axis参数来设置求和的方式, axis=0表示对列求和,axis=1表示对行求和
输出:array([ 33.55, 97. , 55. ])
np.sum(wine, axis=0) / len(wine) # 每列的总和除以行数,得到每列的均值
输出:array([ 3.355, 9.7 , 5.5 ])
np.mean(wine, axis=0) # 直接使用np.mean()函数,但记得设置axis参数
输出:array([ 3.355, 9.7 , 5.5 ])
例2:找到红酒数据每一项属性中的最大和最小值
np.max(wine, axis=0)
输出:array([ 3.51, 10.5 , 7. ])
np.min(wine, axis=0)
输出:array([ 3.16, 9.4 , 5. ])
例3:将红酒数据中的PH值数据进行排序
np.sort(wine[:, 0])
输出:array([ 3.16, 3.2 , 3.26, 3.3 , 3.35, 3.36, 3.39, 3.51, 3.51, 3.51])
例4:找出红酒数据中都有哪几种评分,即求评分数据中不重复的打分
np.unique(wine[:,2])
输出:array([ 5., 6., 7.])
例5:生成一组新的数据,如果评分大于5,其值为‘Good’;如果评分小于等于5,其值为‘Bad'
new = list() # 使用循环和判断语句
for s in wine[:,2] :
if s > 5 :
new.append('Good')
else:
new.append('Bad')
new
输出:['Bad', 'Bad', 'Bad', 'Good', 'Bad', 'Bad', 'Bad', 'Good', 'Good', 'Bad']
[('Good' if s > 5 else 'Bad') for s in wine[:,2]] # 使用列表解析
输出:['Bad', 'Bad', 'Bad', 'Good', 'Bad', 'Bad', 'Bad', 'Good', 'Good', 'Bad']
np.where(wine[:,2] > 5, 'Good', 'Bad') # 使用np.where()函数
输出:array(['Bad', 'Bad', 'Bad', 'Good', 'Bad', 'Bad', 'Bad', 'Good', 'Good',
'Bad'],
dtype='<U4')