单元1:NumPy库入门
数据的维度
从一个数据到一组数据
一个数据:表达一个含义
一组数据:表达一个或多个含义
维度:一组数据的组织形式
一维数据:由对等关系的有序或无序数据构成,采用线性方式组织。
- 列表和数组:一组数据的有序结构
- 区别:列表:数据类型可以不同;数组:数据类型相同。
二维数据:由多个一维数据构成,是一维数据的组合形式。
- 表格是典型的二维数据。
- 其中,表头是二维数据的一部分。
多维数据:由一维或二维数据在新维度上扩展形成。
高维数据:仅利用最基本的二元关系展示数据间的复杂结构。
- 键值对
数据维度的Python表示
一维数据:列表[]和集合{}类型
二维数据:列表类型
多维数据:列表类型
高维数据:字典类型或数据表示格式
NumPy的数组对象:ndarray
NumPy
开源的Python科学计算基础库
- 强大的N维数组对象:ndarray
- 广播功能函数
- 整合C、C++、Fortran代码的工具
- 线性代数、傅里叶变换、随机数生成等功能
NumPy是SciPy、Pandas等库的基础
NumPy的引用
import numpy as np
尽管别名可以省略或更改,建议使用以上方式
N维数组对象:ndarray
例:计算A^2 + B^3,其中A和B为一维数组
def pySum():
a = [0, 1, 2, 3, 4]
b = [9, 8, 7, 6, 5]
c = []
for i in range(len(a)):
c.append(a[i]**2 + b[i]**3)
return c
print(pySum())
用NumPy:
import numpy as np
def npSum():
a = np.array([0, 1, 2, 3, 4])
b = np.array([9, 8, 7, 6, 5])
c = a**2 + b**3
return c
print(npSum())
- 数组对象可以去掉元素间运算所需的循环,使一维向量更像单个数据。
- 设置专门的数组对象,经过优化,可以提升这类应用的运算速度。
观察:科学计算中,一个维度所有数据的类型往往相同。
- 数组对象采用相同的数据类型,有助于节省运算和存储空间。
ndarray是一个多维数组对象,由两部分组成:
- 实际的数据
- 描述这些数据的元数据(数据维度、数据类型等)
ndarray数组一般要求所有元素类型相同(同质),数组下标从0开始。
np.array()
生成一个ndarray数组
轴(axis):保存数据的维度
秩(rank):轴的数量
ndarray对象的属性
属性 | 说明 |
---|---|
.ndim | 秩,即轴的数量或维度的数量 |
.shape | ndarray对象的尺度,对于矩阵,n行m列 |
.size | ndarray对象元素的个数,相当于.shape中n*m的值 |
.dtype | ndarray对象的元素类型 |
.itemsize | ndarray对象中每个元素的大小,以字节为单位 |
ndarray的元素类型
数据类型 | 说明 |
---|---|
bool | 布尔类型,True或False |
inte | 与C语言中的int类型一致,一般是int32或int64 |
intp | 用于索引的整数,与C语言中ssize_t一致,int32或int64 |
int8 | 字节长度的整数,取值:[-128,127] |
int16 | 16位长度的整数,取值:[-32768,32767] |
int32 | 32位长度的整数,取值:[-2^31, 2^31-1] |
int64 | 64位长度的整数,取值:[-2^63, 2^63-1] |
uint8 | 8位无符号整数,取值:[0, 255] |
uint16 | 16位无符号整数,取值:[0, 65535] |
uint32 | 32位无符号整数,取值:[0, 2^32-1] |
uint64 | 64位无符号整数,取值:[0, 2^64-1] |
float16 | 16位半精度浮点数:1位符号位,5位指数,10位尾数 |
float32 | 32位半精度浮点数:1位符号位,8位指数,23位尾数 |
float64 | 64位半精度浮点数:1位符号位,11位指数,52位尾数 |
complex64 | 复数类型,实部和虚部都是32位浮点数 |
complex128 | 复数类型,实部和虚部都是64位浮点数 |
对比:Python语法仅支持整数、浮点数和复数3中类型
- 科学计算涉及数据较多,对存储和性能都有较高要求。
- 对元素类型精细定义,有助于Numpy合理使用存储空间并优化性能。
- 有助于程序员对程序规模有合理评估。
ndarray可以由非同质对象构成。但无法有效发挥NumPy优势,尽量避免使用。
ndarray数组的创建和变换
ndarray数组的创建方法
- 从Python中的列表、元组等类型创建ndarray数组
- 使用NumPy中函数创建ndarray数组,如:arange,ones, zeros等
- 从字节流(raw bytes)中创建ndarray数组
- 从文件中读取特定格式,创建ndarray数组
(1) 从Python中的列表、元组等类型创建ndarray数组
x = np.array(list/tuple)
x = np.array(list/tuple, dtype = np.float32)
当np.array()不指定dtype时,NumPy将根据数据情况关联一个dtype类型。
(2) 使用NumPy中函数创建ndarray数组,如:arange,ones, zeros等
函数 | 说明 |
---|---|
np.arange(n) | 类似range()函数,返回ndarray类型,元素从0到n-1 |
np.ones(shape) | 根据shape生成一个全1数组,shape是元组类型 |
np.zeros(shape) | 根据shape生成一个全0数组,shape是元组类型 |
np.full(shape, val) | 根据shape生成一个全val值数组,shape是元组类型 |
np.eye(n) | 创建一个n阶单位方阵 |
np.ones_like(a) | 根据数组a的形状生成一个全1数组 |
np.zeros_like(a) | 根据数组a的形状生成一个全0数组 |
np.full_lise(a, val) | 根据数组a的形状生成一个全val值数组 |
np.linspace() | 根据起止数据等间距填充数据,形成数组 |
np.concatenate() | 将两个或多个数组合并成一个新的数组 |
a = np.linspace(1, 10, 4)
a
array([ 1., 4., 7., 10.])
b = np.linspace(1, 10, 4, endpoint = False) ##不将10作为结束值
b
array([1. , 3.25, 5.5 , 7.75])
c = np.concatenate((a,b))
c
array([ 1. , 4. , 7. , 10. , 1. , 3.25, 5.5 , 7.75])
ndarray数组的变换
对创建好的ndarray数组,可以对其进行维度变换的元素类型变换
维度变换:
方法 | 说明 |
---|---|
.reshape(shape) | 不改变数组元素,返回一个shape形状的数组,原数组不变 |
.resize(shape) | 与.reshape()功能已知,但修改原数组 |
.swapaxes(ax1, ax2) | 将数组n个维度中两个维度进行调换 |
.flatten() | 对数组进行降维,返回折叠后的一维数组,原数组不变 |
a = np.ones((2,3,4), dtype = np.int32)
a.reshape((3,8))
Out[24]:
array([[1, 1, 1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1, 1, 1]])
a
Out[25]:
array([[[1, 1, 1, 1],
[1, 1, 1, 1],
[1, 1, 1, 1]],
[[1, 1, 1, 1],
[1, 1, 1, 1],
[1, 1, 1, 1]]])
a.resize((3,8))
a
Out[27]:
array([[1, 1, 1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1, 1, 1]])
a.flatten()
Out[28]:
array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1])
a
Out[29]:
array([[1, 1, 1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1, 1, 1]])
类型变换
new_a=a.astype(new_type)
会创建一个新数组,可以用来对原数组进行拷贝
a = np.ones((2,3,4), dtype = np.int)
a
Out[31]:
array([[[1, 1, 1, 1],
[1, 1, 1, 1],
[1, 1, 1, 1]],
[[1, 1, 1, 1],
[1, 1, 1, 1],
[1, 1, 1, 1]]])
b = a.astype(np.float)
b
Out[34]:
array([[[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]],
[[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]]])
向列表的转换
ls = a.tolist()
a = np.full((2,3,4), 25, dtype=np.int32)
a
Out[36]:
array([[[25, 25, 25, 25],
[25, 25, 25, 25],
[25, 25, 25, 25]],
[[25, 25, 25, 25],
[25, 25, 25, 25],
[25, 25, 25, 25]]])
a.tolist()
Out[37]:
[[[25, 25, 25, 25], [25, 25, 25, 25], [25, 25, 25, 25]],
[[25, 25, 25, 25], [25, 25, 25, 25], [25, 25, 25, 25]]]
ndarray数组的操作
对数组的索引和切片
- 索引:获取数组中特定位置的元素
- 切片:获取数组的子集
一维数组的索引和切片:与列表类似
a = np.arange(1,10,1)
a
Out[39]: array([1, 2, 3, 4, 5, 6, 7, 8, 9])
a[2]
Out[40]: 3
a[1:4:2]
Out[41]: array([2, 4])
多维数组的索引
a = np.arange(24).reshape((2,3,4))
a
Out[43]:
array([[[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]],
[[12, 13, 14, 15],
[16, 17, 18, 19],
[20, 21, 22, 23]]])
a[1,2,3]
Out[44]: 23
a[-1,-2,-3]
Out[45]: 17
a[1,2,3]
Out[44]: 23
a[-1,-2,-3]
Out[45]: 17
a[:,1,-3] ##选取一个维度用:
Out[46]: array([ 5, 17])
a[:, 1:3, :] ##每个维度切片方法与一维数组相同
Out[47]:
array([[[ 4, 5, 6, 7],
[ 8, 9, 10, 11]],
[[16, 17, 18, 19],
[20, 21, 22, 23]]])
a[:, :, ::2] ##每个维度可以使用步长跳跃切片
Out[48]:
array([[[ 0, 2],
[ 4, 6],
[ 8, 10]],
[[12, 14],
[16, 18],
[20, 22]]])
ndarray数组的运算
数组与标量之间的运算
作用于数组的每一个元素
例如:计算a与元素平均值的商
a = np.arange(24).reshape((2,3,4))
a
Out[50]:
array([[[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]],
[[12, 13, 14, 15],
[16, 17, 18, 19],
[20, 21, 22, 23]]])
a.mean()
Out[51]: 11.5
a = a/a.mean()
a
Out[53]:
array([[[0. , 0.08695652, 0.17391304, 0.26086957],
[0.34782609, 0.43478261, 0.52173913, 0.60869565],
[0.69565217, 0.7826087 , 0.86956522, 0.95652174]],
[[1.04347826, 1.13043478, 1.2173913 , 1.30434783],
[1.39130435, 1.47826087, 1.56521739, 1.65217391],
[1.73913043, 1.82608696, 1.91304348, 2. ]]])
NumPy一元函数
对ndarray中的数据执行元素级的运算
函数 | 说明 |
---|---|
np.abs(x) np.fabs(x) | 计算数组各元素的绝对值 |
np.sqrt(x) | 计算数组各元素的平方根 |
np.square(x) | 计算数组各元素的平方 |
np.log(x) np.log10(x) np.log2(x) | 计算数组各元素的自然对数、10底对数和2底对数 |
np.ceil(x) np.floor(x) | 计算数组各元素的ceiling值或floor值 |
np.rint(x) | 计算数组各元素的四舍五入值 |
np.modf(x) | 将数组各元素的小数和整数部分以两个独立数组形式返回 |
np.cos(x) np.cosh(x) np.sin(x) np.sinh(x) np.tan(x) np.tanh(x) | 计算数组各元素的普通型和双曲型三角函数 |
np.exp(x) | 计算数组各元素的指数值 |
np.sign(x) | 计算数组各元素的符号值,1为正,0,-1为负 |
a = np.arange(24).reshape((2,3,4))
a
Out[55]:
array([[[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]],
[[12, 13, 14, 15],
[16, 17, 18, 19],
[20, 21, 22, 23]]])
np.square(a)
Out[56]:
array([[[ 0, 1, 4, 9],
[ 16, 25, 36, 49],
[ 64, 81, 100, 121]],
[[144, 169, 196, 225],
[256, 289, 324, 361],
[400, 441, 484, 529]]], dtype=int32)
np.sqrt(a)
Out[57]:
array([[[0. , 1. , 1.41421356, 1.73205081],
[2. , 2.23606798, 2.44948974, 2.64575131],
[2.82842712, 3. , 3.16227766, 3.31662479]],
[[3.46410162, 3.60555128, 3.74165739, 3.87298335],
[4. , 4.12310563, 4.24264069, 4.35889894],
[4.47213595, 4.58257569, 4.69041576, 4.79583152]]])
a = np.sqrt(a)
np.modf(a)
Out[59]:
(array([[[0. , 0. , 0.41421356, 0.73205081],
[0. , 0.23606798, 0.44948974, 0.64575131],
[0.82842712, 0. , 0.16227766, 0.31662479]],
[[0.46410162, 0.60555128, 0.74165739, 0.87298335],
[0. , 0.12310563, 0.24264069, 0.35889894],
[0.47213595, 0.58257569, 0.69041576, 0.79583152]]]),
array([[[0., 1., 1., 1.],
[2., 2., 2., 2.],
[2., 3., 3., 3.]],
[[3., 3., 3., 3.],
[4., 4., 4., 4.],
[4., 4., 4., 4.]]]))
NumPy二元函数
函数 | 说明 |
---|---|
+ - * / ** | 两个数组各元素进行对应运算 |
np.maximum(x,y) np.fmax() np.minimum(x,y) np.fmin() | 元素级的最大值/最小值计算 |
np.mod(x,y) | 元素级的模运算 |
np.copysign(x,y) | 将数组y中各元素值得符号赋值给数组x对应元素 |
> < >= <= == != | 算数比较,产生布尔型数组 |
a = np.arange(24).reshape((2,3,4))
b = np.sqrt(a)
a
Out[62]:
array([[[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]],
[[12, 13, 14, 15],
[16, 17, 18, 19],
[20, 21, 22, 23]]])
b
Out[63]:
array([[[0. , 1. , 1.41421356, 1.73205081],
[2. , 2.23606798, 2.44948974, 2.64575131],
[2.82842712, 3. , 3.16227766, 3.31662479]],
[[3.46410162, 3.60555128, 3.74165739, 3.87298335],
[4. , 4.12310563, 4.24264069, 4.35889894],
[4.47213595, 4.58257569, 4.69041576, 4.79583152]]])
np.maximum(a,b)
Out[64]: ##运算结果为浮点数
array([[[ 0., 1., 2., 3.],
[ 4., 5., 6., 7.],
[ 8., 9., 10., 11.]],
[[12., 13., 14., 15.],
[16., 17., 18., 19.],
[20., 21., 22., 23.]]])
a > b
Out[65]:
array([[[False, False, True, True],
[ True, True, True, True],
[ True, True, True, True]],
[[ True, True, True, True],
[ True, True, True, True],
[ True, True, True, True]]])
单元2:NumPy数据存取与函数
数据的CSV文件存取
CSV文件
(Comma-Separated Value,逗号分隔值)
常见的文件格式,用来存储批量数据。
写入CSV文件:
np.savetxt(frame, array, fmt='%.18e', delimiter = None)
- fname:文件、字符串或产生器,可以是.gz或.bz2的压缩文件
- array:存入文件的数组
- fmt:写入文件的格式,例如:%d %.2f %.18e
- delimiter:分割字符串,默认是任何空格
例如:
a = np.arange(100).reshape(5,20)
np.savetxt('a.csv', a, fmt = '%d', delimiter = ',')
np.savetxt('a.csv', a, fmt = '%.1f', delimiter = ',') ##保存为一位小数
文件为:
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39
40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59
60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79
80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99
读取CSV文件:
np.loadtxt(frame, dtype = np.float, delimiter = None, unpack = False)
- fname:文件、字符串或产生器,可以是.gz或.bz2的压缩文件
- dtype:数据类型,可选
- delimiter:分割字符串,默认是任何空格
- unpack:如果True,读入属性将分别写入不同变量。
b = np.loadtxt('a.csv', delimiter = ',')
b
Out[70]:
array([[ 0., 1., 2., 3., 4., 5., 6., 7., 8., 9., 10., 11., 12.,
13., 14., 15., 16., 17., 18., 19.],
[20., 21., 22., 23., 24., 25., 26., 27., 28., 29., 30., 31., 32.,
33., 34., 35., 36., 37., 38., 39.],
[40., 41., 42., 43., 44., 45., 46., 47., 48., 49., 50., 51., 52.,
53., 54., 55., 56., 57., 58., 59.],
[60., 61., 62., 63., 64., 65., 66., 67., 68., 69., 70., 71., 72.,
73., 74., 75., 76., 77., 78., 79.],
[80., 81., 82., 83., 84., 85., 86., 87., 88., 89., 90., 91., 92.,
93., 94., 95., 96., 97., 98., 99.]])
b = np.loadtxt('a.csv', dtype = np.int, delimiter = ',') ##指定数据类型为整数
b
Out[72]:
array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15,
16, 17, 18, 19],
[20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
36, 37, 38, 39],
[40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,
56, 57, 58, 59],
[60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75,
76, 77, 78, 79],
[80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95,
96, 97, 98, 99]])
局限性:
只能有效存储一维和二维数组
多维数据的存取
a.tofile(frame, sep = '', format = '%s')
- fname:文件、字符串或产生器,可以是.gz或.bz2的压缩文件
- sep:分割字符串,如果是空串,写入文件为二进制
- format:写入数据的格式
a = np.arange(100).reshape(5, 10, 2)
a.tofile("b.dat", sep = ',', format = '%d')
文件为:
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99
a.tofile("b.dat", format = '%d')
不指定分隔符,为二进制文件,打开为:
� � � � � � �
�
� � � � � � � � � � � � � � � � � � ! " # $ % & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` a b c
二进制文件比文本文件占用空间更少。
读取文件:
np.fromfile(frame, dtype = float, count = -1, sep = '')
- fname:文件、字符串或产生器,可以是.gz或.bz2的压缩文件
- dtype:读取的数据类型
- count:读入元素个数,-1表示读入整个文件
- sep: 分割字符串,如果是空串,写入文件为二进制
c = np.fromfile("b.dat", dtype = np.int, sep = ",")
c
Out[79]:
array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,
17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])
c = np.fromfile("b.dat", dtype = np.int, sep = ",").reshape(5,10,2) ##读入的是一维数组,需要重新安排形状
c
Out[81]:
array([[[ 0, 1],
[ 2, 3],
[ 4, 5],
[ 6, 7],
[ 8, 9],
[10, 11],
[12, 13],
[14, 15],
[16, 17],
[18, 19]],
[[20, 21],
[22, 23],
[24, 25],
[26, 27],
[28, 29],
[30, 31],
[32, 33],
[34, 35],
[36, 37],
[38, 39]],
[[40, 41],
[42, 43],
[44, 45],
[46, 47],
[48, 49],
[50, 51],
[52, 53],
[54, 55],
[56, 57],
[58, 59]],
[[60, 61],
[62, 63],
[64, 65],
[66, 67],
[68, 69],
[70, 71],
[72, 73],
[74, 75],
[76, 77],
[78, 79]],
[[80, 81],
[82, 83],
[84, 85],
[86, 87],
[88, 89],
[90, 91],
[92, 93],
[94, 95],
[96, 97],
[98, 99]]])
读取二进制文件:
a.tofile("b.dat", format = '%d')
c = np.fromfile("b.dat", dtype = np.int).reshape(5,20)
c
Out[84]:
array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15,
16, 17, 18, 19],
[20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
36, 37, 38, 39],
[40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,
56, 57, 58, 59],
[60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75,
76, 77, 78, 79],
[80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95,
96, 97, 98, 99]])
需要注意:
- 该方法需要读取时知道存入文件时数组的维度和元素类型
- a.tofile()和np.fromfile()需要配合使用
- 可以通过元数据文件来存储额外信息(数据类型,维度等)
NumPy的便捷文件存取
np.save(fname, array)或np.savez(fname, array)
- fname:文件名,以.npy为扩展名,压缩扩展名为.npz
- array:数组变量
np.load(fname)
- fname:文件名,以.npy为扩展名,压缩扩展名为.npz
a = np.arange(100).reshape(5,10,2)
np.save("a.npy", a)
b = np.load("a.npy")
b
Out[88]:
array([[[ 0, 1],
[ 2, 3],
[ 4, 5],
[ 6, 7],
[ 8, 9],
[10, 11],
[12, 13],
[14, 15],
[16, 17],
[18, 19]],
[[20, 21],
[22, 23],
[24, 25],
[26, 27],
[28, 29],
[30, 31],
[32, 33],
[34, 35],
[36, 37],
[38, 39]],
[[40, 41],
[42, 43],
[44, 45],
[46, 47],
[48, 49],
[50, 51],
[52, 53],
[54, 55],
[56, 57],
[58, 59]],
[[60, 61],
[62, 63],
[64, 65],
[66, 67],
[68, 69],
[70, 71],
[72, 73],
[74, 75],
[76, 77],
[78, 79]],
[[80, 81],
[82, 83],
[84, 85],
[86, 87],
[88, 89],
[90, 91],
[92, 93],
[94, 95],
[96, 97],
[98, 99]]])
npy用二进制形式存储数据。在第一行用显式的形式记录出数据的信息。
NumPy的随机数函数
NumPy的random子库。使用:np.random.(为函数名)
函数 | 说明 |
---|---|
rand(d0, d1, ..., dn) | 根据d1-dn(形状)创建随机数组,浮点数,[0,1),均匀分布 |
randn(d0, d1, ..., dn) | 根据d1-dn创建随机数组,浮点数,[0,1),正态分布 |
randint(low[, high, shape]) | 根据shape创建随机整数或整数组,范围是[low, high) |
seed(s) | 随机数种子,s是给定的种子 |
import numpy as np
a = np.random.rand(3, 4, 5)
a
Out[3]:
array([[[0.15137256, 0.81596633, 0.67956184, 0.73756265, 0.81162265],
[0.56326981, 0.61385898, 0.33826593, 0.90415749, 0.4795024 ],
[0.24026997, 0.45779641, 0.27117777, 0.30485705, 0.12912242],
[0.88616861, 0.93975078, 0.31494961, 0.5338654 , 0.15102703]],
[[0.56245002, 0.31127358, 0.73616424, 0.04189588, 0.72795908],
[0.70961088, 0.76399396, 0.14776895, 0.14973958, 0.53145689],
[0.22079254, 0.61468065, 0.60782668, 0.26659865, 0.56179524],
[0.24112438, 0.42520094, 0.3946708 , 0.31106286, 0.65153135]],
[[0.73161609, 0.28116563, 0.31808233, 0.0756652 , 0.96681776],
[0.77428823, 0.29668054, 0.79083103, 0.64877892, 0.89235409],
[0.4047 , 0.95332281, 0.37391636, 0.18951718, 0.91031481],
[0.0611578 , 0.83720539, 0.25169338, 0.22016327, 0.4919747 ]]])
b = np.random.randn(3, 4, 5)
b
Out[5]:
array([[[ 0.58002544, 0.44551767, 0.07520678, 0.99676603,
-0.8524942 ],
[ 1.47101275, -1.63386489, 0.29305511, -2.23651731,
-0.44797517],
[ 2.1001467 , 1.32506964, 0.03344443, -1.40475648,
-1.85884513],
[-0.29698703, 0.50682197, 2.36272313, -0.55494948,
0.92003044]],
[[ 0.47022139, 0.17816267, 0.49414841, -0.04924375,
1.3658374 ],
[-0.69638444, 1.19541601, -0.05604738, 0.38314451,
0.04966896],
[-0.09367271, -0.23102443, -1.31162772, 0.1537276 ,
0.3986601 ],
[-0.5247229 , 0.70859833, 0.41970116, -0.54254133,
1.59091854]],
[[-1.52518514, -1.72684043, -0.69879025, 1.67320924,
0.79593097],
[-0.48241376, 0.96427609, -0.97584091, 1.13381381,
-1.21627224],
[ 0.17393277, 1.16790334, 0.06148158, 0.0296073 ,
0.4326265 ],
[-0.57824447, 1.59110481, -0.81189174, -0.58179106,
0.14702895]]])
c = np.random.randint(100, 200, (3,4))
c
Out[7]:
array([[197, 139, 150, 156],
[150, 157, 127, 193],
[127, 113, 139, 169]])
np.random.seed(10) ##设定随机数种子
np.random.randint(100, 200, (3,4))
Out[9]:
array([[109, 115, 164, 128],
[189, 193, 129, 108],
[173, 100, 140, 136]])
函数 | 说明 |
---|---|
shuffle(a) | 根据数组a的第1轴进行随机排列,改变数组a |
permutation(a) | 根据数组a的第1轴进行随机排列,不改变数组a |
choice(a[, size, replace, p]) | 从一维数组a中以概率p抽取元素,形成size形状的新数组。replace表示是否可以重用元素,默认为False,即可重复使用。 |
a = np.random.randint(100, 200, (3,4))
a
Out[14]:
array([[125, 113, 192, 186],
[130, 130, 189, 112],
[165, 131, 157, 136]])
np.random.shuffle(a)
a
Out[16]:
array([[125, 113, 192, 186],
[130, 130, 189, 112],
[165, 131, 157, 136]])
np.random.permutation(a)
Out[17]:
array([[165, 131, 157, 136],
[125, 113, 192, 186],
[130, 130, 189, 112]])
a
Out[18]:
array([[125, 113, 192, 186],
[130, 130, 189, 112],
[165, 131, 157, 136]])
b = np.random.randint(100, 200, (8,))
b
Out[20]: array([123, 194, 111, 128, 174, 188, 109, 115])
np.random.choice(b, (3,2))
Out[21]:
array([[111, 123],
[109, 115],
[123, 128]])
np.random.choice(b, (3,2), p= b/np.sum(b))
Out[22]:
array([[109, 128],
[194, 188],
[194, 188]])
np.random.choice(b, (3,2), replace = False)
Out[23]:
array([[194, 128],
[115, 188],
[111, 109]])
函数 | 说明 |
---|---|
uniform(low, high, size) | 产生具有均匀分布的数组,low为起始值,high为结束值,size为形状 |
normal(loc, scale, size) | 产生具有正态分布的数组,loc为均值,scale为标准差,size为形状 |
poisson(lam, size) | 产生具有泊松分布的数组,lam表示随机事件发生概率,size为形状 |
u = np.random.uniform(0, 10, (3,4))
u
Out[27]:
array([[9.83020867, 4.67403279, 8.75744495, 2.96068699],
[1.31291053, 8.42817933, 6.59036304, 5.95439605],
[4.36353698, 3.56250327, 5.87130925, 1.49471337]])
n = np.random.normal(10, 5, (3,4))
n
Out[29]:
array([[ 8.17771928, 4.17423265, 3.28465058, 17.2669643 ],
[10.00584724, 9.94039808, 13.57941572, 4.07115727],
[ 6.81836048, 6.94593078, 3.40304302, 7.19135792]])
NumPy的统计函数
能对数组中的信息进行统计运算的函数
NumPy直接提供的统计类函数
函数 | 说明 |
---|---|
sum(a, axis = None) | 根据给定轴axis计算数组a相关元素之和,axis为整数或元祖,默认不给定,即计算所有元素 |
mean(a, axis = None) | 根据给定轴axis计算数组a相关元素的期望 |
average(a, axis = None, weights = None) | 根据给定轴axis计算数组a相关元素的加权平均值 |
std(a, axis = None) | 根据给定轴axis计算数组a相关元素的标准差 |
var(a, axis = None) | 根据给定轴axis计算数组a相关元素的方差 |
import numpy as np
a = np.arange(15).reshape(3,5)
a
Out[3]:
array([[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14]])
np.sum(a)
Out[5]: 105
np.mean(a, axis = -1)
Out[6]: array([ 2., 7., 12.])
np.mean(a, axis = 0)
Out[7]: array([5., 6., 7., 8., 9.])
np.average(a, axis = 0, weights = [10, 5, 1])
Out[8]: array([2.1875, 3.1875, 4.1875, 5.1875, 6.1875])
np.std(a)
Out[9]: 4.320493798938574
np.var(a)
Out[10]: 18.666666666666668
函数 | 说明 |
---|---|
min(a) max(a) | 计算数组a中元素的最小值、最大值 |
argmin(a) argmax(a) | 计算数组a中元素最小值、最大值的降一维后下标 |
unravel_index(index, shape) | 根据shape将一维下标index转换成多维下标 |
ptp(a) | 计算数组a中元素最大值与最小值的差 |
median(a) | 计算数组a中元素的中位数(中值) |
b = np.arange(15, 0, -1).reshape(3, 5)
b
Out[12]:
array([[15, 14, 13, 12, 11],
[10, 9, 8, 7, 6],
[ 5, 4, 3, 2, 1]])
np.max(b)
Out[13]: 15
np.argmax(b) ##扁平化后的下标
Out[14]: 0
np.unravel_index(np.argmax(b), b.shape) ##重塑成多维下标
Out[15]: (0, 0)
np.ptp(b)
Out[16]: 14
np.median(b) ##是一种运算,得到的结果为浮点数
Out[17]: 8.0
NumPy 的梯度函数
np.grandient(f)|计算数组f中元素的梯度。当f为多维时,返回每个维度梯度
梯度:连续值之间的变化率,即斜率
a = np.random.randint(0, 20, (5))
a
Out[19]: array([ 0, 19, 17, 18, 0])
np.gradient(a)
Out[21]: array([ 19. , 8.5, -0.5, -8.5, -18. ]) ##第二个数据的8.5,即8.5=(17-0)/2
c = np.random.randint(0, 50, (3,5))
c
Out[23]:
array([[41, 35, 41, 44, 23],
[33, 41, 42, 32, 30],
[40, 1, 42, 37, 48]])
np.gradient(c)
Out[24]: ##第一组数据表示最外层维度的梯度,第二组表示第二层维度的梯度
[array([[ -8. , 6. , 1. , -12. , 7. ],
[ -0.5, -17. , 0.5, -3.5, 12.5],
[ 7. , -40. , 0. , 5. , 18. ]]),
array([[ -6. , 0. , 4.5, -9. , -21. ],
[ 8. , 4.5, -4.5, -6. , -2. ],
[-39. , 1. , 18. , 3. , 11. ]])]
单元3:实例1:图像的手绘效果
图像的数组表示
图像的RGB色彩模式。即每个像素点由R、G、B三个颜色组成。
三个颜色通道的变化和叠加得到各种颜色,其中每个通道的取值范围为0~255。
PIL库
PIL,Python Image Library
具有强大的图像处理能力的第三方库。
命令行安装方法:
pip install pillow
使用时,引入Image类(对象)
from PIL import Image
图像的数组表示
图像是一个由数组组成的二维矩阵,每个元素是一个RGB值。
打开图像:
from PIL import Image
import numpy as np
im = np.array(Image.open("a.jpg"))
print(im.shape, im.dtype)
(1000, 2275, 3) uint8
图像是一个三维数组,维度为高度、宽度和像素的RGB值。
图像的变换
- 读入图像后,获得像素RGB值,修改后保存为新的文件
a = np.array(Image.open("a.jpg"))
print(a.shape, a.dtype)
(1000, 2275, 3) uint8
b = [255, 255, 255] - a ##生成每个RGB像素的补值,即反色
im = Image.fromarray(b.astype('uint8'))
im.save("b.jpg")
反色变换后:
a = np.array(Image.open("a.jpg").convert('L')) ##.convert('L')先讲图像变为灰度
b = 255 - a ##对灰度图像反色
im = Image.fromarray(b.astype('uint8'))
im.save("c.jpg")
灰度处理后反色的图像:
a = np.array(Image.open("a.jpg").convert('L'))
c = (100/255)*a + 150
im = Image.fromarray(c.astype('uint8'))
im.save("d.jpg")
对图像进行灰度处理+区间灰度变化后:
a = np.array(Image.open("a.jpg").convert('L'))
d = 255 * (a/255)**2 ##像素平方
im = Image.fromarray(d.astype('uint8'))
im.save("e.jpg")
像素灰度处理+像素平方后
“图像手绘效果”实例分析
特征:
- 黑白灰色
- 边界线条较重
- 相同或相近色彩趋于白色
- 略有光源效果
梯度的重构
利用像素之间的梯度值和虚拟深度值对图像进行重构。
根据灰度变化来模拟人类视觉的明暗程度。
depth = 10. ##预设深度值为10,取值范围0~100
grad = np.gradient(a)
grad_x, grad_y = grad ##提取x和y方向的梯度值
grad_x = grad_x * depth/100.
grad_y = grad_y * depth/100. ##根据深度调整x和y方向的梯度值
光源效果
根据灰度变化来模拟人类视觉的远近程度
- 设计一个位于图像斜上方的虚拟光源
- 建立柱坐标系,光源相对于图像的俯视角为Elevation,方位角为Azimuth
- 建立光源对各点梯度值的影响函数
- 运算出各点的新的像素值
vec_el = np.pi/2.2
vec_az = np.pi/4.
dx = np.cos(vec_el) * np.cos(vec_az) ##np.cos(vec_el)为单位光线在地平面上的投影长度
dy = np.cos(vec_el) * np.sin(vec_az)
dz = np.sin(vec_el) ##dx,dy,dz是光源对x、y、z三方向的影响程度
梯度归一化
A = np.sqrt(grad_x**2 + grad_y**2 + 1.) ##构造x和y轴梯度的三维归一化单位坐标系
uni_x = grad_x/A ##图像平面内的单位法向量
uni_y = grad_y/A
uni_z = 1./A
b = 255 * (dx*uni_x + dy*uni_y + dz*uni_z) ##梯度与光源相互作用,将梯度转化为灰度
图像生成
b = b.clip(0, 255) #限制灰度值为0~255
im = Image.fromarray(b.astype('uint8'))
im.save('output.jpg') ##输出图像
代码汇总:
##图像手绘效果
from PIL import Image
import numpy as np
a = np.asarray(Image.open("a.jpg").convert('L')).astype('float')
depth = 10. ##预设深度值为10,取值范围0~100
grad = np.gradient(a)
grad_x, grad_y = grad ##提取x和y方向的梯度值
grad_x = grad_x * depth/100.
grad_y = grad_y * depth/100. ##根据深度调整x和y方向的梯度值
vec_el = np.pi/2.2
vec_az = np.pi/4.
dx = np.cos(vec_el) * np.cos(vec_az) ##np.cos(vec_el)为单位光线在地平面上的投影长度
dy = np.cos(vec_el) * np.sin(vec_az)
dz = np.sin(vec_el) ##dx,dy,dz是光源对x、y、z三方向的影响程度
A = np.sqrt(grad_x**2 + grad_y**2 + 1.) ##构造x和y轴梯度的三维归一化单位坐标系
uni_x = grad_x/A ##图像平面内的单位法向量
uni_y = grad_y/A
uni_z = 1./A
b = 255 * (dx*uni_x + dy*uni_y + dz*uni_z) ##梯度与光源相互作用,将梯度转化为灰度
b = b.clip(0, 255) #限制灰度值为0~255
im = Image.fromarray(b.astype('uint8'))
im.save('output.jpg') ##输出图像
输出效果: