【1】数据分析之表示

单元1：NumPy库入门

数据的维度

从一个数据到一组数据

一个数据：表达一个含义
一组数据：表达一个或多个含义
维度：一组数据的组织形式
一维数据：由对等关系的有序或无序数据构成，采用线性方式组织。

列表和数组：一组数据的有序结构
区别：列表：数据类型可以不同；数组：数据类型相同。

二维数据：由多个一维数据构成，是一维数据的组合形式。

表格是典型的二维数据。
其中，表头是二维数据的一部分。

多维数据：由一维或二维数据在新维度上扩展形成。
高维数据：仅利用最基本的二元关系展示数据间的复杂结构。

键值对

数据维度的Python表示

一维数据：列表[]和集合{}类型
二维数据：列表类型
多维数据：列表类型
高维数据：字典类型或数据表示格式

NumPy的数组对象：ndarray

NumPy

开源的Python科学计算基础库

强大的N维数组对象：ndarray
广播功能函数
整合C、C++、Fortran代码的工具
线性代数、傅里叶变换、随机数生成等功能

NumPy是SciPy、Pandas等库的基础

NumPy的引用

import numpy as np

尽管别名可以省略或更改，建议使用以上方式

N维数组对象：ndarray

例：计算A^2 + B^3，其中A和B为一维数组

def pySum():
    a = [0, 1, 2, 3, 4]
    b = [9, 8, 7, 6, 5]
    c = []
    for i in range(len(a)):
        c.append(a[i]**2 + b[i]**3)
    return c
print(pySum())

用NumPy：

import numpy as np
def npSum():
    a = np.array([0, 1, 2, 3, 4])
    b = np.array([9, 8, 7, 6, 5])
    c = a**2 + b**3
    return c
print(npSum())

数组对象可以去掉元素间运算所需的循环，使一维向量更像单个数据。
设置专门的数组对象，经过优化，可以提升这类应用的运算速度。

观察：科学计算中，一个维度所有数据的类型往往相同。

数组对象采用相同的数据类型，有助于节省运算和存储空间。

ndarray是一个多维数组对象，由两部分组成：

实际的数据
描述这些数据的元数据（数据维度、数据类型等）

ndarray数组一般要求所有元素类型相同（同质），数组下标从0开始。

np.array()生成一个ndarray数组
轴（axis）：保存数据的维度
秩（rank）：轴的数量

ndarray对象的属性

属性	说明
.ndim	秩，即轴的数量或维度的数量
.shape	ndarray对象的尺度，对于矩阵，n行m列
.size	ndarray对象元素的个数，相当于.shape中n*m的值
.dtype	ndarray对象的元素类型
.itemsize	ndarray对象中每个元素的大小，以字节为单位

ndarray的元素类型

数据类型	说明
bool	布尔类型，True或False
inte	与C语言中的int类型一致，一般是int32或int64
intp	用于索引的整数，与C语言中ssize_t一致，int32或int64
int8	字节长度的整数，取值：[-128,127]
int16	16位长度的整数，取值：[-32768,32767]
int32	32位长度的整数，取值：[-2^31, 2^31-1]
int64	64位长度的整数，取值：[-2^63, 2^63-1]
uint8	8位无符号整数，取值：[0, 255]
uint16	16位无符号整数，取值：[0, 65535]
uint32	32位无符号整数，取值：[0, 2^32-1]
uint64	64位无符号整数，取值：[0, 2^64-1]
float16	16位半精度浮点数：1位符号位，5位指数，10位尾数
float32	32位半精度浮点数：1位符号位，8位指数，23位尾数
float64	64位半精度浮点数：1位符号位，11位指数，52位尾数
complex64	复数类型，实部和虚部都是32位浮点数
complex128	复数类型，实部和虚部都是64位浮点数

对比：Python语法仅支持整数、浮点数和复数3中类型

科学计算涉及数据较多，对存储和性能都有较高要求。
对元素类型精细定义，有助于Numpy合理使用存储空间并优化性能。
有助于程序员对程序规模有合理评估。

ndarray可以由非同质对象构成。但无法有效发挥NumPy优势，尽量避免使用。

ndarray数组的创建和变换

ndarray数组的创建方法

从Python中的列表、元组等类型创建ndarray数组
使用NumPy中函数创建ndarray数组，如：arange，ones， zeros等
从字节流（raw bytes）中创建ndarray数组
从文件中读取特定格式，创建ndarray数组

(1) 从Python中的列表、元组等类型创建ndarray数组

x = np.array(list/tuple)
x = np.array(list/tuple, dtype = np.float32)

当np.array()不指定dtype时，NumPy将根据数据情况关联一个dtype类型。

(2) 使用NumPy中函数创建ndarray数组，如：arange，ones， zeros等

函数	说明
np.arange(n)	类似range()函数，返回ndarray类型，元素从0到n-1
np.ones(shape)	根据shape生成一个全1数组，shape是元组类型
np.zeros(shape)	根据shape生成一个全0数组，shape是元组类型
np.full(shape, val)	根据shape生成一个全val值数组，shape是元组类型
np.eye(n)	创建一个n阶单位方阵
np.ones_like(a)	根据数组a的形状生成一个全1数组
np.zeros_like(a)	根据数组a的形状生成一个全0数组
np.full_lise(a, val)	根据数组a的形状生成一个全val值数组
np.linspace()	根据起止数据等间距填充数据，形成数组
np.concatenate()	将两个或多个数组合并成一个新的数组

a = np.linspace(1, 10, 4)
a
array([ 1.,  4.,  7., 10.])
b = np.linspace(1, 10, 4, endpoint = False)  ##不将10作为结束值
b
array([1.  , 3.25, 5.5 , 7.75])
c = np.concatenate((a,b))
c
array([ 1.  ,  4.  ,  7.  , 10.  ,  1.  ,  3.25,  5.5 ,  7.75])

ndarray数组的变换

对创建好的ndarray数组，可以对其进行维度变换的元素类型变换
维度变换：

方法	说明
.reshape(shape)	不改变数组元素，返回一个shape形状的数组，原数组不变
.resize(shape)	与.reshape()功能已知，但修改原数组
.swapaxes(ax1, ax2)	将数组n个维度中两个维度进行调换
.flatten()	对数组进行降维，返回折叠后的一维数组，原数组不变

a = np.ones((2,3,4), dtype = np.int32)

a.reshape((3,8))
Out[24]: 
array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

a
Out[25]: 
array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

a.resize((3,8))

a
Out[27]: 
array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

a.flatten()
Out[28]: 
array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1])

a
Out[29]: 
array([[1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1]])

类型变换
new_a=a.astype(new_type)
会创建一个新数组，可以用来对原数组进行拷贝

a = np.ones((2,3,4), dtype = np.int)

a
Out[31]: 
array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

b = a.astype(np.float)

b
Out[34]: 
array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

向列表的转换
ls = a.tolist()

a = np.full((2,3,4), 25, dtype=np.int32)

a
Out[36]: 
array([[[25, 25, 25, 25],
        [25, 25, 25, 25],
        [25, 25, 25, 25]],

       [[25, 25, 25, 25],
        [25, 25, 25, 25],
        [25, 25, 25, 25]]])

a.tolist()
Out[37]: 
[[[25, 25, 25, 25], [25, 25, 25, 25], [25, 25, 25, 25]],
 [[25, 25, 25, 25], [25, 25, 25, 25], [25, 25, 25, 25]]]

ndarray数组的操作

对数组的索引和切片

索引：获取数组中特定位置的元素
切片：获取数组的子集

一维数组的索引和切片：与列表类似

a = np.arange(1,10,1)

a
Out[39]: array([1, 2, 3, 4, 5, 6, 7, 8, 9])

a[2]
Out[40]: 3

a[1:4:2]
Out[41]: array([2, 4])

多维数组的索引

a = np.arange(24).reshape((2,3,4))

a
Out[43]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

a[1,2,3]
Out[44]: 23

a[-1,-2,-3]
Out[45]: 17

a[1,2,3]
Out[44]: 23

a[-1,-2,-3]
Out[45]: 17

a[:,1,-3]  ##选取一个维度用:
Out[46]: array([ 5, 17])

a[:, 1:3, :]  ##每个维度切片方法与一维数组相同
Out[47]: 
array([[[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23]]])

a[:, :, ::2]  ##每个维度可以使用步长跳跃切片
Out[48]: 
array([[[ 0,  2],
        [ 4,  6],
        [ 8, 10]],

       [[12, 14],
        [16, 18],
        [20, 22]]])

ndarray数组的运算

数组与标量之间的运算

作用于数组的每一个元素
例如：计算a与元素平均值的商

a = np.arange(24).reshape((2,3,4))

a
Out[50]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

a.mean()
Out[51]: 11.5

a = a/a.mean()

a
Out[53]: 
array([[[0.        , 0.08695652, 0.17391304, 0.26086957],
        [0.34782609, 0.43478261, 0.52173913, 0.60869565],
        [0.69565217, 0.7826087 , 0.86956522, 0.95652174]],

       [[1.04347826, 1.13043478, 1.2173913 , 1.30434783],
        [1.39130435, 1.47826087, 1.56521739, 1.65217391],
        [1.73913043, 1.82608696, 1.91304348, 2.        ]]])

NumPy一元函数

对ndarray中的数据执行元素级的运算

函数	说明
np.abs(x) np.fabs(x)	计算数组各元素的绝对值
np.sqrt(x)	计算数组各元素的平方根
np.square(x)	计算数组各元素的平方
np.log(x) np.log10(x) np.log2(x)	计算数组各元素的自然对数、10底对数和2底对数
np.ceil(x) np.floor(x)	计算数组各元素的ceiling值或floor值
np.rint(x)	计算数组各元素的四舍五入值
np.modf(x)	将数组各元素的小数和整数部分以两个独立数组形式返回
np.cos(x) np.cosh(x) np.sin(x) np.sinh(x) np.tan(x) np.tanh(x)	计算数组各元素的普通型和双曲型三角函数
np.exp(x)	计算数组各元素的指数值
np.sign(x)	计算数组各元素的符号值，1为正，0，-1为负

a = np.arange(24).reshape((2,3,4))

a
Out[55]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

np.square(a)
Out[56]: 
array([[[  0,   1,   4,   9],
        [ 16,  25,  36,  49],
        [ 64,  81, 100, 121]],

       [[144, 169, 196, 225],
        [256, 289, 324, 361],
        [400, 441, 484, 529]]], dtype=int32)

np.sqrt(a)
Out[57]: 
array([[[0.        , 1.        , 1.41421356, 1.73205081],
        [2.        , 2.23606798, 2.44948974, 2.64575131],
        [2.82842712, 3.        , 3.16227766, 3.31662479]],

       [[3.46410162, 3.60555128, 3.74165739, 3.87298335],
        [4.        , 4.12310563, 4.24264069, 4.35889894],
        [4.47213595, 4.58257569, 4.69041576, 4.79583152]]])

a = np.sqrt(a)

np.modf(a)

Out[59]: 
(array([[[0.        , 0.        , 0.41421356, 0.73205081],
         [0.        , 0.23606798, 0.44948974, 0.64575131],
         [0.82842712, 0.        , 0.16227766, 0.31662479]],
 
        [[0.46410162, 0.60555128, 0.74165739, 0.87298335],
         [0.        , 0.12310563, 0.24264069, 0.35889894],
         [0.47213595, 0.58257569, 0.69041576, 0.79583152]]]),
 array([[[0., 1., 1., 1.],
         [2., 2., 2., 2.],
         [2., 3., 3., 3.]],
 
        [[3., 3., 3., 3.],
         [4., 4., 4., 4.],
         [4., 4., 4., 4.]]]))

NumPy二元函数

函数	说明
+ - * / **	两个数组各元素进行对应运算
np.maximum(x,y) np.fmax() np.minimum(x,y) np.fmin()	元素级的最大值/最小值计算
np.mod(x,y)	元素级的模运算
np.copysign(x,y)	将数组y中各元素值得符号赋值给数组x对应元素
> < >= <= == !=	算数比较，产生布尔型数组

a = np.arange(24).reshape((2,3,4))

b = np.sqrt(a)

a
Out[62]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

b
Out[63]: 
array([[[0.        , 1.        , 1.41421356, 1.73205081],
        [2.        , 2.23606798, 2.44948974, 2.64575131],
        [2.82842712, 3.        , 3.16227766, 3.31662479]],

       [[3.46410162, 3.60555128, 3.74165739, 3.87298335],
        [4.        , 4.12310563, 4.24264069, 4.35889894],
        [4.47213595, 4.58257569, 4.69041576, 4.79583152]]])

np.maximum(a,b)
Out[64]:   ##运算结果为浮点数
array([[[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]],

       [[12., 13., 14., 15.],
        [16., 17., 18., 19.],
        [20., 21., 22., 23.]]])

a > b
Out[65]: 
array([[[False, False,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]],

       [[ True,  True,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]]])

单元2：NumPy数据存取与函数

数据的CSV文件存取

CSV文件

（Comma-Separated Value，逗号分隔值）
常见的文件格式，用来存储批量数据。

写入CSV文件：
np.savetxt(frame, array, fmt='%.18e', delimiter = None)

fname：文件、字符串或产生器，可以是.gz或.bz2的压缩文件
array：存入文件的数组
fmt：写入文件的格式，例如：%d %.2f %.18e
delimiter：分割字符串，默认是任何空格

例如：

a = np.arange(100).reshape(5,20)

np.savetxt('a.csv', a, fmt = '%d', delimiter = ',')

np.savetxt('a.csv', a, fmt = '%.1f', delimiter = ',')  ##保存为一位小数

文件为：
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39
40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59
60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79
80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99

读取CSV文件：
np.loadtxt(frame, dtype = np.float, delimiter = None, unpack = False)

fname：文件、字符串或产生器，可以是.gz或.bz2的压缩文件
dtype：数据类型，可选
delimiter：分割字符串，默认是任何空格
unpack：如果True，读入属性将分别写入不同变量。

b = np.loadtxt('a.csv', delimiter = ',')

b
Out[70]: 
array([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
        13., 14., 15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24., 25., 26., 27., 28., 29., 30., 31., 32.,
        33., 34., 35., 36., 37., 38., 39.],
       [40., 41., 42., 43., 44., 45., 46., 47., 48., 49., 50., 51., 52.,
        53., 54., 55., 56., 57., 58., 59.],
       [60., 61., 62., 63., 64., 65., 66., 67., 68., 69., 70., 71., 72.,
        73., 74., 75., 76., 77., 78., 79.],
       [80., 81., 82., 83., 84., 85., 86., 87., 88., 89., 90., 91., 92.,
        93., 94., 95., 96., 97., 98., 99.]])

b = np.loadtxt('a.csv', dtype = np.int, delimiter = ',')  ##指定数据类型为整数

b
Out[72]: 
array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
        36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,
        56, 57, 58, 59],
       [60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75,
        76, 77, 78, 79],
       [80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95,
        96, 97, 98, 99]])

局限性：
只能有效存储一维和二维数组

多维数据的存取

a.tofile(frame, sep = '', format = '%s')

fname：文件、字符串或产生器，可以是.gz或.bz2的压缩文件
sep：分割字符串，如果是空串，写入文件为二进制
format：写入数据的格式

a = np.arange(100).reshape(5, 10, 2)

a.tofile("b.dat", sep = ',', format = '%d')

文件为：
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99

a.tofile("b.dat", format = '%d')

不指定分隔符，为二进制文件，打开为：
� � � � � � �
�
� � � � � � � � � � � � � � � � � � ! " # $ % & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` a b c
二进制文件比文本文件占用空间更少。

读取文件：
np.fromfile(frame, dtype = float, count = -1, sep = '')

fname：文件、字符串或产生器，可以是.gz或.bz2的压缩文件
dtype：读取的数据类型
count：读入元素个数，-1表示读入整个文件
sep: 分割字符串，如果是空串，写入文件为二进制



c = np.fromfile("b.dat", dtype = np.int, sep = ",")

c
Out[79]: 
array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

c = np.fromfile("b.dat", dtype = np.int, sep = ",").reshape(5,10,2)  ##读入的是一维数组，需要重新安排形状

c
Out[81]: 
array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]],

       [[20, 21],
        [22, 23],
        [24, 25],
        [26, 27],
        [28, 29],
        [30, 31],
        [32, 33],
        [34, 35],
        [36, 37],
        [38, 39]],

       [[40, 41],
        [42, 43],
        [44, 45],
        [46, 47],
        [48, 49],
        [50, 51],
        [52, 53],
        [54, 55],
        [56, 57],
        [58, 59]],

       [[60, 61],
        [62, 63],
        [64, 65],
        [66, 67],
        [68, 69],
        [70, 71],
        [72, 73],
        [74, 75],
        [76, 77],
        [78, 79]],

       [[80, 81],
        [82, 83],
        [84, 85],
        [86, 87],
        [88, 89],
        [90, 91],
        [92, 93],
        [94, 95],
        [96, 97],
        [98, 99]]])

读取二进制文件：

a.tofile("b.dat", format = '%d')

c = np.fromfile("b.dat", dtype = np.int).reshape(5,20)

c
Out[84]: 
array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
        36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,
        56, 57, 58, 59],
       [60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75,
        76, 77, 78, 79],
       [80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95,
        96, 97, 98, 99]])

需要注意：

该方法需要读取时知道存入文件时数组的维度和元素类型
a.tofile()和np.fromfile()需要配合使用
可以通过元数据文件来存储额外信息（数据类型，维度等）

NumPy的便捷文件存取

np.save(fname, array)或np.savez(fname, array)

fname：文件名，以.npy为扩展名，压缩扩展名为.npz
array：数组变量

np.load(fname)

fname：文件名，以.npy为扩展名，压缩扩展名为.npz

a = np.arange(100).reshape(5,10,2)

np.save("a.npy", a)

b = np.load("a.npy")

b
Out[88]: 
array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]],

       [[20, 21],
        [22, 23],
        [24, 25],
        [26, 27],
        [28, 29],
        [30, 31],
        [32, 33],
        [34, 35],
        [36, 37],
        [38, 39]],

       [[40, 41],
        [42, 43],
        [44, 45],
        [46, 47],
        [48, 49],
        [50, 51],
        [52, 53],
        [54, 55],
        [56, 57],
        [58, 59]],

       [[60, 61],
        [62, 63],
        [64, 65],
        [66, 67],
        [68, 69],
        [70, 71],
        [72, 73],
        [74, 75],
        [76, 77],
        [78, 79]],

       [[80, 81],
        [82, 83],
        [84, 85],
        [86, 87],
        [88, 89],
        [90, 91],
        [92, 93],
        [94, 95],
        [96, 97],
        [98, 99]]])

npy用二进制形式存储数据。在第一行用显式的形式记录出数据的信息。

NumPy的随机数函数

NumPy的random子库。使用：np.random.（为函数名）

函数	说明
rand(d0, d1, ..., dn)	根据d1-dn（形状）创建随机数组，浮点数，[0,1)，均匀分布
randn(d0, d1, ..., dn)	根据d1-dn创建随机数组，浮点数，[0,1)，正态分布
randint(low[, high, shape])	根据shape创建随机整数或整数组，范围是[low, high)
seed(s)	随机数种子，s是给定的种子

import numpy as np

a = np.random.rand(3, 4, 5)

a
Out[3]: 
array([[[0.15137256, 0.81596633, 0.67956184, 0.73756265, 0.81162265],
        [0.56326981, 0.61385898, 0.33826593, 0.90415749, 0.4795024 ],
        [0.24026997, 0.45779641, 0.27117777, 0.30485705, 0.12912242],
        [0.88616861, 0.93975078, 0.31494961, 0.5338654 , 0.15102703]],

       [[0.56245002, 0.31127358, 0.73616424, 0.04189588, 0.72795908],
        [0.70961088, 0.76399396, 0.14776895, 0.14973958, 0.53145689],
        [0.22079254, 0.61468065, 0.60782668, 0.26659865, 0.56179524],
        [0.24112438, 0.42520094, 0.3946708 , 0.31106286, 0.65153135]],

       [[0.73161609, 0.28116563, 0.31808233, 0.0756652 , 0.96681776],
        [0.77428823, 0.29668054, 0.79083103, 0.64877892, 0.89235409],
        [0.4047    , 0.95332281, 0.37391636, 0.18951718, 0.91031481],
        [0.0611578 , 0.83720539, 0.25169338, 0.22016327, 0.4919747 ]]])

b = np.random.randn(3, 4, 5)

b
Out[5]: 
array([[[ 0.58002544,  0.44551767,  0.07520678,  0.99676603,
         -0.8524942 ],
        [ 1.47101275, -1.63386489,  0.29305511, -2.23651731,
         -0.44797517],
        [ 2.1001467 ,  1.32506964,  0.03344443, -1.40475648,
         -1.85884513],
        [-0.29698703,  0.50682197,  2.36272313, -0.55494948,
          0.92003044]],

       [[ 0.47022139,  0.17816267,  0.49414841, -0.04924375,
          1.3658374 ],
        [-0.69638444,  1.19541601, -0.05604738,  0.38314451,
          0.04966896],
        [-0.09367271, -0.23102443, -1.31162772,  0.1537276 ,
          0.3986601 ],
        [-0.5247229 ,  0.70859833,  0.41970116, -0.54254133,
          1.59091854]],

       [[-1.52518514, -1.72684043, -0.69879025,  1.67320924,
          0.79593097],
        [-0.48241376,  0.96427609, -0.97584091,  1.13381381,
         -1.21627224],
        [ 0.17393277,  1.16790334,  0.06148158,  0.0296073 ,
          0.4326265 ],
        [-0.57824447,  1.59110481, -0.81189174, -0.58179106,
          0.14702895]]])

c = np.random.randint(100, 200, (3,4))

c
Out[7]: 
array([[197, 139, 150, 156],
       [150, 157, 127, 193],
       [127, 113, 139, 169]])

np.random.seed(10)  ##设定随机数种子

np.random.randint(100, 200, (3,4))
Out[9]: 
array([[109, 115, 164, 128],
       [189, 193, 129, 108],
       [173, 100, 140, 136]])

函数	说明
shuffle(a)	根据数组a的第1轴进行随机排列，改变数组a
permutation(a)	根据数组a的第1轴进行随机排列，不改变数组a
choice(a[, size, replace, p])	从一维数组a中以概率p抽取元素，形成size形状的新数组。replace表示是否可以重用元素，默认为False，即可重复使用。

a = np.random.randint(100, 200, (3,4))

a

Out[14]: 
array([[125, 113, 192, 186],
       [130, 130, 189, 112],
       [165, 131, 157, 136]])

np.random.shuffle(a)

a
Out[16]: 
array([[125, 113, 192, 186],
       [130, 130, 189, 112],
       [165, 131, 157, 136]])

np.random.permutation(a)
Out[17]: 
array([[165, 131, 157, 136],
       [125, 113, 192, 186],
       [130, 130, 189, 112]])

a
Out[18]: 
array([[125, 113, 192, 186],
       [130, 130, 189, 112],
       [165, 131, 157, 136]])

b = np.random.randint(100, 200, (8,))

b
Out[20]: array([123, 194, 111, 128, 174, 188, 109, 115])

np.random.choice(b, (3,2))
Out[21]: 
array([[111, 123],
       [109, 115],
       [123, 128]])

np.random.choice(b, (3,2), p= b/np.sum(b))
Out[22]: 
array([[109, 128],
       [194, 188],
       [194, 188]])

np.random.choice(b, (3,2), replace = False)
Out[23]: 
array([[194, 128],
       [115, 188],
       [111, 109]])

函数	说明
uniform(low, high, size)	产生具有均匀分布的数组，low为起始值，high为结束值，size为形状
normal(loc, scale, size)	产生具有正态分布的数组，loc为均值，scale为标准差，size为形状
poisson(lam, size)	产生具有泊松分布的数组，lam表示随机事件发生概率，size为形状

u = np.random.uniform(0, 10, (3,4))

u
Out[27]: 
array([[9.83020867, 4.67403279, 8.75744495, 2.96068699],
       [1.31291053, 8.42817933, 6.59036304, 5.95439605],
       [4.36353698, 3.56250327, 5.87130925, 1.49471337]])

n = np.random.normal(10, 5, (3,4))

n
Out[29]: 
array([[ 8.17771928,  4.17423265,  3.28465058, 17.2669643 ],
       [10.00584724,  9.94039808, 13.57941572,  4.07115727],
       [ 6.81836048,  6.94593078,  3.40304302,  7.19135792]])

NumPy的统计函数

能对数组中的信息进行统计运算的函数

NumPy直接提供的统计类函数

函数	说明
sum(a, axis = None)	根据给定轴axis计算数组a相关元素之和，axis为整数或元祖，默认不给定，即计算所有元素
mean(a, axis = None)	根据给定轴axis计算数组a相关元素的期望
average(a, axis = None, weights = None)	根据给定轴axis计算数组a相关元素的加权平均值
std(a, axis = None)	根据给定轴axis计算数组a相关元素的标准差
var(a, axis = None)	根据给定轴axis计算数组a相关元素的方差

import numpy as np

a = np.arange(15).reshape(3,5)

a
Out[3]: 
array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

np.sum(a)
Out[5]: 105

np.mean(a, axis = -1)
Out[6]: array([ 2.,  7., 12.])

np.mean(a, axis = 0)
Out[7]: array([5., 6., 7., 8., 9.])

np.average(a, axis = 0, weights = [10, 5, 1])
Out[8]: array([2.1875, 3.1875, 4.1875, 5.1875, 6.1875])

np.std(a)
Out[9]: 4.320493798938574

np.var(a)
Out[10]: 18.666666666666668

函数	说明
min(a) max(a)	计算数组a中元素的最小值、最大值
argmin(a) argmax(a)	计算数组a中元素最小值、最大值的降一维后下标
unravel_index(index, shape)	根据shape将一维下标index转换成多维下标
ptp(a)	计算数组a中元素最大值与最小值的差
median(a)	计算数组a中元素的中位数（中值）

b = np.arange(15, 0, -1).reshape(3, 5)

b
Out[12]: 
array([[15, 14, 13, 12, 11],
       [10,  9,  8,  7,  6],
       [ 5,  4,  3,  2,  1]])

np.max(b)
Out[13]: 15

np.argmax(b)  ##扁平化后的下标
Out[14]: 0

np.unravel_index(np.argmax(b), b.shape)  ##重塑成多维下标
Out[15]: (0, 0)

np.ptp(b)
Out[16]: 14

np.median(b)  ##是一种运算，得到的结果为浮点数
Out[17]: 8.0

NumPy 的梯度函数

np.grandient(f)|计算数组f中元素的梯度。当f为多维时，返回每个维度梯度
梯度：连续值之间的变化率，即斜率

a = np.random.randint(0, 20, (5))

a
Out[19]: array([ 0, 19, 17, 18,  0])

np.gradient(a)
Out[21]: array([ 19. ,   8.5,  -0.5,  -8.5, -18. ])  ##第二个数据的8.5，即8.5=(17-0)/2

c = np.random.randint(0, 50, (3,5))

c
Out[23]: 
array([[41, 35, 41, 44, 23],
       [33, 41, 42, 32, 30],
       [40,  1, 42, 37, 48]])

np.gradient(c)
Out[24]:  ##第一组数据表示最外层维度的梯度，第二组表示第二层维度的梯度
[array([[ -8. ,   6. ,   1. , -12. ,   7. ],
        [ -0.5, -17. ,   0.5,  -3.5,  12.5],
        [  7. , -40. ,   0. ,   5. ,  18. ]]),
 array([[ -6. ,   0. ,   4.5,  -9. , -21. ],
        [  8. ,   4.5,  -4.5,  -6. ,  -2. ],
        [-39. ,   1. ,  18. ,   3. ,  11. ]])]

单元3：实例1：图像的手绘效果

图像的数组表示

图像的RGB色彩模式。即每个像素点由R、G、B三个颜色组成。
三个颜色通道的变化和叠加得到各种颜色，其中每个通道的取值范围为0~255。

PIL库

PIL，Python Image Library
具有强大的图像处理能力的第三方库。
命令行安装方法：

pip install pillow

使用时，引入Image类（对象）

from PIL import Image

图像的数组表示

图像是一个由数组组成的二维矩阵，每个元素是一个RGB值。
打开图像：

示例图像

from PIL import Image

import numpy as np

im = np.array(Image.open("a.jpg"))

print(im.shape, im.dtype)
(1000, 2275, 3) uint8

图像是一个三维数组，维度为高度、宽度和像素的RGB值。

图像的变换

读入图像后，获得像素RGB值，修改后保存为新的文件

a = np.array(Image.open("a.jpg"))

print(a.shape, a.dtype)
(1000, 2275, 3) uint8

b = [255, 255, 255] - a  ##生成每个RGB像素的补值，即反色

im = Image.fromarray(b.astype('uint8'))

im.save("b.jpg")

反色变换后：

反色变化后的图像

a = np.array(Image.open("a.jpg").convert('L')) ##.convert('L')先讲图像变为灰度

b = 255 - a  ##对灰度图像反色

im = Image.fromarray(b.astype('uint8'))

im.save("c.jpg")

灰度处理后反色的图像：

灰度处理后反色的图像

a = np.array(Image.open("a.jpg").convert('L'))

c = (100/255)*a + 150

im = Image.fromarray(c.astype('uint8'))

im.save("d.jpg")

对图像进行灰度处理+区间灰度变化后：

处理后

a = np.array(Image.open("a.jpg").convert('L'))

d = 255 * (a/255)**2 ##像素平方

im = Image.fromarray(d.astype('uint8'))

im.save("e.jpg")

像素灰度处理+像素平方后

处理后

“图像手绘效果”实例分析

特征：

黑白灰色
边界线条较重
相同或相近色彩趋于白色
略有光源效果

梯度的重构

利用像素之间的梯度值和虚拟深度值对图像进行重构。
根据灰度变化来模拟人类视觉的明暗程度。

depth = 10.  ##预设深度值为10，取值范围0~100
grad = np.gradient(a)
grad_x, grad_y = grad  ##提取x和y方向的梯度值
grad_x = grad_x * depth/100.
grad_y = grad_y * depth/100.  ##根据深度调整x和y方向的梯度值

光源效果

示意图

根据灰度变化来模拟人类视觉的远近程度

设计一个位于图像斜上方的虚拟光源
建立柱坐标系，光源相对于图像的俯视角为Elevation，方位角为Azimuth
建立光源对各点梯度值的影响函数
运算出各点的新的像素值

vec_el = np.pi/2.2
vec_az = np.pi/4.
dx = np.cos(vec_el) * np.cos(vec_az)  ##np.cos(vec_el)为单位光线在地平面上的投影长度
dy = np.cos(vec_el) * np.sin(vec_az)
dz = np.sin(vec_el)  ##dx，dy，dz是光源对x、y、z三方向的影响程度

梯度归一化

A = np.sqrt(grad_x**2 + grad_y**2 + 1.)  ##构造x和y轴梯度的三维归一化单位坐标系
uni_x = grad_x/A  ##图像平面内的单位法向量
uni_y = grad_y/A
uni_z = 1./A
b = 255 * (dx*uni_x + dy*uni_y + dz*uni_z)  ##梯度与光源相互作用，将梯度转化为灰度

图像生成

b = b.clip(0, 255)  #限制灰度值为0~255
im = Image.fromarray(b.astype('uint8'))
im.save('output.jpg')  ##输出图像

代码汇总：

##图像手绘效果
from PIL import Image
import numpy as np

a = np.asarray(Image.open("a.jpg").convert('L')).astype('float')

depth = 10.  ##预设深度值为10，取值范围0~100
grad = np.gradient(a)
grad_x, grad_y = grad  ##提取x和y方向的梯度值
grad_x = grad_x * depth/100.
grad_y = grad_y * depth/100.  ##根据深度调整x和y方向的梯度值

vec_el = np.pi/2.2
vec_az = np.pi/4.
dx = np.cos(vec_el) * np.cos(vec_az)  ##np.cos(vec_el)为单位光线在地平面上的投影长度
dy = np.cos(vec_el) * np.sin(vec_az)
dz = np.sin(vec_el)  ##dx，dy，dz是光源对x、y、z三方向的影响程度

A = np.sqrt(grad_x**2 + grad_y**2 + 1.)  ##构造x和y轴梯度的三维归一化单位坐标系
uni_x = grad_x/A  ##图像平面内的单位法向量
uni_y = grad_y/A
uni_z = 1./A
b = 255 * (dx*uni_x + dy*uni_y + dz*uni_z)  ##梯度与光源相互作用，将梯度转化为灰度

b = b.clip(0, 255)  #限制灰度值为0~255
im = Image.fromarray(b.astype('uint8'))
im.save('output.jpg')  ##输出图像

输出效果：

output.jpg