作者Github:
https://github.com/chenyuntc/pytorch-book
本节主要包含以下内容:
- Tensor: 类似Numpy数组的数据结构,与Numpy接口类似,可方便地互相转换。
- autograd/: 为tensor提供自动求导功能。
- nn: 专门为神经网络设计的接口,提供了很多有用的功能(神经网络层,损失函数,优化器等)。
- 神经网络训练: 以CIFAR-10分类为例演示了神经网络的训练流程,包括数据加载、网络搭建、训练及测试。
通过本节的学习,相信读者可以体会出PyTorch具有接口简单、使用灵活等特点。从下一章开始,本书将深入系统地讲解PyTorch的各部分知识。
这一章总览了一下Pytorch训练神经网络的流程,许多内容先看看就好
引入pytorch包并查看版本
import torch as t
print(t.__version__)
基本对象Tensor
Tensor是PyTorch中重要的数据结构,可认为是一个高维数组。它可以是一个数(标量)、一维数组(向量)、二维数组(矩阵)以及更高维的数组。Tensor和Numpy的ndarrays类似,但Tensor可以使用GPU进行加速。Tensor的使用和Numpy及Matlab的接口十分相似
Tensor的创建
x = t.Tensor(5, 3) # 输入size,构建 5x3 矩阵,只是分配了空间,未初始化
x = t.Tensor([[1,2],[3,4]])
'''
Out: tensor([[1., 2.], [3., 4.]])
'''
a = t.ones(5)
'''
新建一个全1的Tensor
Out: tensor([1., 1., 1., 1., 1.])
'''
x = t.rand(5, 3)
'''
使用[0,1]均匀分布随机初始化二维数组
tensor([[0.9971, 0.4956, 0.7326],
[0.5040, 0.2773, 0.1133],
[0.1560, 0.8798, 0.3876],
[0.8097, 0.8484, 0.6488],
[0.5509, 0.5815, 0.1071]])
'''
从numpy数组创建和转换
Tensor和Numpy的数组之间的互操作非常容易且快速。对于Tensor不支持的操作,可以先转为Numpy数组处理,之后再转回Tensor。
a = np.ones(5)
b = t.from_numpy(a) # Numpy->Tensor
c = b.numpy() # Tensor->Numpy
由numpy生成的tensor与原先的对象共享内存
b.add_(1) # 以`_`结尾的函数会修改自身
print(a)
print(b) # Tensor和Numpy共享内存
'''
输出结果
[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)
'''
更方便的创建接口
torch.tensor可以接纳不同的数据类型,list, tuple, NumPy ndarray, scalar和其他类型
torch.tensor(data, dtype=None, device=None, requires_grad=False)
需要注意的是,t.tensor()或者tensor.clone()总是会进行数据拷贝,新tensor和原来的数据不再共享内存。所以如果你想共享内存的话,建议使用torch.from_numpy()或者tensor.detach()来新建一个tensor, 二者共享内存。
Tensor的形状
print(x.size()) # 查看x的形状
x.size()[1], x.size(1) # 查看列的个数, 两种写法等价
Tensor的加减
y = t.rand(5, 3)
# 加法的第一种写法
x + y
# 加法的第二种写法
t.add(x, y)
# 指定加法结果的输出目标为result
result = t.Tensor(5, 3) # 预先分配空间
t.add(x, y, out=result) # 输入到result
# 加法的第三种写法
y.add(x) # 普通加法,返回副本不改变y的内容
y.add_(x) # inplace 加法,y变了
注意,函数名后面带下划线_ 的函数会修改Tensor本身。例如,x.add_(y)和x.t_()会改变 x,但x.add(y)和x.t()返回一个新的Tensor, 而x不变。
Tensor的切片与取值
基本与numpy数组类似
# Tensor的选取操作与Numpy类似
print(x[0:2:, 1])
'''
tensor([0.8417, 0.2086])
'''
直接tensor[idx]得到的还是一个tensor: 一个0-dim 的tensor,一般称为scalar。如果你想获取0-dim或1-dim的tensor的元素的值,可以使用.item()
scalar = b[0]
print(scalar,scalar.size(),scalar.item())
'''
tensor(2., dtype=torch.float64) torch.Size([]) 2.0
'''
自动微分autograd
深度学习的算法本质上是通过反向传播求导数,而PyTorch的autograd模块则实现了此功能。在Tensor上的所有操作,autograd都能为它们自动提供微分,避免了手动计算导数的复杂过程。
要想使得Tensor使用autograd功能,只需要设置tensor.requries_grad=True.
'''
为tensor设置 requires_grad 标识,就可以对此张量求导
pytorch 会自动调用autograd 记录操作
'''
x = t.ones(2, 2, requires_grad=True)
# 上一步等价于
# x = t.ones(2,2)
# x.requires_grad = True
求某一目标tensor对于标记tensor的梯度,需要对目标变量调用.backward(),然后标记变量的.grad属性即为对应的梯度
z=x.sum()+x.mean()
z.backward()
x.grad
'''
tensor([[1.2500, 1.2500], [1.2500, 1.2500]])
'''
注意:grad在反向传播过程中是累加的(accumulated),这意味着每一次运行反向传播,.grad中都是将新的梯度加在已有的梯度上,所以反向传播之前需要手动梯度清零。
# 以下划线结束的函数是inplace操作,会修改自身的值,就像add_
x.grad.data.zero_()
'''
tensor([[0., 0.], [0., 0.]])
'''
神经网络
Autograd实现了反向传播功能,但是直接用来写深度学习的代码在很多情况下还是稍显复杂,torch.nn是专门为神经网络设计的模块化接口。nn构建于 Autograd之上,可用来定义和运行神经网络。nn.Module是nn中最重要的类,可把它看成是一个网络的封装,包含网络各层定义以及forward方法,调用forward(input)方法,可返回前向传播的结果。下面就以最早的卷积神经网络:LeNet为例,来看看如何用nn.Module实现。LeNet的网络结构如图2-7所示。
作者在后面举得例子开始先不必深究