背景介绍
Pytorch是torch的一个衍生品,在Python语言中可以替代numpy的一个强大的科学计算库。
Pytorch与TensorFlow的主要区别:
- TensorFlow是基于静态计算图,需要先定义再运行,一次定义多次运行;
- Pytorch基于动态计算图,在运行过程中进行定义,可以实现多次构建多次运行。
基础知识
Tensor
tensor与numpy的ndarray类似,可以使用GPU加速。
1.初始化操作
2.加法操作
3.支持numpy的所有标准操作
Autograd自动微分
Autograd包可以为tensor上的所有操作提供自动微分,并记录这些操作生成一个动态计算图。目前pytorch的版本将tensor的运算与variable的自动微分进行了合并,可以更为便捷的使用。
- 跟踪tensor上的所有操作:设置属性
requires_grad = True
- 自动计算所有梯度:调用
.backward()
- 停止跟踪tensor:调用
.detach()
|| 使用代码块with torch.no grad
- 若tensor不仅仅是标量,需要靠gradient参数来说明张量的形式
function类对于autograd的实现也很重要。tensor与function类互相连接并构建一个计算图,即有向无环图(DAG),用于保存整个完整计算过程的历史信息。原先的pytorch版本是将tensor封装为一个variable,经由variable来实现对tensor的backward,现在的版本可以直接由tensor进行微分。
每当对tensor施加一个运算的时候,就会产生一个function对象,由tensor的.grad_fn
属性指向这个function对象,来产生运算结果,记录运算的发生,并记录运算的输入。tensor使用.grad.fn
属性记录这个计算图的入口,反向传播中,autograd引擎会按照逆序,通过function的backward依次计算梯度。
(若某个变量是由用户创建的,则它为叶子节点,对应的.grad_fn
为none)
backward函数实现对tensor的反向传播。对计算图中的根节点调用
backward()
方法,autograd会自动沿着计算图反向传播,计算每一个叶子节点的梯度。torch.autograd.backward(tensors, grad_tensors=None, retain_graph=None, create_graph=False, grad_variables=None)
参数介绍如下:
- tensors(tensor序列) — 需要被求导的张量
- grad_tensors(tensor序列或None) — Jacobian矢量积中的矢量,也可理解为链式法则的中间变量的梯度
-
create_graph(bool) — 默认为false,否则会对反向传播过程再次构建计算图,可通过backward of backward实现求高阶函数
backward()
函数中的grad_tesnors参数size需要与根节点的size相同。当根节点为标量时,则无需说明该参数,例如对out
进行反向求导:
可见这里传入的参数是对原本正常求出的Jacobian matrix进行了线性操作。torch.autograd
不能直接计算整个雅克比,因此需要我们给backward()
传递向量作为参数从而得到雅可比向量积。
雅可比向量积是说,对于函数定义雅可比矩阵为
,则对于给定的向量
,计算
即为所求的雅可比向量积。
对于传入的参数与雅可比矩阵之间的对应关系,本伸手党在这里贴两个链接
backward()参数解释传送门1
backward()参数解释传送门2
总结来说,对于backward()
函数传入参数的解释有以下几点可以参考:
- 输入的参数即为参与雅可比向量积计算的
;
- 根节点为标量时,默认传入的参数为([[1.]]);
- 手动设置该参数的意义在于,需要由开发者决定根节点向量的每个分量对叶子节点求导时的权重。