Numpy是一个很棒的框架,但是它不能利用GPU来加速其数值计算。对于现代深度神经网络,GPU通常可以提供50倍或更高的加速比,因此不幸的是,仅凭numpy不足以实现现代深度学习。
最基本的PyTorch概念:Tensor(张量)。
PyTorch张量在概念上与numpy数组相同:张量是n维数组,而PyTorch提供了许多在这些张量上运行的功能。张量可以跟踪计算图和渐变,但它们也可用作科学计算的通用工具。
与numpy不同,PyTorch张量可以利用GPU加速其数字计算。要在GPU上运行PyTorch Tensor,只需要将其转换为新的数据类型。
1、view函数
view函数的作用为重构张量的维度,相当于numpy中resize()的功能。
2、乘法操作
torch.mul(a, b)是矩阵a和b对应位相乘,a和b的维度必须相等,比如a的维度是(1, 2),b的维度是(1, 2),返回的仍是(1, 2)的矩阵。
torch.mm(a, b)是矩阵a和b矩阵相乘,比如a的维度是(1, 2),b的维度是(2, 3),返回的就是(1, 3)的矩阵。
3、gather函数
函数torch.gather(input, dim, index, out=None) → Tensor
沿给定轴 dim ,将输入索引张量 index 指定位置的值进行聚合.
4、Torch Tensor和NumPy 相互转换
将一个Torch Tensor转换为NumPy数组:
a = torch.ones(5)
b = a.numpy()
NumPy Array 转化成 Torch Tensor:
a = np.ones(5)
b = torch.from_numpy(a)
5、Autograd: 自动求导机制
PyTorch 中所有神经网络的核心是 autograd 包。autograd包为张量上的所有操作提供了自动求导。 它是一个在运行时定义的框架,这意味着反向传播是根据你的代码来确定如何运行,并且每次迭代可以是不同的。
torch.Tensor是这个包的核心类。如果设置 .requires_grad 为 True,那么将会追踪所有对于该张量的操作。 当完成计算后通过调用 .backward(),自动计算所有的梯度, 这个张量的所有梯度将会自动积累到 .grad 属性。
要阻止张量跟踪历史记录,可以调用.detach()方法将其与计算历史记录分离,并禁止跟踪它将来的计算记录。
为了防止跟踪历史记录(和使用内存),可以将代码块包装在“with torch.no_grad():”中。 在评估模型时特别有用,因为模型可能具有requires_grad = True的可训练参数,但是我们不需要梯度计算。
在自动梯度计算中还有另外一个重要的类Function.
Tensor 和 Function互相连接并生成一个有向无环图,它表示和存储了完整的计算历史。 每个张量都有一个.grad_fn属性,这个属性引用了一个创建了Tensor的Function(除非这个张量是用户手动创建的,即,这个张量的 grad_fn 是 None)。
如果需要计算导数,你可以在Tensor上调用.backward()。 如果Tensor是一个标量(即它包含一个元素数据)则不需要为backward()指定任何参数, 但是如果它有更多的元素,你需要指定一个gradient 参数来匹配张量的形状。
在其他的文章中你可能会看到说将Tensor包裹到Variable中提供自动梯度计算,Variable 这个在0.41版中已经被标注为过期了,现在可以直接使用Tensor。
梯度计算举例:
import torch
#创建一个张量并设置 requires_grad=True 用来追踪他的计算历史
x = torch.ones(2, 2, requires_grad=True)
#对张量进行操作:
y = x + 2
z = y * y * 3
out = z.mean()
#计算梯度
#反向传播 因为 out是一个纯量(scalar),out.backward() 等于out.backward(torch.tensor(1))。
out.backward()
print(x.grad)