pytorch 中的一些小问题

pytorch张量的保存和恢复

tensor本身就是对象如果想要保存和恢复对应的对象使用 torch.save 和 torch.load即可
就像picke的load 和dump一样

t2 = torch.randn([1024, 1024])
torch.save(t2, "t1.pth")

t2l = torch.load(t2, "t1.pth")

当然save和load 还涉及到具体的设备比如在GPU上的变量被保存时应该怎么恢复到CPU上存在这个问题
这需要使用torch.load 中的 map_location 参数
具体看这里 torch.load 的设备映射参数

pytorch中的nn.Module 和nn.Sequencal 扮演了什么角色

模型本质上是一堆的tensor组成的计算图。 nn.Module其实就是一个外壳在文档中被称之为
Containers 把模型包括的一些作为参数的张量和张量之间的联系关系记录下来。之后可以一并返回给优化器。或者在保存的时候作为一个整体被保存到硬盘上。
对于nn.Module() 创建的对象是一个callable 对象本质上是一个函数

net = MyModule() # MyModule() extends from nn.Module 
output = net(input) # 其实调用给的是MyModule中的 forward()

pytorch模型的保存和恢复

最原始的方式是直接将Module整体 torch.save(nn.Module())
获取nn.Module 的state_dict 然后只使用torch.save保存state_dict 这样不保存模型结构这样会比较省时间和空间但是回复的时候必须要有先创建之前的模型的结构将使用torch.load() 载入的state_dict 载入到对应的 Module中即可这种适用于训练过程中保存模型的需求

pytorch中的优化器相关

对于计算图中的每个tensor 可以从loss标量开始使用loss.backward()计算出对应的每个tensor的梯度也就是 tensor.grad
创建一个优化器其时传入的参数是 Module的参数

# 将net1的参数传入到 SGD 优化器中
optimizer = torch.optim.SGD(net1.parameters(), lr=0.5)
# ....此处循环进行进行
optimizer.zero_grad() # 将优化器控制的网络参数的梯度清零
loss.backward()      # 反向传播计算给每个对应的tensor生成梯度
optimizer.step()     # step 就是根据learning rate 和backward 生成的参数 来更新tensor的值

pytorch中的损失函数

损失函数的调用举例

loss = nn.CrossEntropyLoss()
input = torch.randn(3, 5, requires_grad=True)
target = torch.empty(3, dtype=torch.long).random_(5)
output = loss(input, target)
output.backward()

从上面的例子中可以看到 nn.CrossEntropyLoss 这个类创建了对象以后直接把对象当做函数用这样看起来有一点奇怪但是实际上是在python中函数本身就是实现了 __call__() 方法的对象所以其实是在nn.CrossEntropyLoss的类方法__call__()中实现了计算交叉熵的逻辑

pytorch中的内置函数

pytorch的内置函数比如 nn.Relu() nn.Linear() 等和上面的交叉熵类似本质上是类实际上可以看做是一个可以定制化的函数可以把一些参数在创建具体对象的时候就像构造偏函数一样传入部分参数数据当做最终的参数传入