基于Pytorch训练神经网络的典型步骤

训练神经网络的典型步骤

  • 定义具有一个权重可学习的神经网络,及其损失函数
  • 遍历输入数据集
  • 前向计算得到输出(forward)
  • 通过损失函数计算损失(Loss)
  • 通过反向传播法,计算各个神经元的梯度
  • 更新网络的权重: weight = weight - learning_rate * gradient

第一步,定义神经网络,并执行前向计算(forward)。用户只需要定义forward函数,backward()方法就可以自动计算梯度。

import torch
import torch.nn as nn
import torch.nn.functional as F 

class Net(nn.Module): # 自定义神经网络类必须从nn.Module继承
    
    def __init__(self):
        super().__init__()  #初始化父类
        # 1 input image channel, 6 output channels, 3x3 conv kernel
        self.conv1 = nn.Conv2d(1, 6, 3)
        self.conv2 = nn.Conv2d(6, 16, 3)
        # fully-connected layers
        self.fc1 = nn.Linear(16*6*6, 120) # 6x6 image dimension
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
    
    def forward(self, x): #必须定义前向计算方法
        x = F.max_pool2d(F.relu(self.conv1(x)), 2)
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(-1, self.num_flat_features(x))
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x
    
    def num_flat_features(self, x):
        size = x.size()[1:]
        num_features = 1
        for s in size:
            num_features *= s
        return num_features


net = Net()
print(net)

params = list(net.parameters())
print(len(params))
for param in params:
    print(param.size())

input = torch.randn(1, 32, 32) #单个样本 channels x height x width
print(input.size())
input.unsqueeze_(0) # 构造出 mini-batches: nSamples x 单个样本 channels x height x width
print(input.size())
out = net(input)
print(out)

结果:

Net(
(conv1): Conv2d(1, 6, kernel_size=(3, 3), stride=(1, 1))
(conv2): Conv2d(6, 16, kernel_size=(3, 3), stride=(1, 1))
(fc1): Linear(in_features=576, out_features=120, bias=True)
(fc2): Linear(in_features=120, out_features=84, bias=True)
(fc3): Linear(in_features=84, out_features=10, bias=True)
)
10
torch.Size([6, 1, 3, 3])
torch.Size([6]) # bias
torch.Size([16, 6, 3, 3])
torch.Size([16]) # bias
torch.Size([120, 576])
torch.Size([120]) # bias
torch.Size([84, 120])
torch.Size([84]) # bias
torch.Size([10, 84])
torch.Size([10]) # bias
tensor([[-0.0017, -0.1201, 0.0749, -0.0046, -0.1258, -0.0141, -0.1134, 0.0689,
-0.0086, 0.0619]], grad_fn=<AddmmBackward>)

torch.nn仅支持:mini-batches方式; 若是单一样本,也要用语句:

input.unsqueeze_(0) # input格式为:nChannels x Height x Width

构造出mini-batches的格式,即:nSamples x nChannels x Height x Width

第二步:定义损失函数,执行反向传播法。损失函数输入(out,target),并计算一个值,该值估计out与target的距离。nn软件包下有几种不同的 损失函数。一个简单的损失函数是:nn.MSELoss计算输入和目标之间的均方误差

# 构造出target
target = torch.zeros(10)
target = target.view(1, -1) # The same shape of out
print(target.shape, out.shape)

criterion = nn.MSELoss() # 使用torch库计算Mean Square Error
loss = criterion(out, target)
loss1 = (out**2).mean() #手动计算均方误差
print(loss, loss1)

#反向查看各层的梯度函数
print(loss.grad_fn) # Loss gradient funciton
print(loss.grad_fn.next_functions[0][0]) # Linear gradient funciton
print(loss.grad_fn.next_functions[0][0].next_functions[0][0]) # Relu gradient funciton

#反向传播法,注意梯度是积累的,需要手动将梯度缓冲区设置为零

net.zero_grad()             # 手动将梯度缓冲区设置为零
print(net.conv2.bias.grad)  # 查看conv2.bias的梯度值

loss.backward() #执行反向传播

print(net.conv2.bias.grad) #查看conv2.bias的梯度值

输出结果:

torch.Size([1, 10]) torch.Size([1, 10])
tensor(0.0061, grad_fn=<MseLossBackward>) tensor(0.0061, grad_fn=<MeanBackward0>)
<MseLossBackward object at 0x0000023F445B7E88>
<AddmmBackward object at 0x0000023F48396A88>
<AccumulateGrad object at 0x0000023F48396A88>
None
tensor([-0.0018, 0.0005, 0.0013, -0.0012, -0.0002, -0.0005, 0.0014, -0.0001,
0.0021, -0.0005, 0.0002, -0.0003, -0.0006, 0.0018, 0.0012, 0.0005])

第三步,也是最后一步,更新网络的权重。获得各个神经元的梯度后,可以用最简单的方式,更新神经网络的参数:

weight = weight - learning_rate * gradient

# 手动实现SGD
learning_rate = 0.01
for f in net.parameters():
    f.data.sub_(f.grad.data * learning_rate)

上述这种简单的更新网络参数的方式叫:SGD,Stochastic Gradient Descent;还有更有效的参数更新方法:SGD,Nesterov-SGD,Adam,RMSProp;各种优化算法比较《An overview of gradient descent optimization algorithms》
结论是:Adagrad, Adadelta, RMSprop, 和 Adam 效果最好,适用面最广

梯度下降法优化算法比较

Pytorch的torch.optim模块中已经实现了Adadelta、Adagrad、Adam、SparseAdam、Adamax、ASGD、LBFGS、RMSprop、Rprop和SGD,直接选用就行。基于torch.optim模块的网络参数更新代码:

import torch.optim as optim

# 选择并创建优化器
optimizer = optim.SGD(net.parameters(), lr=0.01)

# 循环执行下列步骤
optimizer.zero_grad()   # 将上一次的梯度值清零
output = net(input)     # 执行forward()计算
loss = criterion(output, target) # 计算Loss值
loss.backward()     # 执行反向传播法
optimizer.step()    # 更新网络参数
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352