本次学习目标:
- 学习CNN基础和原理
- 使用pytorch框架构建CNN模型,并完成训练
1、卷积神经网络(Convolutional Neural Network,CNN)中常见层
卷积神经网络(简称CNN)是一类特殊的人工神经网路,是深度学习中重要的一个分支。CNN在很多领域都表现优异,精度和速度比较传统计算学习算法高很多。特别是在计算机视觉领域,CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。
CNN每一层由众多的卷积核组成,每个卷积核对输入的像素进行卷积操作,得到下一次的输入。随着网路层的增加卷积核会逐渐扩大感受野,并缩减图像尺寸。
CNN是一种层次模型,输入的是原始的像素数据。CNN通过卷积(convolution)、池化(pooling)、非线性激活函数(non-linear activation function)和全链接层(fully connected layer)构成。
如下图所示为Lenet网路结构,是非常经典的字符识别模型。两个卷积层,两个池化层,两个全链接层组成。卷积核都是5x5,stride=1,池化层使用最大池化。
通过多次卷积和池化,CNN的最后一层将输入的图像像素映射为具体的输出。如在分类任务中会转换为不同类别的概率输出,然后计算真实标签与CNN模型的预测结果的差异,并通过反向传播更新每层的参数,并在更新完成后再次前向传播,如此反复直到训练完成。
与传统机器学习模型相比,CNN具有一种端到端(End to End)的思路。在CNN训练的过程中是直接从图像像素到最终的输出,并不涉及具体的特征提取和构建模型的过程,也不需要人工的参与。
1.1、卷积层(卷积的种类)
1.1.1、3D卷积
我们看到我们实际上是对一个3D体积执行卷积。但通常而言,我们仍在深度学习中称之为2D卷积。这是在3D体积数据上的2D卷积。过滤深度与输入层深度一样。这个3D过滤仅沿两个方向移动(图像的搞和宽)。这种操作的输出是一张2D图像(仅有一个通道)。
很自然,3D卷积确实存在。这是2D卷积的泛化。下面就是3D卷积,其过滤器深度小于输入层深度(核大小<通道大小)。因此,3D过滤可以在所有三个方向(图像的高度、宽度、通道)上移动。在每个位置,逐元素的乘法和加法都会提供一个数值。因为过滤器是滑过一个3D空间,所以输出数值也按3D空间排布。也就是说输出是一个3D数据。
在3D卷积中,3D过滤器可以在所有三个方向(图像的高度、宽度、通道)上移动。每个位置,逐元素的乘法和加法都会提供一个数值。因为过滤器是滑过一个3D空间,所以输出数值也按3D空间排布。也就是说输出是一个3D数据。
与2D卷积(编码了2D域中目标的空间关系)类似,3D卷积可以描述3D空间中目标的空间关系。对某些应用(比如生物医学影像中的3D分割/重构)而言,这样的3D关系很重要,比如在CT和MRI中,血管之类的目标会在3D空间中蜿蜒曲折。
1.1.2、转置卷积(去卷积、反卷积、解卷积)
对于很多网络架构的很多应用而言,我们往往需要进行与普通卷积方向相反的转换,即我们希望执行行上采样。例子包括生成高分辨图像以及将低维特征映射到高维空间,比如在自动编码器或形义分割中。(在后者的例子中,形义分割首先会提取编码器中的特征图,然后在解码器中恢复原来的图像大小,使其可以分类原始图像中的每个像素。)
实现上采样的传统方法是应用插值方案或人工创建规则。而神经网络等现代架构则倾向于让网络自己自动学习适合的变换,无需人类干预。为了做到这一点,我们可以使用:转置卷积。
转置卷积在文献中也被称为去卷积或fractionally strided convolution。但是,需要指出[去卷积deconvolution]这个名称并不是很适合,因为转置卷积并非信号/图像处理领域定义的那种真正的去卷积。从技术上讲,信号处理中的去卷积是卷积运算的逆运算。但是这里却不是这种运算。因此,某些作者强烈反对将转置卷积称为去卷积。人们称之为去卷积主要是因为这样说很简单。后面我们会介绍为什么将这种运算称为转置卷积更自然且更适合。
我们一直都可以使用直接的卷积实现转置卷积。对于下图的例子,我们在一个2x2的输入(周围加了2x2单位步长的零填充)上应用一个3x3核的转置卷积。上采样输出的大小是4x4。
有趣的是,通过应用各种填充和步长,我们可以将同样的2x2输入图像映射到不同的图像尺寸。下面,转置卷积被用在了同一张2x2输入上(输入之间插入了一个零,并且周围加了2x2的单位步长的零填充),所以输出的大小是5x5。
1.1.3、扩张卷积(Atrous 卷积、空洞卷积(Dilated convolution))
扩张卷积就是通过在核元素之间插入空格使核[膨胀]。新增的参数l(扩张率)表示我们希望将核加宽的程度。具体实现可能各有不相同,但通常是在核元素之间插入l-1个空格。下面展示了l = 1,2,4时的核大小。
具体扩张卷积如下图所示:
1.1.4、可分卷积
某些神经网络架构使用了可分卷积,比如 MobileNets。可分卷积有空间可分卷积和深度可分卷积。
1、空间可分卷积
2、深度可分卷积
1.1.5、分组卷积
AlexNet 论文(https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf)在 2012 年引入了分组卷积。实现分组卷积的主要原因是让网络训练可在 2 个内存有限(每个 GPU 有 1.5 GB 内存)的 GPU 上进行。下面的 AlexNet 表明在大多数层中都有两个分开的卷积路径。这是在两个 GPU 上执行模型并行化(当然如果可以使用更多 GPU,还能执行多 GPU 并行化)。
图片来自AlexNet论文
1.1.6、单通道卷积
1.1.7、多通道卷积
多通道卷积就是正常的卷积
输入层是一个5 x 5 x 3矩阵,有3个通道。滤波器是3 x 3 x 3矩阵。首先,过滤器中的每个内核分别应用于输入层中的三个通道,并相加;然后,执行三次卷积,产生3个尺寸为3×3的通道。
1.1.8、1x1卷积
1.2、池化层
1.2.1、最大池化层
1.2.2、平均池化层
1.3、激活层
1.3.1、RELU
1.3.2、Sigmoid
1.3.3、Tanh
1.3.4、Leaky Relu
等等
2、CNN发展
3、Pytorch构建CNN模型
在pytorch中构建CNN模型非常简单,只需要定义好模型的参数和正向传播即可,pytorch会根据正向传播自动计算反向传播。
下面代码构建的CNN模型包括两个卷积层,最后并联6个全连接层进行分类。
import torch
torch.manual_seed(0)
torch.backends.cudnn.deterministic = False
torch.backends.cudnn.benchmark = True
import torchvision.models as models
import torchvision.transforms as transforms
import torchvision.datasets as datasets
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
from torch.utils.data.dataset import Dataset
# 定义模型
class SVHN_Model1(nn.Module):
def __init__(self):
super(SVHN_Model1, self).__init__()
# CNN提取特征模块
self.cnn = nn.Sequential(
nn.Conv2d(3, 16, kernel_size=(3, 3), stride=(2, 2)),
nn.ReLU(),
nn.MaxPool2d(2),
nn.Conv2d(16, 32, kernel_size=(3, 3), stride=(2, 2)),
nn.ReLU(),
nn.MaxPool2d(2),
)
#
self.fc1 = nn.Linear(32*3*7, 11)
self.fc2 = nn.Linear(32*3*7, 11)
self.fc3 = nn.Linear(32*3*7, 11)
self.fc4 = nn.Linear(32*3*7, 11)
self.fc5 = nn.Linear(32*3*7, 11)
self.fc6 = nn.Linear(32*3*7, 11)
def forward(self, img):
feat = self.cnn(img)
feat = feat.view(feat.shape[0], -1)
c1 = self.fc1(feat)
c2 = self.fc2(feat)
c3 = self.fc3(feat)
c4 = self.fc4(feat)
c5 = self.fc5(feat)
c6 = self.fc6(feat)
return c1, c2, c3, c4, c5, c6
model = SVHN_Model1()
接下来训练代码:
# 损失函数
criterion = nn.CrossEntropyLoss()
# 优化器
optimizer = torch.optim.Adam(model.parameters(), 0.005)
loss_plot, c0_plot = [], []
# 迭代10个Epoch
for epoch in range(10):
for data in train_loader:
c0, c1, c2, c3, c4, c5 = model(data[0])
loss = criterion(c0, data[1][:, 0]) + \
criterion(c1, data[1][:, 1]) + \
criterion(c2, data[1][:, 2]) + \
criterion(c3, data[1][:, 3]) + \
criterion(c4, data[1][:, 4]) + \
criterion(c5, data[1][:, 5])
loss /= 6
optimizer.zero_grad()
loss.backward()
optimizer.step()
loss_plot.append(loss.item())
c0_plot.append((c0.argmax(1) == data[1][:, 0]).sum().item()*1.0 / c0.shape[0])
print(epoch)
在训练完成后我们可以将训练过程中的损失和准确率进行绘制,如下图所示。从图中可以看出模型的损失在迭代过程中逐渐减小,字符预测的准确率逐渐升高。
如果想要更好的精度的话,可以采用imagenet上的预训练模型接着迭代:
class SVHN_Model2(nn.Module):
def __init__(self):
super(SVHN_Model1, self).__init__()
model_conv = models.resnet18(pretrained=True)
model_conv.avgpool = nn.AdaptiveAvgPool2d(1)
model_conv = nn.Sequential(*list(model_conv.children())[:-1])
self.cnn = model_conv
self.fc1 = nn.Linear(512, 11)
self.fc2 = nn.Linear(512, 11)
self.fc3 = nn.Linear(512, 11)
self.fc4 = nn.Linear(512, 11)
self.fc5 = nn.Linear(512, 11)
def forward(self, img):
feat = self.cnn(img)
# print(feat.shape)
feat = feat.view(feat.shape[0], -1)
c1 = self.fc1(feat)
c2 = self.fc2(feat)
c3 = self.fc3(feat)
c4 = self.fc4(feat)
c5 = self.fc5(feat)
return c1, c2, c3, c4, c5
4、总结
这次学习了怎么利用pytorch构建一个可以训练的卷积神经网络。其中有些知识点是自己以前学习时记的笔记,如有侵权联系我加上参考链接。