本次学习目标：

学习CNN基础和原理
使用pytorch框架构建CNN模型，并完成训练

1、卷积神经网络(Convolutional Neural Network,CNN)中常见层

卷积神经网络（简称CNN）是一类特殊的人工神经网路，是深度学习中重要的一个分支。CNN在很多领域都表现优异，精度和速度比较传统计算学习算法高很多。特别是在计算机视觉领域，CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。
CNN每一层由众多的卷积核组成，每个卷积核对输入的像素进行卷积操作，得到下一次的输入。随着网路层的增加卷积核会逐渐扩大感受野，并缩减图像尺寸。
CNN是一种层次模型，输入的是原始的像素数据。CNN通过卷积（convolution）、池化（pooling）、非线性激活函数（non-linear activation function）和全链接层（fully connected layer）构成。
如下图所示为Lenet网路结构，是非常经典的字符识别模型。两个卷积层，两个池化层，两个全链接层组成。卷积核都是5x5，stride=1，池化层使用最大池化。

图片.png

通过多次卷积和池化，CNN的最后一层将输入的图像像素映射为具体的输出。如在分类任务中会转换为不同类别的概率输出，然后计算真实标签与CNN模型的预测结果的差异，并通过反向传播更新每层的参数，并在更新完成后再次前向传播，如此反复直到训练完成。
与传统机器学习模型相比，CNN具有一种端到端（End to End）的思路。在CNN训练的过程中是直接从图像像素到最终的输出，并不涉及具体的特征提取和构建模型的过程，也不需要人工的参与。

1.1、卷积层（卷积的种类）

1.1.1、3D卷积

我们看到我们实际上是对一个3D体积执行卷积。但通常而言，我们仍在深度学习中称之为2D卷积。这是在3D体积数据上的2D卷积。过滤深度与输入层深度一样。这个3D过滤仅沿两个方向移动（图像的搞和宽）。这种操作的输出是一张2D图像（仅有一个通道）。
很自然，3D卷积确实存在。这是2D卷积的泛化。下面就是3D卷积，其过滤器深度小于输入层深度（核大小<通道大小）。因此，3D过滤可以在所有三个方向（图像的高度、宽度、通道）上移动。在每个位置，逐元素的乘法和加法都会提供一个数值。因为过滤器是滑过一个3D空间，所以输出数值也按3D空间排布。也就是说输出是一个3D数据。
在3D卷积中，3D过滤器可以在所有三个方向（图像的高度、宽度、通道）上移动。每个位置，逐元素的乘法和加法都会提供一个数值。因为过滤器是滑过一个3D空间，所以输出数值也按3D空间排布。也就是说输出是一个3D数据。
与2D卷积（编码了2D域中目标的空间关系）类似，3D卷积可以描述3D空间中目标的空间关系。对某些应用（比如生物医学影像中的3D分割/重构）而言，这样的3D关系很重要，比如在CT和MRI中，血管之类的目标会在3D空间中蜿蜒曲折。

图片.png

1.1.2、转置卷积（去卷积、反卷积、解卷积）

对于很多网络架构的很多应用而言，我们往往需要进行与普通卷积方向相反的转换，即我们希望执行行上采样。例子包括生成高分辨图像以及将低维特征映射到高维空间，比如在自动编码器或形义分割中。（在后者的例子中，形义分割首先会提取编码器中的特征图，然后在解码器中恢复原来的图像大小，使其可以分类原始图像中的每个像素。）
实现上采样的传统方法是应用插值方案或人工创建规则。而神经网络等现代架构则倾向于让网络自己自动学习适合的变换，无需人类干预。为了做到这一点，我们可以使用：转置卷积。
转置卷积在文献中也被称为去卷积或fractionally strided convolution。但是，需要指出[去卷积deconvolution]这个名称并不是很适合，因为转置卷积并非信号/图像处理领域定义的那种真正的去卷积。从技术上讲，信号处理中的去卷积是卷积运算的逆运算。但是这里却不是这种运算。因此，某些作者强烈反对将转置卷积称为去卷积。人们称之为去卷积主要是因为这样说很简单。后面我们会介绍为什么将这种运算称为转置卷积更自然且更适合。
我们一直都可以使用直接的卷积实现转置卷积。对于下图的例子，我们在一个2x2的输入（周围加了2x2单位步长的零填充）上应用一个3x3核的转置卷积。上采样输出的大小是4x4。

图片.png

有趣的是，通过应用各种填充和步长，我们可以将同样的2x2输入图像映射到不同的图像尺寸。下面，转置卷积被用在了同一张2x2输入上（输入之间插入了一个零，并且周围加了2x2的单位步长的零填充），所以输出的大小是5x5。

图片.png

1.1.3、扩张卷积（Atrous 卷积、空洞卷积（Dilated convolution））

扩张卷积就是通过在核元素之间插入空格使核[膨胀]。新增的参数l（扩张率）表示我们希望将核加宽的程度。具体实现可能各有不相同，但通常是在核元素之间插入l-1个空格。下面展示了l = 1,2,4时的核大小。
具体扩张卷积如下图所示：

图片.png

1.1.4、可分卷积

某些神经网络架构使用了可分卷积，比如 MobileNets。可分卷积有空间可分卷积和深度可分卷积。
1、空间可分卷积
2、深度可分卷积

1.1.5、分组卷积

AlexNet 论文（https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf）在 2012 年引入了分组卷积。实现分组卷积的主要原因是让网络训练可在 2 个内存有限（每个 GPU 有 1.5 GB 内存）的 GPU 上进行。下面的 AlexNet 表明在大多数层中都有两个分开的卷积路径。这是在两个 GPU 上执行模型并行化（当然如果可以使用更多 GPU，还能执行多 GPU 并行化）。

图片.png

图片来自AlexNet论文

1.1.6、单通道卷积

图片.png

1.1.7、多通道卷积

多通道卷积就是正常的卷积

输入层是一个5 x 5 x 3矩阵，有3个通道。滤波器是3 x 3 x 3矩阵。首先，过滤器中的每个内核分别应用于输入层中的三个通道,并相加；然后，执行三次卷积，产生3个尺寸为3×3的通道。

图片.png

1.1.8、1x1卷积

图片.png

1.2、池化层

1.2.1、最大池化层

1.2.2、平均池化层

1.3、激活层

1.3.1、RELU

1.3.2、Sigmoid

1.3.3、Tanh

1.3.4、Leaky Relu

等等

2、CNN发展

网络发展.png

Le_net.png

Alex-net.png

VGG.png

Incep-net.png

Resnet50.png

3、Pytorch构建CNN模型

在pytorch中构建CNN模型非常简单，只需要定义好模型的参数和正向传播即可，pytorch会根据正向传播自动计算反向传播。
下面代码构建的CNN模型包括两个卷积层，最后并联6个全连接层进行分类。

import torch
torch.manual_seed(0)
torch.backends.cudnn.deterministic = False
torch.backends.cudnn.benchmark = True

import torchvision.models as models
import torchvision.transforms as transforms
import torchvision.datasets as datasets
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
from torch.utils.data.dataset import Dataset

# 定义模型
class SVHN_Model1(nn.Module):
    def __init__(self):
        super(SVHN_Model1, self).__init__()
        # CNN提取特征模块
        self.cnn = nn.Sequential(
            nn.Conv2d(3, 16, kernel_size=(3, 3), stride=(2, 2)),
            nn.ReLU(),  
            nn.MaxPool2d(2),
            nn.Conv2d(16, 32, kernel_size=(3, 3), stride=(2, 2)),
            nn.ReLU(), 
            nn.MaxPool2d(2),
        )
        # 
        self.fc1 = nn.Linear(32*3*7, 11)
        self.fc2 = nn.Linear(32*3*7, 11)
        self.fc3 = nn.Linear(32*3*7, 11)
        self.fc4 = nn.Linear(32*3*7, 11)
        self.fc5 = nn.Linear(32*3*7, 11)
        self.fc6 = nn.Linear(32*3*7, 11)

    def forward(self, img):        
        feat = self.cnn(img)
        feat = feat.view(feat.shape[0], -1)
        c1 = self.fc1(feat)
        c2 = self.fc2(feat)
        c3 = self.fc3(feat)
        c4 = self.fc4(feat)
        c5 = self.fc5(feat)
        c6 = self.fc6(feat)
        return c1, c2, c3, c4, c5, c6

model = SVHN_Model1()

接下来训练代码：

# 损失函数
criterion = nn.CrossEntropyLoss()
# 优化器
optimizer = torch.optim.Adam(model.parameters(), 0.005)

loss_plot, c0_plot = [], []
# 迭代10个Epoch
for epoch in range(10):
    for data in train_loader:
        c0, c1, c2, c3, c4, c5 = model(data[0])
        loss = criterion(c0, data[1][:, 0]) + \
                   criterion(c1, data[1][:, 1]) + \
                   criterion(c2, data[1][:, 2]) + \
                   criterion(c3, data[1][:, 3]) + \
                   criterion(c4, data[1][:, 4]) + \
                   criterion(c5, data[1][:, 5])
        loss /= 6
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
        loss_plot.append(loss.item())
        c0_plot.append((c0.argmax(1) == data[1][:, 0]).sum().item()*1.0 / c0.shape[0])
    
    print(epoch)

在训练完成后我们可以将训练过程中的损失和准确率进行绘制，如下图所示。从图中可以看出模型的损失在迭代过程中逐渐减小，字符预测的准确率逐渐升高。

loss.png

如果想要更好的精度的话，可以采用imagenet上的预训练模型接着迭代：

class SVHN_Model2(nn.Module):
    def __init__(self):
        super(SVHN_Model1, self).__init__()
            
        model_conv = models.resnet18(pretrained=True)
        model_conv.avgpool = nn.AdaptiveAvgPool2d(1)
        model_conv = nn.Sequential(*list(model_conv.children())[:-1])
        self.cnn = model_conv
    
        self.fc1 = nn.Linear(512, 11)
        self.fc2 = nn.Linear(512, 11)
        self.fc3 = nn.Linear(512, 11)
        self.fc4 = nn.Linear(512, 11)
        self.fc5 = nn.Linear(512, 11)

    def forward(self, img):        
        feat = self.cnn(img)
        # print(feat.shape)
        feat = feat.view(feat.shape[0], -1)
        c1 = self.fc1(feat)
        c2 = self.fc2(feat)
        c3 = self.fc3(feat)
        c4 = self.fc4(feat)
        c5 = self.fc5(feat)
        return c1, c2, c3, c4, c5

4、总结

这次学习了怎么利用pytorch构建一个可以训练的卷积神经网络。其中有些知识点是自己以前学习时记的笔记，如有侵权联系我加上参考链接。

Task3 字符识别模型

Task3 字符识别模型

1、卷积神经网络(Convolutional Neural Network,CNN)中常见层

1.1、卷积层（卷积的种类）

1.1.1、3D卷积

1.1.2、转置卷积（去卷积、反卷积、解卷积）

1.1.3、扩张卷积（Atrous 卷积、空洞卷积（Dilated convolution））

1.1.4、可分卷积

1.1.5、分组卷积

1.1.6、单通道卷积

1.1.7、多通道卷积

1.1.8、1x1卷积

1.2、池化层

1.2.1、最大池化层

1.2.2、平均池化层

1.3、激活层

1.3.1、RELU

1.3.2、Sigmoid

1.3.3、Tanh

1.3.4、Leaky Relu

2、CNN发展

3、Pytorch构建CNN模型

4、总结