Task3 字符识别模型

本次学习目标:

  • 学习CNN基础和原理
  • 使用pytorch框架构建CNN模型,并完成训练

1、卷积神经网络(Convolutional Neural Network,CNN)中常见层

卷积神经网络(简称CNN)是一类特殊的人工神经网路,是深度学习中重要的一个分支。CNN在很多领域都表现优异,精度和速度比较传统计算学习算法高很多。特别是在计算机视觉领域,CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。
CNN每一层由众多的卷积核组成,每个卷积核对输入的像素进行卷积操作,得到下一次的输入。随着网路层的增加卷积核会逐渐扩大感受野,并缩减图像尺寸。
CNN是一种层次模型,输入的是原始的像素数据。CNN通过卷积(convolution)、池化(pooling)、非线性激活函数(non-linear activation function)和全链接层(fully connected layer)构成。
如下图所示为Lenet网路结构,是非常经典的字符识别模型。两个卷积层,两个池化层,两个全链接层组成。卷积核都是5x5,stride=1,池化层使用最大池化。


图片.png

通过多次卷积和池化,CNN的最后一层将输入的图像像素映射为具体的输出。如在分类任务中会转换为不同类别的概率输出,然后计算真实标签与CNN模型的预测结果的差异,并通过反向传播更新每层的参数,并在更新完成后再次前向传播,如此反复直到训练完成。
与传统机器学习模型相比,CNN具有一种端到端(End to End)的思路。在CNN训练的过程中是直接从图像像素到最终的输出,并不涉及具体的特征提取和构建模型的过程,也不需要人工的参与。

1.1、卷积层(卷积的种类)

1.1.1、3D卷积

我们看到我们实际上是对一个3D体积执行卷积。但通常而言,我们仍在深度学习中称之为2D卷积。这是在3D体积数据上的2D卷积。过滤深度与输入层深度一样。这个3D过滤仅沿两个方向移动(图像的搞和宽)。这种操作的输出是一张2D图像(仅有一个通道)。
很自然,3D卷积确实存在。这是2D卷积的泛化。下面就是3D卷积,其过滤器深度小于输入层深度(核大小<通道大小)。因此,3D过滤可以在所有三个方向(图像的高度、宽度、通道)上移动。在每个位置,逐元素的乘法和加法都会提供一个数值。因为过滤器是滑过一个3D空间,所以输出数值也按3D空间排布。也就是说输出是一个3D数据。
在3D卷积中,3D过滤器可以在所有三个方向(图像的高度、宽度、通道)上移动。每个位置,逐元素的乘法和加法都会提供一个数值。因为过滤器是滑过一个3D空间,所以输出数值也按3D空间排布。也就是说输出是一个3D数据。
与2D卷积(编码了2D域中目标的空间关系)类似,3D卷积可以描述3D空间中目标的空间关系。对某些应用(比如生物医学影像中的3D分割/重构)而言,这样的3D关系很重要,比如在CT和MRI中,血管之类的目标会在3D空间中蜿蜒曲折。


图片.png

1.1.2、转置卷积(去卷积、反卷积、解卷积)

对于很多网络架构的很多应用而言,我们往往需要进行与普通卷积方向相反的转换,即我们希望执行行上采样。例子包括生成高分辨图像以及将低维特征映射到高维空间,比如在自动编码器或形义分割中。(在后者的例子中,形义分割首先会提取编码器中的特征图,然后在解码器中恢复原来的图像大小,使其可以分类原始图像中的每个像素。)
实现上采样的传统方法是应用插值方案或人工创建规则。而神经网络等现代架构则倾向于让网络自己自动学习适合的变换,无需人类干预。为了做到这一点,我们可以使用:转置卷积。
转置卷积在文献中也被称为去卷积或fractionally strided convolution。但是,需要指出[去卷积deconvolution]这个名称并不是很适合,因为转置卷积并非信号/图像处理领域定义的那种真正的去卷积。从技术上讲,信号处理中的去卷积是卷积运算的逆运算。但是这里却不是这种运算。因此,某些作者强烈反对将转置卷积称为去卷积。人们称之为去卷积主要是因为这样说很简单。后面我们会介绍为什么将这种运算称为转置卷积更自然且更适合。
我们一直都可以使用直接的卷积实现转置卷积。对于下图的例子,我们在一个2x2的输入(周围加了2x2单位步长的零填充)上应用一个3x3核的转置卷积。上采样输出的大小是4x4。


图片.png

有趣的是,通过应用各种填充和步长,我们可以将同样的2x2输入图像映射到不同的图像尺寸。下面,转置卷积被用在了同一张2x2输入上(输入之间插入了一个零,并且周围加了2x2的单位步长的零填充),所以输出的大小是5x5。


图片.png

1.1.3、扩张卷积(Atrous 卷积、空洞卷积(Dilated convolution))

扩张卷积就是通过在核元素之间插入空格使核[膨胀]。新增的参数l(扩张率)表示我们希望将核加宽的程度。具体实现可能各有不相同,但通常是在核元素之间插入l-1个空格。下面展示了l = 1,2,4时的核大小。
具体扩张卷积如下图所示:


图片.png

1.1.4、可分卷积

某些神经网络架构使用了可分卷积,比如 MobileNets。可分卷积有空间可分卷积和深度可分卷积。
1、空间可分卷积
2、深度可分卷积

1.1.5、分组卷积

AlexNet 论文(https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf)在 2012 年引入了分组卷积。实现分组卷积的主要原因是让网络训练可在 2 个内存有限(每个 GPU 有 1.5 GB 内存)的 GPU 上进行。下面的 AlexNet 表明在大多数层中都有两个分开的卷积路径。这是在两个 GPU 上执行模型并行化(当然如果可以使用更多 GPU,还能执行多 GPU 并行化)。

图片.png

图片来自AlexNet论文

1.1.6、单通道卷积

图片.png

1.1.7、多通道卷积

多通道卷积就是正常的卷积

输入层是一个5 x 5 x 3矩阵,有3个通道。滤波器是3 x 3 x 3矩阵。首先,过滤器中的每个内核分别应用于输入层中的三个通道,并相加;然后,执行三次卷积,产生3个尺寸为3×3的通道。


图片.png

1.1.8、1x1卷积

图片.png

1.2、池化层

1.2.1、最大池化层

1.2.2、平均池化层

1.3、激活层

1.3.1、RELU

1.3.2、Sigmoid

1.3.3、Tanh

1.3.4、Leaky Relu

等等

2、CNN发展

网络发展.png

Le_net.png

Alex-net.png

VGG.png

Incep-net.png
Resnet50.png

3、Pytorch构建CNN模型

在pytorch中构建CNN模型非常简单,只需要定义好模型的参数和正向传播即可,pytorch会根据正向传播自动计算反向传播。
下面代码构建的CNN模型包括两个卷积层,最后并联6个全连接层进行分类。

import torch
torch.manual_seed(0)
torch.backends.cudnn.deterministic = False
torch.backends.cudnn.benchmark = True

import torchvision.models as models
import torchvision.transforms as transforms
import torchvision.datasets as datasets
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
from torch.utils.data.dataset import Dataset

# 定义模型
class SVHN_Model1(nn.Module):
    def __init__(self):
        super(SVHN_Model1, self).__init__()
        # CNN提取特征模块
        self.cnn = nn.Sequential(
            nn.Conv2d(3, 16, kernel_size=(3, 3), stride=(2, 2)),
            nn.ReLU(),  
            nn.MaxPool2d(2),
            nn.Conv2d(16, 32, kernel_size=(3, 3), stride=(2, 2)),
            nn.ReLU(), 
            nn.MaxPool2d(2),
        )
        # 
        self.fc1 = nn.Linear(32*3*7, 11)
        self.fc2 = nn.Linear(32*3*7, 11)
        self.fc3 = nn.Linear(32*3*7, 11)
        self.fc4 = nn.Linear(32*3*7, 11)
        self.fc5 = nn.Linear(32*3*7, 11)
        self.fc6 = nn.Linear(32*3*7, 11)

    def forward(self, img):        
        feat = self.cnn(img)
        feat = feat.view(feat.shape[0], -1)
        c1 = self.fc1(feat)
        c2 = self.fc2(feat)
        c3 = self.fc3(feat)
        c4 = self.fc4(feat)
        c5 = self.fc5(feat)
        c6 = self.fc6(feat)
        return c1, c2, c3, c4, c5, c6

model = SVHN_Model1()

接下来训练代码:

# 损失函数
criterion = nn.CrossEntropyLoss()
# 优化器
optimizer = torch.optim.Adam(model.parameters(), 0.005)

loss_plot, c0_plot = [], []
# 迭代10个Epoch
for epoch in range(10):
    for data in train_loader:
        c0, c1, c2, c3, c4, c5 = model(data[0])
        loss = criterion(c0, data[1][:, 0]) + \
                   criterion(c1, data[1][:, 1]) + \
                   criterion(c2, data[1][:, 2]) + \
                   criterion(c3, data[1][:, 3]) + \
                   criterion(c4, data[1][:, 4]) + \
                   criterion(c5, data[1][:, 5])
        loss /= 6
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
        loss_plot.append(loss.item())
        c0_plot.append((c0.argmax(1) == data[1][:, 0]).sum().item()*1.0 / c0.shape[0])
    
    print(epoch)

在训练完成后我们可以将训练过程中的损失和准确率进行绘制,如下图所示。从图中可以看出模型的损失在迭代过程中逐渐减小,字符预测的准确率逐渐升高。


loss.png

如果想要更好的精度的话,可以采用imagenet上的预训练模型接着迭代:

class SVHN_Model2(nn.Module):
    def __init__(self):
        super(SVHN_Model1, self).__init__()
            
        model_conv = models.resnet18(pretrained=True)
        model_conv.avgpool = nn.AdaptiveAvgPool2d(1)
        model_conv = nn.Sequential(*list(model_conv.children())[:-1])
        self.cnn = model_conv
    
        self.fc1 = nn.Linear(512, 11)
        self.fc2 = nn.Linear(512, 11)
        self.fc3 = nn.Linear(512, 11)
        self.fc4 = nn.Linear(512, 11)
        self.fc5 = nn.Linear(512, 11)

    def forward(self, img):        
        feat = self.cnn(img)
        # print(feat.shape)
        feat = feat.view(feat.shape[0], -1)
        c1 = self.fc1(feat)
        c2 = self.fc2(feat)
        c3 = self.fc3(feat)
        c4 = self.fc4(feat)
        c5 = self.fc5(feat)
        return c1, c2, c3, c4, c5

4、总结

这次学习了怎么利用pytorch构建一个可以训练的卷积神经网络。其中有些知识点是自己以前学习时记的笔记,如有侵权联系我加上参考链接。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,639评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,093评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,079评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,329评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,343评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,047评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,645评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,565评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,095评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,201评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,338评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,014评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,701评论 3 332
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,194评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,320评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,685评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,345评论 2 358