卷积网络主要应用在计算机视觉,具体的常规网络有LeNet, AlexNet, InceptionNet, ResNet。 每个网络的设计相对于上一个网络均有新的创新和设计。下边依次总结这些网络结构。
LeNet-5是1998年提出的一个卷积神经网络,假设输入一张32x32x1的灰度图,LeNet-5可以识别图片中的手写数字。LeNet 的网络结构很浅,通过卷积与池化得到一维向量,对这个向量做两层全连接进行预测。用的激活函数是sigmod.
AlexNet 相对于LeNet 做了相应的改进。主要是改进点是添加了多层的隐藏层和使用Relu 作为激活函数。AlexNet 使用训练的图片2242243,采用了复杂双GPU进行训练。AlexNet 最突出的创新点在于采用了Relu 激活函数,成功解决了Sigmoid在网络较深时的梯度弥散问题。同时也采用了DropOut, 随机忽略一部分神经元,以避免模型过拟合。
VGG的网络相对规整,增加了网络的深度。发现深度越深,学习的效果越好。相对应的训练参数增多,难度加大。
ResNet 网络是有何凯明提出的,常深的网络很难训练,因为存在梯度消失和梯度爆炸问题。跳跃连接(skip connection)可以从一个网络层获得激活,然后迅速反馈给另外一层,甚至是更深的层,利用跳跃连接构建能够训练非常深网络的ResNet,有时深度能超过100层。
InceptionNet 是由谷歌提出的,采用的结构也很规整。网络采用了11,33, 5*5 的卷积核。InceptionNet 创新点事对于一个Inception模块通过使用1x1卷积来减少计算成本,并行构建多种卷积操作但保持特征图大小不变,通道数可以任意变换,最后将所有的特征图的通道拼接起来。如此,又可以通过数据训练自动选择需要的卷积操作,又减少了计算成本。
介绍了基础网络,常用的还有迁移学习。迁移学习是指在其他数据集pretrained的网络迁移到其他的应用上。例如,我们经常用ImageNet 上训练好的网络(一般只修改后两层网络结果)放在其他的数据集上进行fine tunning 操作。其结果相对较好,是因为低层次的网络学习到了较低层次的信息,该信息可在其他的任务上进行复用。
数据扩充也是在计算机视觉中常用的技巧(毕竟可以低成本线性扩充数据)常用的技巧:翻转变换(flip),缩放变换(zoom),
平移变换(shift),对比度变换(contrast),噪声扰动(noise),颜色变换(color)。这些操作在openCV 都有相应的操作,我们只需修改部分参数即可获获得数据扩充。这些操作在github中也可以找到~。