- LeNet-5:这是最早的 CNN 模型之一,用于手写数字识别。
- AlexNet:在 LeNet-5 的基础上进行了改进,是 2012 年 ImageNet 竞赛的冠军模型。
- VGG:该模型在 AlexNet 基础上进一步加深了网络结构,提高了性能。
- GoogLeNet:这是一种高效的 CNN 模型,使用了 Inception 模块。
- ResNet:具有残差连接的深度 CNN 模型,在许多图像识别任务中表现出色。
- DenseNet:通过密集连接来增强特征传播,提高了模型的性能和效率。
- SENet:基于注意力机制的 CNN 模型,能够自适应地选择重要特征。
- EfficientNet:结合了多种技术的高效模型,在计算资源有限的情况下表现良好。
VGG
VGG(Visual Geometry Group)神经网络是一种深度卷积神经网络架构,由牛津大学的视觉几何组(Visual Geometry Group)于 2014 年提出。VGG 神经网络在图像识别和计算机视觉领域取得了很好的效果,并成为了许多后续研究的基础。
VGG 神经网络的主要特点包括:
使用小卷积核:VGG 网络使用 3x3 的小卷积核,而不是较大的卷积核。小卷积核可以增加网络的深度,同时减少参数数量,从而提高模型的效率和泛化能力。
增加网络深度:VGG 网络的深度相对较深,通常包含多个卷积层和全连接层。通过增加网络深度,可以捕捉图像中的更多特征和模式。
使用池化层:VGG 网络使用池化层(如最大池化)来对卷积特征进行下采样,从而减少特征图的大小,同时保留重要的信息。
全连接层:在网络的末尾,VGG 网络通常使用全连接层来将卷积特征转换为一维向量,以便进行分类或回归任务。
预训练和微调:VGG 网络通常在大规模图像数据集(如 ImageNet)上进行预训练,然后在特定任务上进行微调。预训练可以帮助模型学习通用的图像特征,微调则可以适应特定任务的需求。
EfficientNet
EfficientNet 是一种卷积神经网络架构和缩放方法,由 Google Research 在 2019 年提出。它基于一个基础模型 EfficientNet-B0,通过一种复合系数来统一缩放网络的宽度、深度和分辨率。
缩放方法:
传统的网络缩放方法通常只独立地缩放网络的深度、宽度或分辨率。EfficientNet 提出了一种基于一个固定的比例来同时缩放这三个维度,以此来保持它们之间的平衡。
缩放系数由一个简单的公式决定,这个公式基于网络的复杂度和资源的可用性。
基础模型(EfficientNet-B0):
EfficientNet 的起点是基础模型 EfficientNet-B0,它是通过神经架构搜索(Neural Architecture Search, NAS)得到的一个高效的模型。
优点:
在 ImageNet 和五个常用的迁移学习数据集上,以较少的参数和 FLOPS 超过最先进的 accuracy。
可以非常有效地扩大,在保持模型效率的同时提高 accuracy。
迁移学习效果好,能够在不同任务中取得较好的性能。