图像检测之图像分类(下)

GoogleNet:

    Inception V1网络

    核心组件Inception Architecture

        split-merge ->1*1卷积,3*3卷积,5*5卷积,3*3池化,增加网络对多尺度的适应性,增加网络的宽度

        BottleneckLayer->使用NiN的1*1卷积进行特征将维,大幅降低计算量10X

        提供多尺度特征:输出通道多尺度(感受野)化,首个Split-Merge思想,串接合并所有分支输出。

        Bottleneck Layer的1*1卷积解决多尺度带来的高频参数&计算

1*1卷积减少高频计算

        取消全连接,参数量大,减负

            本质上是一个全尺寸的卷积,全连接占用了大量参数,取消全连接由全局平均池化代替

        辅助分类器,解决前几层梯度消失的问题。


Inception V1网络


    Inception V2网络

        核心组件Batch Normalization(批归一化)解决Internal Convariate Shift问题(内部neuron的数据分布发生变化),白化:使每一层的输出都规范化到N(0,1),允许较高效的学习率,取代部分Dropout,5*5卷积核->俩个3*3卷积核

    Batch Normalization批归一化,在batch范围内,对每个特征通道分别进行归一化,所有图片,所有像素点。


 Batch Normalization批归一化

        当数据归一化之后,配对使用scale&shift,添加一组逆算子:scale算子,bias偏置。

计算公式


scale&shift使用的方式


    Inception V3网络

        核心组件,非对称卷积:N*N分解成1*N->N*1,降低参数数量和计算量。

        高效的降尺寸,避免表达瓶颈,降尺寸前增加特征通道,2个并行分支,卷积分支+池化分支,串接分支结果。


            取消浅层的辅助分类器(完全无用),深层辅助分类器只在训练后期有用,加上BN和Dropout,住分类器Top1性能有所提高。


ResNet残差网络

    核心组件 Skip/shortcut connection    Plain net:可以拟合出任意目标映射H(x),Residual net,可以拟合出任意目标映射F(x),H(x)=F(x)+x,F(x)是残差映射,相当于identity来说,当H(x)最优映射接近identity时,很容易捕捉到小的扰动

残差网络的核心

ResNet残差网络:其他设计,全是3*3卷积核,卷积步长2取代池化,使用Batch Normalization 取消max池化,全连接层,Dropout


残差网络

    Inception V4网络

        借鉴残差网络加入直连

V4

        

        ResNeXt网络

            提出第三个DNN维度cardinallity基数

            采用Split-Transform-Aggregate策略,将卷积核按通道分组,形成32个并行分支,降低维度卷积进行特征变换,加法合并。可以再、在同参数规模下,增加结构,提高模型表达力。


CNN设计准则:

    避免信息瓶颈,卷积过程中,空间尺寸H*W会变小,输出通道数C会变多,数据量H*W*C要缓慢变小

    通道(卷积核)尺寸保持在可控范围之内。

    感受野要足够大,卷积是基于局部图片的操作,捕捉大尺寸内容,多个小尺寸卷积核替代一个大尺寸卷积核(一般在卷积后使用)

    分组策略,降低计算量。

    

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容