CNN介绍

2.1. 基本结构

CNN全名叫卷积神经网络,主要的模型结构有卷积、池化、激活三个组成部分。下面分块来介绍每个部分都做了什么,为什么要这么做。

2.2. 卷积层

卷积层中最重要的概念是卷积核,卷积核可以理解为是一种特征,将输入和卷积核相乘得到的结果就是输入在这个特征上的投影,这个投影可以称之为特征图。特征要怎么理解呢?以图像识别为例,假设有一个特征表示物体的轮廓,将输入的图像和这个特征相乘得到的就是图像的轮廓图。卷积过程如下图所示。

卷积过程

针对图像的卷积过程,一般来说图像形状为(batch_size, height, width, channel),卷积核的形状为(m,n),这里的m、n对应的维度是其中的高度和宽度,m和n可以相等也可以不等。自然语言处理也可以使用卷积网络,一般来说语言输入的形状为(batch_size, length, embedding_size),语言一般来说只有一个通道,由于tensorflow的卷积api一般只接受四维的向量,因此需要在末尾扩充一维向量变成(batch_size, length, embedding_size, 1),这里对应的卷积核形状为(m,embedding_size),embedding_size代表的是词向量大小,是一个整体,一般不会拆开来卷积。m对应的是length也就是句子长度。

还有两个参数比较常见,第一个是stride,就是卷积核前进的步长,同样可以对应高度和宽度上两个步长,如果stride只设置一个数字,那么表示高度和宽度上步长一致。第二个是卷积是否padding,如果padding的话可以保持前后形状一致。

卷积层参数计算:假设卷积核形状为(m,n),共有p个卷积核,那么卷积过程中涉及到的参数量为m×n×p

2.3. 池化层

池化过程

如上图所示就是一个典型的池化过程,常见的池化有最大值池化和平均池化两种,顾名思义就是在池化窗口内计算最大值和平均值作为池化结果。值得一提的是,tensorflow的池化接口参数都是四维的,例如这个窗口的大小为(1,m,n,1),分别对应的是NHWC(batch_size, height, width, channel)四个维度,步长stride也是一样。

池化层有什么作用呢?一般来说至少有一下三个作用:

  1. 特征不变形:池化操作是模型更加关注是否存在某些特征而不是特征具体的位置,也就是说模型对于位置的敏感性下降了,换言之也就是说那些需要对位置敏感的任务,比如图片分区不适合使用池化操作。

  2. 特征降维:池化相当于在空间范围内做了维度约减,从而使模型可以抽取更加广范围的特征。同时减小了下一层的输入大小,进而减少计算量和参数个数。

  3. 在一定程度上防止过拟合,更方便优化。

2.4. 激活层

激活层使用的函数叫做非线性激活函数,这里面有两个关键字,非线性和激活。之所以使用非线性函数是因为如果使用线性函数,那么不管几层的网络也等价于单层的网络,都是线性组合。而这层之所以会被称为激活层的原因是激活函数模仿了人类对神经信号的有选择反应。常见的激活函数有sigmoid,tanh,relu等。

2.5. BN层

BN层不是卷积网络的标配,但因为效果太好,不仅大大加快收敛速度,模型性能也可以好上不少,因此在这里介绍一下。

我们在训练集上训练的模型之所以可以应用于测试集,是因为一个前提假设:训练数据和测试数据独立同分布。BatchNorm的作用简单来说就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。

深层神经网络在进入激活函数前的激活输入值,随着网络深度加深,分布逐渐往激活函数的两端靠近,导致反向传播是梯度消失,因此会出现训练效率越来越低的情况。BN做的事情就是把这个激活输入值转成标准正态分布,这样就可以避免梯度消失的问题。但是这样会造成另一个问题,如果所有的输入都经过标准正态化,那非线性变换带来的对非线性关系的拟合效果就消失了,因此提出BN的作者为了保证非线性的获得,对标准正态化后的输入又进行了scale加上shift操作(y=scale*x+shift),这是把输入分布变胖变瘦或者左右移动一下,核心是想找到非线性和线性表达的平衡点,作者认为这是BN层效果好最大的原因。这里有一个小小的争议,MIT研究人员在论文How Does Batch Normalizetion Help Optimization认为bn之所以有效不是因为改变了分布。该论文认为bn之所以可以达到1、收敛更快2、对学习率不敏感的效果是因为经过bn之后的loss函数变得比较平滑,论文通过计算loss的一阶导数和二阶导数从侧面证明了这一点。

在实际使用时,我们要告诉batch normlization是在训练还是预测过程。为什么?因为在预测阶段,输入可能只有一个实例,没有办法做标准化,这个时候就可以使用之前记录下来的整体均值和方差来做标准化。

使用tensorflow的bn层有一个很大的坑需要重点关注,在使用 tf.layers.batch_normalization (input, training=is_traing)时,训练阶段可以整个batch一起做归一化处理,在预测阶段(使用之前记录下来的整体均值和方差来做标准化。),这个记录的参数需要更新,但是上面使用的这个层不会自动更新参数。因此在计算梯度前需要with tf.control_dependencies(tf.get_collection(tf.GraphKeys.UPDATE_OPS))来获取最新的数据,否则预测阶段会发现参数一直处于初始状态。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350