Dogs vs. Cats比赛——代码调试&模型优化笔记

1 图像预处理

1.1 标准化和归一化

# 找到的一些归一化/标准化的操作,未测试
# 归一化
norm_image = cv2.normalize(img, None, alpha=0, beta=1, norm_type=cv2.NORM_MINMAX, dtype=cv2.CV_32F)
# 标准化
img  -= np.mean(img, keepdims=True)
img  /= np.std(img, keepdims=True) + K.epsilon()

1.2 灰度化

  • 目的
    • 降低维度、减小计算量(参数量)
    • 算是某种意义上的标准化?减少网络对颜色的过拟合,提高模型泛化能力
# OpenCV读取
img = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE)
# Pillow读取
img = pil_image.open(expand_path(p))
img = img.convert('L')

1.3 数据增强

可用Keras中提供的ImageDataGenerator()函数

列出了一些常用的参数,详见:https://keras.io/preprocessing/image/

datagen = ImageDataGenerator(
        featurewise_center=False,  # set input mean to 0 over the dataset
        samplewise_center=False,  # set each sample mean to 0
        featurewise_std_normalization=False,  # divide inputs by std of the dataset
        samplewise_std_normalization=False,  # divide each input by its std
        zca_whitening=False,  # apply ZCA whitening
        rotation_range=10,  # randomly rotate images in the range (degrees, 0 to 180)
        zoom_range = 0.1, # Randomly zoom image 
        width_shift_range=0.1,  # randomly shift images horizontally (fraction of total width)
        height_shift_range=0.1,  # randomly shift images vertically (fraction of total height)
        horizontal_flip=True,  # randomly flip images
        vertical_flip=False)  # randomly flip images

1.4 其他

  • 颜色读取顺序
    • OpenCV读取颜色顺序是以BGR方式读取的
    • Pillow以RGB方式读取
    • plt按RGB方式显示
img1 = cv2.imread('46.bmp')
# img1 = cv2.cvtColor(img1, cv2.COLOR_BGR2RGB)   # 转换通道顺序
img2 = Image.open('46.bmp')
img2 = np.asarray(img2)
plt.subplot(121),plt.imshow(img1)
plt.subplot(122),plt.imshow(img2)
  • 读取or显示灰度图
img = cv2.imread(TRAIN_DIR+'cat.0.jpg', cv2.IMREAD_GRAYSCALE)
plt.imshow(img, cmap='gray')
  • 增加灰度图通道维度
image = image.reshape(ROWS, COLS, 1)

2 模型搭建

  • 搭建完网络后用model.summary()查看网络结构,看是否正确

  • Keras模型可视化

    • 安装相应模块

    • pip install pydot-ng 
      pip install graphviz 
      pip install pydot 
      
    • 安装了以上模块,但是还是报错误,发现GraphViz的可执行文件没有:
      OSError: pydot failed to call GraphViz.Please install GraphViz (https://www.graphviz.org/) and ensure that its executables are in the $PATH.

      • 使用apt install graphviz,问题解决。
    • 打印模型图

      • from keras.utils import plot_model
        plot_model(model, to_file='model.png')
        
  • 注意设置通道顺序

from keras import backend
backend.set_image_dim_ordering('th')  # th通道最前,tf通道最后
learning_rate_reduction = ReduceLROnPlateau(monitor='val_acc', 
                                            patience=3, 
                                            verbose=1, 
                                            factor=0.5, 
                                            min_lr=0.00001)

early_stopping = EarlyStopping(monitor='val_loss', patience=6, min_delta=0.0002, verbose=1, mode='auto')     

filepath="./weights/weights.best.hdf5"
checkpoint = ModelCheckpoint(filepath, monitor='val_loss', verbose=1, save_best_only=True, mode='auto')

model_his = model.fit_generator(datagen.flow(X_train,Y_train, batch_size=batch_size),
                              epochs = epochs, validation_data = (X_val,Y_val),
                                shuffle=True, verbose = 1, 
                                steps_per_epoch=X_train.shape[0] // batch_size
                              , callbacks=[learning_rate_reduction, 
                                           early_stopping, checkpoint])

3 调参 & 模型优化

过拟合

Conv2D、Batch Normalization、activation、pooling、dropout层的效果和顺序

  • 卷积网络中是否应该加dropout & 加在哪?
    • 实测有用,可以加在max pooling层后面,降低验证集的loss,可提高模型泛化能力

    • 论文《Max-Pooling Dropout for Regularization of Convolutional Neural Networks》

    • max pooling + dropout 与 stochastic pooling 效果对比图:

    • dropout在pooling后的效果.png
    • 但也有研究指出不要在CNN中用dropoutDon’t Use Dropout in Convolutional Networks

  • Batch Normalization
  • conv2D、BN、ReLU层的顺序
    • 说什么的都有。。。玄学
    • 主流的几种:Conv->ReLU->BN、Conv->BN->ReLU、BN->ReLU->Conv

4 其他

  • 图像读取顺序

    • 用各种库读取进来的图片顺序和原有图像顺序很可能不一致
    • 要把图像文件名和图像数据对应上
  • 图像标签编码

    • 分类问题最好都用One-hot编码方式,即使是二分类问题、
    • 不知道为什么,本次竞赛使用单个输出0or1,在训练验证集表现ok,测试集表现很差。换成one-hot之后解决。

5 待完成

  • 各种优化器的选择,适用场景 RMSProp、Adam等
  • 卷积核数量的设置
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,245评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,749评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,960评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,575评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,668评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,670评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,664评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,422评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,864评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,178评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,340评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,015评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,646评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,265评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,494评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,261评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,206评论 2 352

推荐阅读更多精彩内容