keras 用迁移学习做图片分类+数据增强

keras 用迁移学习做图片分类+数据增强(天池雪浪制造复赛0.71 top50)


本文结构,首先构建模型,从文件夹中生成数据迭代器。然后冻结所有特征提取层,训练分类层的权重。 训练50个epoch后,"解冻"所有特征提取层,对所有的层都进行finetune。其中使用到数据增强,早停止,学习率衰减等技巧。在天池雪浪制造大赛上获得不错的结构,比赛详情见:比赛链接

  • 小trick:图片resize使用的方法是pillow 中的‘antialias',使用其他方法会产生纹波。这个resize方法在keras里面没有,需要手动添加。在"C:\Users\tunan\AppData\Local\Continuum\anaconda3\envs\tensorflow\lib\site-packages\keras_preprocessing\image.py"文件中,第34行加上: 'antialias':pil_img.ANTIALIAS。如图所示、


    show.jpg

构建模型

  • 导入inception-v3,不包含头部的。对于输入图片为299*299,提取特征维数是7*7*2048,使用GlobalAveragePooling,特征转化到1*1*2048维,即一张图片用2048维的特征来表示。
  • 然后使用dropout或者BatchNormalization,为了防止过拟合,与加速训练(BN)
  • 加上一层全连接,节点数为class_num = 11,用于分类。激活函数用softmax。(也可以多加一层全连接再分类)
    basic_model = inception_v3.InceptionV3(include_top = False,weights = 'imagenet')
    feature = GlobalAveragePooling2D()(basic_model.output)
    x = Dropout(0.5)(feature)
    outputs = Dense(11,activation = 'softmax',
                    kernel_initializer = 'TruncatedNormal')(x)
    model = Model(inputs = basic_model.inputs,outputs = outputs)

构建数据生成器

  • 先将训练测试图片保存到train,val文件夹中。train/val文件夹下分别包括11个子文件夹,每个子文件夹包含一类图片
    --train
    --class1
    --class2
    ...

  • 使用keras.ImageDataGenerator配置迭代器train_gen,其中加上水平/垂直翻转,旋转拉伸方法进行数据增强。可以根据具体图片选择数据增强的方法。

  • 从文件夹中生成图片迭代器,train_gen.flow_from_directory(path),其中用classes列表指定文件夹名与类别id(0,1,2...)的对应关系

    train_gen = ImageDataGenerator(
        preprocessing_function = inception_v3.preprocess_input,
        horizontal_flip = True, 
        vertical_flip = True,
        rotation_range=30,
        shear_range=0.1
    )
    classes = ['norm']+["defect_"+str(i+1) for i in range(10)]
    train_data_gen = train_gen.flow_from_directory(train_path,
                                        shuffle = True,
                                        batch_size = batch_size,
                                        class_mode = 'categorical',
                                        target_size = input_size,
                                        classes = classes,
                                        interpolation='antialias')

对最后一层全连接进行训练

  • 冻结前面所有的inception层
  • 配置模型的训练过程,使用Adam优化器,categorical_entropyloss做损失函数(就是logloss)
  • 设置回调函数,训练最后一层只用ModelCheckpoint锚点保存模型。每次都保存当前最好的模型。
    for layer in basic_model.layers:
        layer.trainable = False
      #create callback function including early stop,lr_decay,checkpoint
    log_dir = 'log1\\'
    checkpoint = ModelCheckpoint(log_dir + 'ep{epoch:03d}-loss{loss:.3f}-val_loss{val_loss:.3f}.h5',monitor='val_loss', save_weights_only=False, save_best_only=True, period=3)
     if True:
        model.compile(optimizer=Adam(lr=1e-3), loss="categorical_crossentropy")
        model.fit_generator(train_data_gen,
                steps_per_epoch=max(1, train_data_gen.n//batch_size),
                validation_data=val_data_gen,
                validation_steps=max(1, val_data_gen.n//batch_size),
                epochs=50,
                initial_epoch=0,
                callbacks=[checkpoint])
        model.save(log_dir + 'trained_weights_stage_1.h5')

对前面的inception层进行finetune

  • 对inception层解冻,trainable = True
  • 回调函数使用"早停止","学习率递减","模型断点保存",使每次保存最好的模型,且模型一定epoch后不再变好时减小学习率继续训练,多个epoch后不再变好后,用早停止结束训练。
  • 配置模型,使用很小的学习率进行训练。lr = 1e-4。
 for i in range(len(model.layers)):
            model.layers[i].trainable = True
        model.compile(optimizer=Adam(lr=1e-4), loss='categorical_crossentropy') 
        # recompile to apply the change
        print('Unfreeze all of the layers.')
        print('Train on {} samples, val on {} samples, with batch size {}.'.format(train_data_gen.n, val_data_gen.n, batch_size))
        model.fit_generator(train_data_gen,
            steps_per_epoch=max(1, train_data_gen.n//batch_size),
            validation_data=val_data_gen,
            validation_steps=max(1, val_data_gen.n//batch_size),
            epochs=100,
            initial_epoch=50,
            callbacks=[checkpoint, reduce_lr, early_stopping])
        model.save(log_dir + 'trained_weights_final.h5')

结果

3千多张图片,在1080ti显卡下大概要跑10个小时。在天池雪浪制造赛最后得到的线上结果0.71,与我另外目标检测的模型融合后结果0.73。


output.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容