图像分类 | 深度学习PK传统机器学习

图像分类，顾名思义，是一个输入图像，输出对该图像内容分类的描述的问题。它是计算机视觉的核心，实际应用广泛。

图像分类的传统方法是特征描述及检测，这类传统方法可能对于一些简单的图像分类是有效的，但由于实际情况非常复杂，传统的分类方法不堪重负。现在，我们不再试图用代码来描述每一个图像类别，决定转而使用机器学习的方法处理图像分类问题。

目前，许多研究者使用CNN等深度学习模型进行图像分类；另外，经典的KNN和SVM算法也取得不错的结果。然而，我们似乎无法断言，哪种方法对于图像分来问题效果最佳。

本项目中，我们做了一些有意思的事情：

将业内普遍用于图像分类的CNN和迁移学习算法与KNN，SVM，BP神经网络进行比较。

获取深度学习经验。

探索谷歌机器学习框架TensorFlow。

下面是具体实施细节。

一、系统设计

在本项目中，用于实验的5种算法为KNN、SVM、BP神经网络、CNN以及迁移学习。我们采用如下三种方式进行实验

KNN、SVM、BP神经网络是我们在学校能够学到的。功能强大而且易部署。所以第一步，我们主要使用sklearn实现KNN，SVM，和BP神经网络。

由于传统的多层感知机模型在图像识别方面效果甚佳，但由于其节点间的全连接模式对于其延展性造成了阻碍，因此对于高分辨率的图像，识别率不是很理想。所以这一步，我们用Google TensorFlow框架构建CNN。

对于已经预训练过的深度神经网络Inception V3进行重训练。Inception V3由TensorFlow提供，使用ImageNet自2012年以来的数据进行训练。ImageNet是计算机视觉领域一个经典挑战，参赛者试图用模型将全部图像放至1000个分类中。为了要重新训练已经预训练好的模型，我们必须保证我们自己的数据集没有被预训练过。

二、实施

第一种方法：使用sklearn预处理数据以及实现KNN，SVM和BP神经网络。

步骤1，使用openCV包，定义2个预处理函数，分别是图像特征向量（用来调整图像大小并将图像扁平化成一系列行像素）和提取颜色直方图（使用cv2.normalize从HSV色域中提取一个3D颜色直方图并做平滑处理）。

步骤2，构造参数。由于我们试图在整个数据集以及具有不同类别数目的子数据集上进行性能测试，所以我们把各个数据集看作为参数，以便进行实验分析。另外，我们还设置了KNN中的邻居数目作为参数。

步骤3，提取图像特征并写入数组。我们使用cv2.imread函数读取图像，根据规范化的图像名称进行分类。然后运行第步骤1中提到的2个函数，分别得到2种图像特征并写入数组。

步骤4，使用函数train_test_split分割数据集。85%的数据作为训练集，15%的数据作为测试集。

步骤5，使用KNN，SVM和BP神经网络方法去评估数据。对于KNN，使用KNeighborsClassifier，对于SVM，使用SVC，对于BP神经网络，使用MLPClassifier。

第二种方法：基于TensorFlow构建CNN。使用TensorFlow得到计算图并在C++中实现，比Python更高效。

TensorFlow中使用到的的几个概念：占位符，变量，数学公式，成本计量，最优方法，CNN体系结构。

步骤1，第一层放置图像。

步骤2，构建3层卷积层（3 Convolutional layers），2X2的max-pooling和ReLU。输入是4维张量：【图像编号，Y坐标，X坐标，通道】。输出是另一个经处理得到的4维张量：【图像编号（不变），Y坐标，X坐标，通道】。

步骤3，构建2层全连接层（2 Fully-Connected Layers）。输入是2维张量：【图像编号，输入编号】。输出是2维张量【图像编号，输出编号】。使用

步骤4，使用合并层（Flatten Layer）链接卷积层和全连接层。

步骤5，使用softmax layer标准化输出。

步骤6，优化训练结果。我们使用交叉熵（cross entropy）作为成本计量函数，取其均值。最优方法使用tf.train.AdamOptimizer()。

第三种方法：Retrain Inception V3。使用Retrain Inception V3 ，并利用迁移学习减少工作量。

我们得到pre-trained模型，移除原有顶层，训练新模型。然后分析在磁盘上的所有图像并计算它们的bottleneck值。脚本会运行4000次。每次运行都会从训练集中随机选取10个图像，找到它们的bottleneck值并注入最后一层得到预测结果。然后在反向传播过程中，根据预测结果和实际标签的比较结果去更新每层的权重。

四、实验

实验中使用到的数据集是Oxford-IIIT Pet 数据集。

http://www.robots.ox.ac.uk/~vgg/data/pets/

其中有犬类25类，猫类12类。每类有200个图像。我们使用到该数据集中的10个类别的猫的数据，分别是[‘Sphynx’,’Siamese’,’Ragdoll’,’Persian’,’Maine-Coon’,’British-shorthair’,’Bombay’,’Birman’,’Bengal’,’Abyssinian’]。即，共有2000个图像，由于图像大小不一，我们调整大小统一为固定尺寸64X64或128X128。

五、赋值

第一种方法：KNN，SVM，和BP神经网络

第一部分：使用sklearn预处理数据以及实现KNN，SVM和BP神经网络。在image_to_feature_vector函数中，我们设定尺寸128X128。经试验表明，图像尺寸越大，结果越精确，运行负担越大。最终我们决定使用128X128的尺寸。在extract_color_histogram函数中，设定每个通道的容器数量为32,32,32。对于数据集，使用3种数据集。第一个是具有400个图像，2个标签的子数据集。第二个是具有1000个图像，5个标签的子数据集。第三个是整个数据集，1997个图像，10个标签。

在KNeighborsClassifier中，我们只改变邻居数量且存储结果作为每个数据集的最佳K值，其他参数默认。

在MLPClassifier中，我们设定每层有50个神经元。

在SVC中，最大迭代次数是1000，类权重是“balanced”。

依据数据集，2个标签到10个标签不同，运行时间大约为3到5分钟不等。

第二种方法：基于TensorFlow构建CNN

由于在整个数据集中运行时间过长，我们在每个迭代中分批次处理。每批次一般有32个或64个图像。数据集分为1600个图像的训练集，400个图像的验证集，300个图像的测试集。

本方法中有大量的参数可调整。学习速率设定为1x10^-4；图像大小设定为64x64和128x128；然后是层和形状，然而有太多的参数可调整，我们依据经验并进行实验去得到最佳结果。

为了得到最佳的layers，我们进行实验。首先，参数如下：

# Convolutional Layer 1. filter_size1 = 5 num_filters1 = 64

# Convolutional Layer 2. filter_size2 = 5 num_filters2 = 64

# Convolutional Layer 3. filter_size3 = 5 num_filters3 = 128

# Fully-connected layer 1. fc1_size = 256

# Fully-connected layer 2. fc1_size = 256

我们使用了3个卷积层和2个全连接层，然而悲剧的是过度拟合。经过研究发现，对于该构造，我们的数据集过小，网络过于复杂。

最终，我们使用如下参数：

# Convolutional Layer 1. filter_size1 = 5 num_filters1 = 64

# Convolutional Layer 2. filter_size2 = 3 num_filters2 = 64

# Fully-connected layer 1. fc1_size = 128

# Number of neurons in fully-connected layer.

# Fully-connected layer 2. fc2_size = 128

# Number of neurons in fully-connected layer.

# Number of color channels for the images:

# 1 channel for gray-scale. num_channels = 3

我们只使用了2个卷积层和2个全连接层。依然不尽人意，经过4000次迭代，结果仍旧过拟合，不过好在测试结果10%优于前者。最终，经过5000次迭代，我们得到43%的精确度，运行时间是半小时以上。

PS：我们使用另一个数据集CIFAR-10进行了实验。

CIFAR-10：https://www.cs.toronto.edu/~kriz/cifar.html

该数据集包含60000个32x32的彩色图像，分为10个类别，每个类别6000个图像。训练集50000个图像，测试集10000个图像。使用同样的网络结构，经过10个小时的训练，最终得到78%的精确度。

第三种方法：Retrain Inception V3

与以上方法相似，训练次数为4000，依据结果进行调整。学习速率依据每批次的图像数量进行调整。80%的数据用来训练，10%用来验证，10%用来测试。

五、实验结果

第一种方法：KNN，SVM，和BP神经网络

由于过拟合，我们无法得到好的实验结果。运行时间一般为半个小时，由于过拟合，我们认为，运行时间无法预估。通过与方法1比较，可以得出：即使CNN过拟合训练集，实验结果依旧优于方法1。

第三种方法：Retrain Inception V3

整个训练过程不超过10分钟，且我们得到了非常好的结果。事实证明，深度学习和迁移学习十分强大。

Demo：

六、结论

基于以上实验比较，我们得出：

KNN，SVM，和BP神经网络在图像分类中不够有效。

即使在CNN中过拟合，CNN的实验结果依旧比传统分类算法好。

迁移学习在图像分类问题上非常有效。运行时间短且结果精准，能够良好地解决过拟合和数据集过小的问题。

通过本次项目，我们得到了许多宝贵的经验，如下所示：

调整图像使其更小。

对于训练的每次迭代，随机选取小批次数据。

随机选取小批次数据作为验证集进行验证，并且在训练期间反馈验证评分。

利用Image Augmentation把输入图像集转变为可调整的更大的新数据集。

图像数据集要大于200x10。

复杂网络结构需要更多的训练集。

小心过拟合。

参考文献

1. CS231n Convolutional Neural Networks for Visual Recognition

2. TensorFlow Convolutional Neural Networks

3. How to Retrain Inception’s Final Layer for New Categories

4. k-NN classifier for image classification

5. Image Augmentation for Deep Learning With Keras

6. Convolutional Neural Network TensorFlow Tutorial

Note: The first method is performed by Ji Tong

https://github.com/JI-tong

Originally published at gist.github.com.

![关注我的技术公众号《漫谈人工智能》，每天推送优质文章](https://upload-images.jianshu.io/upload_images/10019820-3f339ee96f43e84f.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

最后编辑于：2019.10.01 23:07:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,332评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,508评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,812评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,607评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,728评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,919评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,071评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,802评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,256评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,576评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,712评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,389评论 4赞 332
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,032评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,798评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,026评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,473评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,606评论 2赞 350

图像分类 | 深度学习PK传统机器学习

推荐阅读更多精彩内容