深度学习(图像)小结——从入门到放弃

最近,AI靠着深度学习不仅成为传统的工业、医疗、商业和互联网领域的前沿,还包括新的领域,像自动驾驶和服务型机器人的研发。究竟这门在学术界和工业界都备受关注的技术本质不同是什么?深度学习的核心思想是什么呢?我认为就是更多的GPU、更多的数据和更复杂的模型。

学习目标

不是所有的数据,机器都能学。比如输入一个浏览器代码,机器不会学习到如何开发浏览器(现有技术下)。效果好的应用集中于图像和文本领域,如图像分类、目标识别和推荐系统等。如果你要解决的是个回归(预测连续值)或分类问题(预测离散值),这种技术也许会有效。因为学习的目标可以明确定义为最小化预测值和真实值的差,偏差一般是均方误差、多分类的softmax损失和SVM损失等。

在这方面,深度学习没什么进展,依然是采用了传统机器学习的方式定义学习的目标。

深度学习的目标

优化方法

优化方法就是求解上面最小化问题最优解的过程,深度学习依然采用最初期的基于梯度下降的误差反向传播训练方法。当然,因为网络层数的增加,误差在反向传播的过程中很容易出现梯度消失或梯度爆炸的问题,这也是基于梯度学习方法的局限,还有像多目标优化的问题等。深度学习模型采用的优化方法几乎都是Adam或SGD+Momentum+学习率递减

可见,在优化方法上,深度学习也没有做出什么重要贡献。


深度学习的优化方法

模型结构

这部分正是深度学习的核心,即如何设计神经网络的结构。在特定领域中应用深度学习技术的关键是,如何设计神经网络的结构,使最优解保证在该结构的表示空间中,并同时约束和减小解空间的大小。设计结构这部分的工作无法由机器自动完成,必需人工设计,而且也没有什么理论指导,该用多少层网络,每层多少个节点等等都来自经验。

下面介绍在图像领域的经典深度网络结构:

图像分类

最初,深度学习收到关注的原因是,使用卷积神经网络的AlexNet在ImageNet比赛(百万张图片,1000个类别)中取得突破。原来神经网络之前效果不好,不是因为能力不够,而是训练数据不足,GPU不够,使其能力发挥不出来。后来,网络的层数越来越深,并提出了Inception、残差网络的新连接结构,在ImageNet数据上识别准备率超过了人类。

现在,我们希望用深度神经网络做图像分类任务时,可以不需要大量数据。使用用ImageNet数据集训练过的InceptionV2(V3),直接retrain或fine-tuning,收集数据每个类别几百张图片,就可以训练出一个不错的分类器,可以达到80-90%左右准确度。

分类任务中的样本不平衡、多标记等问题依然存在。分类器泛化到新类别的能力仍需重新训练,目前在图像分类研究中,有利用不同类别的语义信息,让分类器具有识别新的没有训练样本的类的能力,即zero-shot learning。


图像分类的深度神经网络模型

目标识别

目标识别包括两个任务,获取物体的位置并识别其类别,前者是个回归问题,后者是分类问题,所以模型的学习目标是多个的。模型的设计困难是如何获取可能出现物体的box坐标位置,RCNN直接在图像上作region proposal,fast RCNN在卷积后的特征上作region proposal,faster RCNN学习一个神经网络作proposal,YOLO/SSD的方法不做proposal,直接划分成S*S的网格,虽然识别速度很快,但识别精度较差。

在图像的实际应用中,目标识别是很重要的,也是很多有趣应用的开始。在实际中,我们需要根据任务的不同,在识别的速度和精度之间平衡,选择最适合的模型。

物体识别的深度模型

当然,深度学习在图像中的应用还有很多有趣的部分,如和文本结合的看图说话(image caption)、视觉问答(VQA),让机器具有创造力的生成模型风格迁移和GAN模型等。

放弃原因

  • 贫穷限制了能力,这种需要大量标记数据和GPU的工作还是交给有财力的大公司吧;
  • 数据驱动的学习方法的不稳定和难迁移,可能几个像素的微小变化就会使模型失效;
  • 现实中的场景是无穷多的,与其花这么多人力物力将AI应用到现实中,也许构建一个理想的适合机器的环境更简单些(如自动驾驶);
  • 这次AI的兴起,商业的价值估计似乎远大于目前技术上的发展,过于乐观;
  • 对于智能的思考,我想除了从更大规模的角度上考虑,还有其他值得探索的地方。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 文章主要分为:一、深度学习概念;二、国内外研究现状;三、深度学习模型结构;四、深度学习训练算法;五、深度学习的优点...
    艾剪疏阅读 22,026评论 0 58
  • 作者所在班级1402012 作 者 姓 名符子龙 作 者 学 号14020120006 《基于深度学习的视网膜OC...
    Jerooooome阅读 11,023评论 0 2
  • 最近提交版本因为support url的问题被拒了4次,前两次是网址确实没填对。 “The support URL...
    我去敲代码阅读 3,514评论 0 0
  • 其实平凡何尝不是一种幸运,有许多人连平凡也达不到,许多人厌弃的平凡,又是多少人可望又不可及的安稳……
    自由和安阅读 767评论 1 0
  • 一 练气息:老师的推荐是用“打嘟噜”的方式进行练习一一 1、一...
    巴中张公子阅读 3,793评论 0 1