-
第一课:介绍
ImgNet发展
最开始是人工抽取一些特征,然后用SVM;
2012年某大学用了CNN取得了很好的进展;
2014年谷歌GoogLeNet、牛津VGG加深了层数;
2015年微软亚洲研究院更深的层数,叫残差网络;
CNN发展
yanglekun发明了CNN用来进行手写数字识别;2012年ImgNet
为什么98年就发明了,2012年才流行起来?
计算力、GPU;
带标签数据增加;
书籍
https://github.com/daviddao/deep-learning-book
http://www.deeplearningbook.org/
https://github.com/exacity/deeplearningbook-chinese
-
第二课:图像分类流程
图像分类很难,所以我们用数据驱动的方式
k近邻算法
简单,但是效率很低,下面代码距离采用L1
多个进行投票
超参数设置
近邻算法缺点
慢;
图像作为向量,然后用L1/L2进行比较图片差距并不是一个很好的度量。下图中对图像进行稍微的修改,遮挡,移动,色调变化,他们之间都跟原图有一样的距离,但很明显他们跟原图的差别并不是一样的。
线性分类
将线性分类器参数看作一幅图片显示出来,颜色深的地方表示权重越重。
将图片看作高维空间上的点,线性地被分开。
-
第三课 损失函数和优化
损失函数
softmax之后得到概率,我们希望这个概率等于1的,越大越好,但是cost fun是衡量损失的,所以要加上负号。
SVM与下面这个的cost fun的不同,SVM只要正确分类的分数大于其他分类超过一定界限就可以,下面这个是正确分类的分数越大越好!
优化
随机法(随机选择参数,最后留下最好的),15%的正确率;
梯度下降法
特征
因为是线性分类器,所以最好人工抽取一些特征。
直方图
HOG(histogram of oriented gradients)
Bag of words
跟CNN的对比