第一讲:课程简介
1.计算机视觉概述
对课程和计算机视觉的简单介绍
介绍一些斯坦福的课程
2.计算机视觉历史背景
动物视觉历史
猫视觉的试验,猫的初级视觉细胞对边缘产生回应
计算机视觉发展历史 (直接分类-->手动提取特征-->神经网络)
目标检测的数据集合 pascal voc
ImageNet 数据集合
2012年之后cnn总会获得iamgent的比赛冠军
3.课程后勤
图像的一些任务:图像分类,目标检测,图像描述
ImageNet比赛中的一些代表模型
Cnn在1998年被严乐春初次使用
2017版课程官方学习地址:http://cs231n.stanford.edu/
2017版课程学习视频B站参考学习地址:https://www.bilibili.com/video/av13260183?from=search&seid=2316074032006655142
作业名称(详解):
1. 图像的数据主要来源有哪些 (列举几个即可)
答:
PASCAL VOC;ImageNet
2. sift feature 是什么,可以用来干什么。金字塔匹配思想是什么,可以用来干什么。 hog特征是什么,可以用来干什么。
答:
SIFT,即尺度不变特征变换(Scale-invariant feature transform),是一种检测局部特征的算法,该算法通过求一幅图中的特征点的描述子得到特征并进行图像特征点匹配。SIFT可以用来做特征提取。
空间金字塔匹配SPM全称是Spatial Pyramid Matching,SPM考虑空间信息,将图像分成若干块(sub-regions),分别统计每一子块的特征,最后将所有块的特征拼接起来,形成完整的特征,这就是SPM中的Spatial。在分块的细节上,采用了一种多尺度的分块方法,即分块的粒度越大越细(increasingly fine),呈现出一种层次金字塔的结构,这就是SPM中的Pyramid。SPM可以用来做目标检测。
方向梯度直方图(Histogram of Oriented Gradient, HoG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。HoG可以用来做特征提取。
3. 神经网络早就存再为什么神经网络最近才得以发展(提示:从数据和硬件方面考虑)
答:
(1)神经网络需要很强大计算性能,计算机硬件的进步,参照摩尔定律,CPU、GPU得以快速发展,使得计算能力大幅提升;
(2)神经网络需要大量带标签的训练样本,大量数据集的出现使得神经网络的效果大幅提升。
4. 图像任务有哪些,解决什么样的图像问题(eg:图像分类就是看图片中的物体具体是什么。)
答:
图像分类:为图片中出现的物体目标分类出其所属类别的标签,如画面中的人、楼房、街道、车辆数目等;
目标检测:将图片或者视频中感兴趣的目标提取出来,对于导盲系统来说,各类的车辆、行人、交通标识、红绿灯都是需要关注的对象;
图像语义分割:将视野中的车辆和道路勾勒出来是必要的,这需要图像语义分割技术做为支撑,勾勒出图像物体中的前景物体的轮廓;
图像描述生成:目的是从图片中自动生成一段描述性文字,即看图说话。难点是不仅要能检测出图像中的物体,而且要理解物体之间的相互关系,最后还要用合理的语言表达出来。需要将图像中检测到的目标得到相应的向量,再将这些向量映射到文字。
场景文字识别:道路名、绿灯倒计时秒数、商店名称等,这些文字对于导盲功能的实现也是至关重要的。