第二讲:图像分类
·4.数据驱动方法
训练数据与label (使用pyhon查看图像的像素点)
图像分类存在的问题与挑战(光照,角度,形变,遮挡)
尝试的一些识别图像的方法 硬编码, 人为定义的一些角效果不好,所以尝试使用数据驱动方法。数据驱动方法是比深度学习更广义的一种方法
近邻算法NN 常用的数据集合cira10数据集
距离度量;L1范数,L2范数
NN算法复杂度(缺点)
NN与KNN的区别
Ps: 图像分类数据和label分别是什么 图像分类存在的问题与挑战 L1范数,L2范数数学表达式 近邻算法NN 了解cira10数据集
NN算法复的杂度
·5.K-NN K-最近邻算法
K-nn三要素
两种距离度量L1,L2
L1曼哈顿距离,非距离不变量。大小取决于选择的坐标系统
L2欧几里得距离,大小跟坐标系统无关。
超参数的选择(使用交叉验证进行优化)
Idea1:根据训练集挑选超参数在训练数据表现最好的 bad idea
Idea2:将数据分为训练集合与测试集合,挑选在测试集合表现最好的
Bad idea too
Idea3:将数据分为三组,训练集合额,验证集合,测试集合。挑选在验证数据表现最好的超参数 is ok
Idea4:交叉验证 在小数据上是good idea 不建议用在深度学习上
(学生提到的问题需要思考)
Knn在图像中很少使用的
原因:(测试时速度慢,距离函数用在比较像素上不合适)
另一个问题是维度灾难
Ps: K-nn三要素 两种距离度量L1,L2分别适用于什么情况 超参数怎么选择 Knn存在的问题,为什么很少使用在图像上。
打卡内容:
1. 图像分类数据和label分别是什么 图像分类存在的问题与挑战
数据:图像。标签:类别
存在的问题与挑战:光照,角度,形变,遮挡
2. 使用python加载一张彩色图片,观察像素值
3. L1范数,L2范数数学表达式 这两种度量分别适用于什么情况
L1范数:向量中每个元素绝对值的和
L2范数:向量元素绝对值的平方和再开平方
4. 描述近邻算法KNN NN算法的复杂度 为什么很少使用在图像中以及它存在的问题
5. 了解cira10数据集
6. 超参数怎么选择合适(即数据集如何划分)