Part01:导论
1- 什么是机器学习
- 人工智能:使机器智能的学科;
- 机器学习:从数据中学习规律的一类算法;
- 深度学习:机器学习的一个分支,采用的是神经网络类的算法。
- 常见应用领域:CV(Computer Vision)-视觉能力;NLP(Natural Language Processing)-语言能力;RS(Recommender System)-分析能力。
2- 课程定位
- 西瓜书读者;高等数学(求偏导数);线性代数(矩阵运算);概率论与数理统计(随机变量的定义);
- 算法原理简单概述 + 算法公式推导;
- 西瓜书:周志华《机器学习》;南瓜书:谢文睿,秦州《机器学习公式详解》。
3- 机器学习第1章 绪论
- 机器学习的基本术语;
- 机器学习的一些发展和应用。
4- 机器学习第2章 模型评估与选择
4.1 经验误差与过拟合
- 错误率(error) = 分类错误的样本数a / 样本总数m;
- 精度(accuracy) = 1 - 错误率;
- 学习器的实际预测输出与样本真实输出之间的差异称为误差(error)。训练误差(training error)、测试误差(testing error)和泛化误差(generalization error)分别是训练集、测试集和新样本上的误差。
- 过拟合(overfitting):学习过度。
- 欠拟合(underfitting):学习不足。
- 拆分训练集S和测试集T的方法:
- 1)留出法(hold out):直接将数据集D分成两个互斥的集合。注意:尽量保持数据分布的一致性。一般采用多次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。常用训练集和测试集的比例为2:1~4:1之间。
- 2)交叉验证法(cross validation):先将数据集D划分为k个大小相似的互斥子集,每个子集尽可能的保持数据分布的一致性;每次利用k-1个的子集的并集作为训练集,余下的那个子集作为测试集,从而进行k组训练集和测试集的k次训练和测试;最终返回k个测试结果的均值。k的通常取值有5、10和20等。类似,k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是p次k折交叉验证结果的均值。例如常见的10次10折交叉验证。
- 3)自助法(boostrapping):给定m个样本的数据集D,采样生成数据集D‘;每次随机从D中挑选一个样本,将其拷贝放入D’;然后再将该样本放回初始数据集D中,使得样本在下次采样时仍有可能被采样到;重复m次,得到包含m个样本的数据集D‘。可以将D’作为训练集,剩下的作为测试集。自助法在数据集较小、难以有效划分训练和测试集时很有用,同时可以从初始数据集中产生多个不同的训练集,有益于集成学习。但可能会改变分布,引入估计误差。
- 在初始数据量足够情况下,前两种方法更常见。
- 调参和最终模型:给定包含m个样本的数据集D,在模型评估与选择过程中由于需要留出一部分数据进行评估测试,事实上只使用了部分数据,需要在算法和参数选定条件下,用全量重新训练的模型才是最终模型;模型评估与选择中用于评估测试的数据集通常称为验证集(validation set)。
- 性能度量(performance measure)- 分类任务:
- 错误率与精度;
- 查准率、查全率与F1;
- 。。。明天接着更新一下。