1.绪论

1.引言：

学习算法是从数据中提取模型，机器学习是研究“学习算法”的。
一个正式的定义是：用P表示计算机程序对某任务类T的性能，若一个计算机程序使用经验E对任务类T的性能有改善，就可以说，针对于P和T，该程序对E进行了学习。

2.术语：

我自己定义了下面一组数据：
（颜色=黄;口感=甜;硬度=偏软;产地=山东）
（颜色=青;口感=酸;硬度=硬;产地=河北）
（颜色=红;口感=甜;硬度=适中;产地=山东）
以这个数据为例，说明下面这些术语：
1.数据集：上边所有数据组成了数据集，是所有数据。
2.样本/示例：其中的一个记录称为一个样本，例如：（颜色=黄;口感=甜;硬度=偏软;产地=山东）
3.属性/特征：例如，颜色、口感
4.属性值：例如，黄，甜
5.属性空间/样本空间/输入空间：所有属性组成的一个维度空间，（颜色;口感;硬度;产地）
6.特征向量：把属性空间理解为一个多维空间，那每一个示例，可以在这个空间中定位到一个点，那么每一个样本/示例也可成为一个特征向量。
从数据获得模型的过程称为“学习”或者“训练”，训练过程中使用的数据称为训练数据（每条记录称为训练样本）。训练样本组成的集合称为训练集。
我们经常会遇到一些“预测模型”，如果预测的是离散值，例如好苹果，坏苹果，称为分类。如果预测是连续值，例如：0.23，0.35，0.56 则称为“回归”。对于只有2个结果的分类，分别称为正类和负类。
学到模型后，使用它进行预测的过程称为测试。被测试的样本称为测试样本。
还有一种，我们需要对样本数据进行分类，这种工作称为聚类。根据训练数据是否有标记分成监督学习（分类、回归）和无监督学习（聚类）。机器学习的目的是学得的目标能更好地适用于新的样本，学习模型适用新样本的能力称为“泛化”能力。

3.假设空间：

归纳：从特殊到一般；演绎：从一般到特殊。从样例中学习，明显是从特殊到一般的过程，也叫归纳学习。可以将学习过程理解为在所有假设组成的假设空间中搜索的过程，目标是找到与训练集匹配的假设。

4.归纳偏好：

NFL定理的寓意是：脱离实际问题，空谈“什么学习算法”更好毫无意义。

2.模型评估选择

1.经验误差和过拟合：

分类错误的样本数占样本总数的比例，叫做错误率，相应地，精度 = 1-错误率。学习器在训练集上误差称为训练误差（经验误差），在新样本上的误差称为泛化误差，我们的目标是找到泛化误差小的学习器。
某些学习器对训练样本学习得太好了，以至于将训练样本中的一些特性当成了所有潜在样本都具有的一般特性。这种情况称为过拟合。与之相对的是欠拟合。过拟合是机器学习面临的重要障碍，很多算法都带一些针对过拟合的措施。但是过拟合无法避免只能缓解。

http://ocw.sjtu.edu.cn/G2S/OCW/cn/CourseDetails.htm?Id=397

2.评估方法：

一般地，测试样本和训练样本要求是互斥的，不能有重复的样本。在有限样本中如何选择测试和训练样本。有以下方法可以完成：
1.留出法，直接将集合分为互斥的2部分，选择一部分样本作为训练集S，另外的部分作为测试集T。训练/测试集的划分尽可能保持数据分布的一致性。一般，选择样本的2/3 ~ 3/4作为训练，其余作为测试。

ML_Zhou