本章节是对我学习完机器学习(周志华)第一章 所做出来的总结
第一章绪论
1.1 引言
机器学习的定义:致力于如何通过计算的手段,利用经验来改善系统自身的性能。
机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,也就是“学习算法”。
1.2 基本术语
数据集:由数据组成的集合。有时整个数据集也可称为一个“样本”,因为它可看作对样本空间的一个采样。
样本:数据集中每条记录关于一个事件或对象的描述,也称为“示例”。
样例:拥有标记信息的示例。
属性:反应事件或对象在某方面的表现或性质的事项,也称为“特征”。
属性值:属性的取值。
属性空间:属性张成的空间,也称为“样本空间”或“输入空间”。
学习:从数据中学得模型的过程,也称为“训练”。这个过程通过执行某个学习算法来完成。
训练数据:训练过程中使用的数据。
训练样本:训练数据中的每个样本。
训练集:训练样本组成的集合。
分类:预测的是离散值,例如:“好瓜” “坏瓜”。
回归:预测的是连续值,例如西瓜的成熟度0.95、0.37。
聚类:将训练集中的西瓜分为若干组,每组称为一个“簇”;这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜” “深色瓜”,甚至“本地瓜” “外地瓜”。
在聚类学习中,“浅色瓜” “深色瓜”这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。
分类和聚类的区别:https://blog.csdn.net/u010412719/article/details/46726625/
监督学习和无监督学习:根据训练数据可以分为监督学习(分类、回归)和无监督学习(聚类),也称为有导师学习和无导师学习。
二分类:只涉及两个类别。一个为“正类”,一个为“反类”。样本空间——>输出空间;输出空间={+1,-1}或{0,1}。
多分类:涉及多个类别,|输出空间|>2。
泛化能力:学得模型适用于新样本的能力。机器学习的目标是使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,也希望学得的簇划分能适用于没在训练集中出现的样本。
1.3 假设空间
归纳学习有广义和狭义之分。
广义的归纳学习:从样例中学习。
狭义的归纳学习:从训练数据中学得概念,因此又称为“概念学习”或“概念形成”。
概念学习中最基本的是布尔概念学习,即对“是” “不是”这样的可表示为0/1布尔值的目标概念的学习。
假设空间:由所有假设组成的空间。这里我们由“色泽” “根蒂” “敲声”组成假设空间,分别有3、3、3种可能取值,则假设空间的规模大小为:4*4*4+1=65,图中*代表任意值
1.4 归纳偏好
归纳偏好:机器学算法在学习过程中对某种类型假设的偏好。
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。如没有偏好每个假设都是等效的,那么对于一个新瓜,学得模型时而说是好瓜、时而说是坏瓜,这样的结果明显没有意义。
可用“奥卡姆剃刀”来引导算法确立“正确”的偏好。
奥卡姆剃刀原则:如多个假设与观察一致,则选用最简单那个。
如果采用奥卡姆剃刀原则,并且假设“更平滑”则“更简单”,那么在下图中,我们会自然的偏好“平滑”的曲线A。
“没有免费的午餐”定理(简称NFL定理):对于一个学习算法A,若它在某些问题上比学习算法B好,则必然存在另一些问题,在那里算法B会比算法A好。这个结论对任何算法都成立。也就是说无论学习算法A多聪明、学习算法B多笨拙,它们的期望性能都相同。
NFL定理最重要的寓意是让我们清楚地认识到,脱离具体问题,空乏地谈论“什么学习算法更好”毫无意义。