主要定义:
学习算法:关于在计算机上从数据中产生模型[泛指从数据中学得的结果]的算法
记录的集合为数据集(五个西瓜的描述数据
每条记录是关于一个事件或对象的描述为或样本示例(其中一个西瓜的描述数据
PS:在属性空间中的都有对应的坐标向量,因此示例称为称为特征向量
反映事件或对象在某方面的表现或性质的事项,为属性或特征(西瓜的色泽
属性上的取值为属性值(西瓜色青绿
属性空间、样本空间、输入空间:将任意三个属性设为三个坐标轴,并由其构成的三维空间
应用:D={x1,x2,....,xm}
D:包含n个示例的数据集
训练集:机器训练样本组成的集合(瓜园所有瓜
训练数据:训练过程中使用的数据
训练样本:机器训练的每一个样本
假设:某种潜在规律(好瓜的特征
真相或真实:潜在规律自身
好瓜为标记,其标记信息的示例为样例(有了标记
标记空间或输出空间:所有标记的集合
学习过程:在所有假设组成的空间中进行搜索
搜索目标:找到与训练及匹配的假设,不断删除与正例不同,或与反例一致的假设
假设空间:所有可能的情况,包含未知的情况*,与不存在的情况∮【+1】
版本空间:与训练集一致的假设集合
学习方法分为监督学习与无监督学习
【划分标准:训练数据是否拥有标记信息】
监督学习:赋予数据一个标记(好瓜的一些特征
监督学习的两个概念:
①分类:
二分类:只含两个类别的任务
(一个为“正类”,另一个为“反类”
多分类:涉及多个类别
②回归:
预测的是连续值(西瓜成熟度 0.56 0.75
无监督学习:不用添加标记
聚类:典型的无监督学习
簇:训练集中的西瓜分为若干组(自动形成的 如:黄色瓜,绿色瓜
泛化能力:模型适用于新样本的能力(训练样本越多,得到未知分布的信息越多,越具强泛化能力
奥卡姆剃刀:若有多个假设与观察,已知咋选最简单的那个(趋向更平滑,更简单,泛化能力更强
NFL定理(No Free Lunch Theorem):学习算法的期望性都是相同的
NFL前提:所有问题出现的机会相同,所有问题同等重要(现实中往往只关注某个问题,有针对,才有好坏