1.1引言
机器学习概念:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
(Mitchell,1997)假设用P来评估计算机程序在某任务类T上的性能,若一个 程序通过利用经验E在T任务上获得了性能改善,则说关于T和P,该程序对E进行了学习。
机器学习研究的主要内容:关于在计算机上从数据产生“模型”的算法。即“学习算法”。
1.2基本术语
数据集:一组记录的集合
示例/样本/特征向量:数据集中关于一个事件或对象的描述的每条记录
属性/特征:反映事件或对象在某方面的表现或性质的事项,属性上的取值为属性值
属性空间/样本空间/输入空间:属性张成的空间
标记:关于示例结果的信息
样例:拥有标记信息的示例
泛化能力:学得模型适用于新样本的能力
根据训练数据是否拥有标记信息,学习任务可大致分为两大类:
一般地,预测任务是希望通过对训练集进行学习,建立一个从输入空间X到输出空间Y的映射f.
分类:预测离散值,如“好瓜”“坏瓜”
二分类:只涉及两个类别,称其中一个类为“正类”,另一个类为“反类”,输出空间Y={-1,+1}或{0,1}
多分类:涉及多个类别,输出空间|Y|>2
回归:预测连续值,如西瓜成熟度0.37、0.95,输出空间Y=R,R为实数集
1.3假设空间
科学推理的两大基本手段:
归纳:从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律,如“从样例中学习”。
演绎:从一般到特殊的“特化”过程,即从基础原理推演出具体状况。
概念学习最基本的是布尔概念学习:即对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习。
假设空间:由所有假设组成的空间。这里假设空间由色泽、根蒂、敲声组成,取值为3,3,3,则假设空间大小规模为:4*4*4+1=65
版本空间:与训练集一致的“假设集合”
1.4归纳偏好
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好
尽可能特殊:适用情形尽可能少
尽可能一般:适用情形尽可能多
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果,这样的学习结果显然没有意义。
一般性的原则来引导算法确立"正确的"偏好:
奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个。
奥卡姆原因不适用的情形: 在问题出现的机会相同,所以问题同等重要,对于任意两个学习算法,其总误差相等,期望值相同。
“没有免费的午餐”定理(NFL定理):指在机器学习中,所以问题出现的机会相同、或者所有问题同等重要(前提),没有一种算法能说得上比另一种算法好。
NFL定理寓意:脱离具体问题,空泛地讨论“什么学习算法更好”毫无意义,必须要针对具体的学习问题。