从特殊的训练样例中提取出一般的特征是机器学习的中心问题,这一问题被称为概念学习(concept learning),或称从样例中逼近布尔值函数。定义: 概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。
术语定义
概念定义在一个实例(instance)集合之上,表示为X。
目标概念(target concept): 待学习的概念或函数,记作c。一般来说,c是可以定义在实例集X上的任意布尔函数,即c:X→{0,1}。
训练样例(training examples):每个样例为X中的一个实例x以及它的目标概念值c(x)。对于c(x)=1的实例被称为正例(positive example),对于c(x)=0的实例为反例(negative example)。经常可以用序偶<x,c(x)>来描述训练样例。
假设(hypothese):对目标概念的估计,所有可能假设的集合为H。H中的每个假设h表示X上的定义的布尔函数即h:X→{0,1}。机器学习的目标就是寻找一个假设,使对于X中的所有x,h(x) = c(x)。
归纳学习假设:任一假设如果在足够大的训练样例集中很好的逼近目标函数,它也能在未见实例中很好的逼近目标函数。
假设的一般到特殊序
如果任何被h1划分为正例的实例都会被h2划分为正例,那么我就说h2比h1更一般。
FIND-S:寻找极大特殊假设
FIND-S算法使用一般到特殊序,在偏序结构的一个分支上执行一般到特殊搜索,以寻找与样例一致的最特殊假设。从H中最特殊假设开始,然后再该假设覆盖正例失败时将其一般化(当一假设能正确地划分一个正例时,称该假设“覆盖”该正例),算法如下:
FIND-S算法的重要特点是:对以属性约束的合取式描述的假设空间,FIND-S保证输出为H中与正例一致的最特殊的假设。然而,这一学习算法仍存在一些未解决的问题:
- 学习过程是否收敛到了正确的目标概念,也就是没法确定它是否找到了唯一合适的假设。
- 为什么要用最特殊的假设。
- 训练样例是否相互一致。训练数据中的某些错误或噪声会严重破坏FIND-S算法,因为它忽略了所有反例。
- 如何处理有多个极大特殊假设的情况
变型空间和候选消除算法
候选消除(candidate-elimination)算法能解决FIND-S中的若干不足之处。FIND-S输出的假设只是H种能够拟合训练样例的多个假设中的一个,而候选消除算法输出的是如训练样例一致的所有假设的集合。候选消除算法利用一般到特殊序,通过渐进地计算极大特殊假设集合S和极大一般假设集合G计算变型空间。
表示
当一个假设能正确分类一组样例时,我们称这个假设是与这些样例一致的(consistent)。
候选消除算法能够表示与训练样例一致的所有假设,在假设空间中这一子集被称为关于假设空间H和训练样例D的变型空间(version space),因为他包含了目标概念的所有合理变型。
列表后消除算法
列表后消除算法列出所有成员来表示变型空间。
这一算法能保证得到所有与训练数据一致的假设,但是要繁琐的列出H中所有假设,这对于大多数实际的假设空间是并不现实。
变型空间的更简洁表示
候选消除算法与列表后消除算法遵循同样的原则,但它使用一种更简洁的变型空间表示法。变型空间被表示为它的极大一般和极大特殊的成员。这些成员形成了一般和特殊边界的集合,这些边界在整个偏序结构中划分出变型空间。
候选消除学习算法
关于变型空间和候选消除的说明
候选消除算法是否会收敛到正确的假设
由候选消除算法得到的变型空间能够收敛到正确假设的条件是:
- 在训练样例中没有错误
- H中确实包含描述目标概念的正确假设
下一步需要什么样的训练样例
一般来说,概念学习的最优查询策略,是产生实例以满足当前变型空间中大约半数的假设。这样,变型空间的大小可以在遇到每个新样例时减半,正确的目标概念就可在只用⎡㏒₂|VS|⎤次实验后得到。
归纳偏置
现在还有一些问题,比如目标概念不在假设空间中怎么办?假设空间的大小对算法推广到未见实例的能力有什么影响?假设空间的大小对所需训练样例的数量有什么影响?这些都是归纳推理中的一些基本问题。
有偏的学习器
如果扩大假设空间来使每个可能的假设都被包含在内,则有偏的假设空间可定义的目标概念数量会过于巨大。
无偏的学习器
为了保证目标概念在假设空间中,我们需要一个能表达所有的可教授概念(every teachable concept)(即能够表达实例集X的所有可能的子集)的假设空间。一般我们把集合X的所有子集的集合称为X的幂集(power set)。
如果我们使用无偏的形式,将假设空间定义为允许使用前面假设的任意析取、合取或否定式,这样我们可以安全的使用候选消除算法而不必担心无法表达目标概念。然而新的问题是:概念学习算法将完全无法从训练样例中泛化。
无偏学习的无用性
以上的讨论说明了归纳推理的一个基本属性:学习器如果不对目标概念的形式做预先的假定 ,它从根本上无法对未见实例进行分类。由于归纳学习需要某种形式的预先假定,或称为归纳偏置(inductive bias),我们可以用归纳偏置来描述不同学习方法的特征。
候选消除算法的归纳偏置:目标概念c包含在给定的假设空间H中。
一种算法如果有偏性越强,那它的归纳能力越强,可以分类更多的未见实例。