前言
统计学习包括监督学习、非监督学习、半监督学习及强化学习。
监督学习 (supervised learning) 的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
基本概念
输入空间(input space):可以是有限元素的集合,也可以是整个欧氏空间。通常来说输出空间远小于输入空间
特征空间 ( feature space) :特征空间的每一维对应于一个特征。有时假设输入空间与特征空间为相同空间,对它们不予以区分。有时输入空间与特征空间为不同空间,将实例从输入空间映射到特征空间。模型是定义在特征空间上的。
输出空间 (output space) :模型根据特征空间输出的空间。
样本 :输入和输出对的集合。
回归问题 :输入和输出变量均为连续变量。
分类问题 :输入连续,输出有限离散。
标注间题 : 输入与输出均有限离散。
- 联合概率分布 : 输入与输出共同出现的概率。X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。简而言之,X和Y要有一定的概率关系,监督学习才能成立。
- 假设空间 (hypothesis space):学习的目的就在于找到最好的模型来映射X和Y。假设空间的确定意味着学习范围的确定。模型可以是概率模型,也可以是非概率模型。可以写作P(y|x) 或 y = f(x)。
问题的形式化
监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测,由于在这个过程中需要训练数据集,而训练数据集往往是人工给出的,所以称为监督学习。
监督学习分为学习和预测两个过程。
- 给定一个训练数据集T{(x1,y1),(x2,y2),...,(xn,yn)}
- 假设训练数据与测试数据是依联合概率分布P(X,Y)独立同分布产生的
- 在学习过程中,学习系统利用给定的训练数据庥,通过学习得到一个模型,P(Y|X)或Y = f(X)
- 在预测过程中Y = arg maxP(Y|X)或Y = f(X)
- 学习过程中,对于一个有预测能力的模型。我们输入一个x,获得一个f(x),如果它与y之间的差的绝对值就应该足够小。学习过程就是通过不断地尝试,选取最好的模型。