统计学习具有以下特点:
1.统计学习以计算机及网络为平台,建立在其上;2.以数据为研究对象,是数据驱动的学科;3.目的是对数据进行预测与分析;4.以方法为中心,构建模型并应用模型进行预测与分析;5.统计学习是概率论、统计学、信息轮、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并在发展中形成独自的理论体系与方法论。
统计学习的对象是数据,他从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到数据的预测与分析中去。统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。、
统计学习的目的是对数据进行预测与分析,特别是对未知新数据的预测与分析。而这需要通过构建概论统计模型实现。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型对数据进行准确对预测与分析,同时也要考虑尽可能地提高学习效率。
统计学习方法包括模型对假设空间、模型选择对准则及模型的学习算法,统称为统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)。
实现统计学习方法的步骤如下:
1.得到一个有限的训练数据集合
2.确定包含所有可能的模型的假设空间,即学习模型的集合
3.确定模型选择的准则,即学习策略
4.实现求解最优模型的算法,即学习的算法
5.通过学习方法选择最优模型
6.利用学习的最优模型对新数据进行预测或分析
本书主要讨论监督学习,在监督学习中,输入与输出所有可能的取值集合分别称为输入空间(input space)和输出空间(output space),输入的所有特征向量存在的空间称为特征空间。模型实际上都是定义在特征空间上的。