机器学习(或统计学习)算法的目标是减少预期的泛化误差,这也被称为损失(Loss)。如果我们知道真实的分布 P(X,Y),那么使损失最小化就是一个可以通过优化算法来解决的最优化任务。
但是,我们并不知道真实分布的形态,只是有一堆可用于训练的样本而已。因此,我们需要基于给定的样本攒出一个优化问题,即最小化在训练集上的误差,并由训练集所定义的经验分布近似真实的期望分布。
1.1 统计学习
- 统计学习的特点
统计学习(statistical learning):是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。是计算机系统通过运用统计方法从数据中提炼潜在的模式与关系,从而提高系统性能的机器学习。
(1)、以计算机及网络为平台
(2)、以数据为研究对象(数据驱动)
(3)、以分析和预测为研究目的
(4)、以概率论、统计学、信息论、优化理论、计算机科学为基础学科 - 统计学习的对象
数据(data):数字、文字、图象、视频、音频及其组合。 - 统计学习的目的
(1)、分析:获取新知识,带来新发现
(2)、预测:提升系统性能 - 统计学习的步骤
(1)、获取训练集(有限的)
(2)、确定假设空间(模型的集合,假设函数)
(3)、确定学习策略(风险函数)
(4)、确定优化算法
(5)、学习得到最优模型
(6)、模型分析与预测
1.2 统计学习的分类
1.2.1 基本分类
(1)、监督学习(supervised learning):从标注数据中学习预测模型的机器学习问题。
注:模型实际上都是定义在特征空间上的。
注:监督学习的基本假设要求随机变量X和Y服从联合概率分布P(X,Y),它可以是PMF也可以是PDF,但只是假设其存在,对学习系统来说,联合概率分布的具体定义是未知的,因为如果知道了P(X,Y),就可以求出条件概率分布P(Y|X),也就不需要学习了。
(2)、无监督学习(unsupervised learning):从无标注数据中学习预测模型的机器学习问题,其本质是学习数据中的统计规律或潜在结构,例如聚类、降维、概率估计。
(3)、强化学习(reinforcement learning):智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
1.2.2 按模型分类
(1)、概率模型(probabilistic model):也叫生成模型,即模型表示了从 x 产生 y 的生成关系。
(2)、非概率模型(nonprobabilistic model):也叫判别模型,判别模型关心的是 x 应该预测什么样的 y。
注:
概率模型一定可以表示为联合概率分布的形式,而非概率模型则不能;
概率模型收敛速度更快;
概率模型可以存在隐变量,而非概率模型则不能。
判别模型直接面对预测,准确率更高;
判别模型可以定义高度抽象的特征工程,因此可以简化学习问题。
1.3 统计学习方法三要素
1.3.1 假设空间(假设函数的集合)
注:假设空间中的模型一般有无穷多个。
1.3.2 风险函数(损失函数)
期望风险(expected risk)
经验风险(empirical risk)
结构风险(structural risk)= 经验风险 + 正则化项
1.3.3 优化算法
求解目标函数
注:统计学习方法具体采用的损失函数未必是模型评估时使用的评估函数
补:J(f)是正则化项,它是模型复杂度的单调递增函数,模型越复杂,正则化值就越大,正则化项一般定义为模型参数向量的范数(L1,L2)。在凸优化中,目标函数经正则化得到的最优值是原问题最优值的下界,证明如下:
正则化符合奥卡姆剃刀(Occam's razor)原理:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。
1.6 泛化能力
泛化能力(generalization ability):学习方法对未知数据的预测能力。
1.6.2 泛化误差及其上界
注:泛化误差就是期望风险