李航. 统计学习方法[M]. 清华大学出版社, 2012.
第1编 监督学习
第1章 统计学习及监督学习概论
1.2 统计学习的分类
- 基本分类
- 监督学习、无监督学习、强化学习(智能系统在与环境的连续互动中学习最优行为策略)、半监督学习、主动学习:
- 按模型分
- 概率与非概率
- 线性与非线性
- 按算法分
- 在线学习:每次接受一个样本,进行预测,之后学习模型,并不断重复该操作
- 批量学习:一次接受所有数据,学习模型,之后进行预测
- 按技巧分
- 贝叶斯学习:在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并应用这个原理进行模型的估计,以及对数据的预测
- 核方法:使用核函数表示和学习非线性模型。把线性模型扩展到非线性模型。
在贝叶斯学习中,假设随机变量表示数据,随机变量表示模型参数。是后验概率,是先验概率,是似然函数。根据贝叶斯定理,计算后验概率的公式:
模型评估时,估计整个后验概率分布。如果需要给出一个模型,通常取后验概率最大的模型。预测时,是新样本,计算数据对后验概率分布的期望值:
贝叶斯估计与极大似然估计的不同:
贝叶斯估计:
1.3 统计学习的分类
方法=模型+策略+算法
1.3.1 模型
模型:在监督学习中,模型就是所要学习的条件概率分布或决策函数。
模型的假设空间包括所有可能的条件概率分布或决策函数:
或
1.3.2 策略
损失函数(loss function)或代价函数(cost function)
- 0-1损失函数(0-1 loss function)
- 平方损失函数(quadratic loss function)
- 绝对损失函数(absolute loss function)
- 对数损失函数(logarithmic loss fuction)
模型的输入是随机变量,遵循联合分布,损失函数的期望即期望损失****(expected loss)或风险函数(risk function)是
这是理论上模型关于联合分布的平均意义下的损失。
由于联合分布是未知的,不能直接计算。实际训练过程中,给定数据集,模型关于训练数据集的平均损失称为经验风险****(empirical risk)或经验损失(empirical risk),记作:
期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。一个自然的想法是根据大数定律,用经验风险估计期望风险。但实际情况中,需要对经验风险进行矫正,常见的策略是经验风险最小化(empirical risk minimization, ERM)和结构风险最小化(structural risk minimization, SRM)。
- 经验风险最小化ERM:经验风险最小的模型就是最优的模型,即求解
* 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化即为极大似然估计(maximum likelihood estimation, MLE)
- 结构风险最小化SRM:等价于正则化(regularization),在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)
- 在假设空间、损失函数以及训练数据集确定的情况下,令为模型的复杂度,是定义在假设空间上的泛函。结构风险****(structural risk)的定义是:
* 结构风险最小化的策略认为结构风险最小的模型是最优模型,即求解
1.3.3 算法
算法:学习模型的具体计算方法。
统计学习问题归结为最优化问题,或有显式解,或需用数值计算来高效地求全局最优解。