-------- 李航《统计学习方法》 笔记
1. 统计学习三要素 模型 策略 算法
1.1 模型 监督学习过程中,模型是所要学习的条件概率分布或决策函数
模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数。假设空间用F表示,可以定义为:
A.
X和Y 是分别定义在输入空间和输出空间的随机变量
B.
X和Y 是分别定义在输入空间和输出空间的随机变量,θ是参数空间
C.
X和Y 是分别定义在输入空间和输出空间的随机变量,θ是参数空间
1.2 策略 按照什么样的准则学习或选择最优的模型
1.2.1 损失函数和风险函数
常用的损失函数:
A. 0-1损失函数
B. 平方损失函数
C. 绝对损失函数
D. 对然损失函数或对数似然损失函数
风险函数(risk function)/期望损失(expected loss):
经验风险(empirical risk)/经验损失(empirical loss):
样本数为N
1.2.2 经验风险最小化(empirical risk minimization,ERM):
经验风险最小化的策略认为,经验风险最小的模型就是最优的模型,故按照经验风险最小化求最优模型就是求解最优化问题。
F 是假设空间
但当样本容量很小时,会产生过拟合(over-fitting)现象。
1.2.3 结构风险最小化(structural risk minimization,SRM):
为了防止过拟合,结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。
J(f)为模型的复杂度,λ≥ 0 是系数,用于权衡经验风险和模型复杂度
结构风险最小化的策略认为结构风险最小的模型是最优的模型,故求最优模型即求解最优化问题。
1.3 算法 学习模型的具体计算方法