统计机器学习基本概念

-------- 李航《统计学习方法》 笔记

1. 统计学习三要素  模型 策略 算法

1.1 模型   监督学习过程中,模型是所要学习的条件概率分布或决策函数

     模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数。假设空间用F表示,可以定义为:

A.

X和Y 是分别定义在输入空间和输出空间的随机变量  

B.

X和Y 是分别定义在输入空间和输出空间的随机变量,θ是参数空间

C.

X和Y 是分别定义在输入空间和输出空间的随机变量,θ是参数空间


1.2 策略  按照什么样的准则学习或选择最优的模型

1.2.1 损失函数和风险函数

常用的损失函数:

A. 0-1损失函数


B. 平方损失函数


C. 绝对损失函数


D. 对然损失函数或对数似然损失函数


风险函数(risk function)/期望损失(expected loss):


经验风险(empirical risk)/经验损失(empirical loss):


样本数为N

1.2.2 经验风险最小化(empirical risk minimization,ERM):

      经验风险最小化的策略认为,经验风险最小的模型就是最优的模型,故按照经验风险最小化求最优模型就是求解最优化问题。


F 是假设空间

      但当样本容量很小时,会产生过拟合(over-fitting)现象。

1.2.3 结构风险最小化(structural risk  minimization,SRM):

      为了防止过拟合,结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。

 J(f)为模型的复杂度,λ≥ 0 是系数,用于权衡经验风险和模型复杂度

       结构风险最小化的策略认为结构风险最小的模型是最优的模型,故求最优模型即求解最优化问题。


1.3 算法  学习模型的具体计算方法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容