统计学习方法的三要素:模型、策略和算法。即:统计学习方法 = 模型 + 策略 +算法
基本概念
监督学习
统计学习包括监督学习,半监督学习,半监督学习及强化学习。
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出作出一个好的预测(注意,这里的输入、输出是指某个系统的输入与输出,与学习的输入和输出不同)输入空间、特征空间与输出空间
在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间。
每个具体的一个输入是一个实例,通常由特征向量表示。这时,所有特征向量存在的空间称为特征空间。回归问题、分类问题与标注问题
人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:
输入变量与输出变量均为连续变量的预测问题称为回归问题,
输出变量为有限个离散变量的预测问题称为分类问题,
输入变量与输出变量均为变量序列的预测问题称为标注问题。-
损失函数和风险函数
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
过拟合及模型选择
过拟合是指学习时选择的模型所包含的参数过多(也就是模型过复杂),以至于出现这一模型对已知数据预测得很好,但对未知数据预测很差的现象。
在学习时为了防止过拟合,需要进行最优的模型选择,即选择复杂度适当的模型,以使测试误差最小。常用模型选择的方法有:正则化和交叉验证。
-
正则化
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项,正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。正则化的作用是选择经验风险与模型复杂度同时小的模型。 -
交叉验证
交叉验证的基本想法是重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复进行训练、测试以及模型选择。
交叉验证的方法有:简单交叉验证、S折交叉验证和留一交叉验证。 -
泛化误差
学习方法的泛化能力,是指该学习方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
生成模型和判别模型
分类器性能评估指标(精确率、召回率、F值)
参考链接:
作者李航博士新浪博客,统计学习方法勘误表
机器学习中的范数规则化之(一)L0、L1与L2范数
0 范数、1 范数、2 范数有什么区别?
statistical-learning-method-by-Hang-Li
机器学习-联合概率分布笔记
ROC和AUC介绍以及如何计算AUC
机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率
李宏毅机器学习(2017)
机器学习(Machine Learning)- 吴恩达(Andrew Ng)