1.统计学习所做的事
数据--平台--算法--性能提升--应用
也可以这样说:
数据--所有满足条件的模型--评价准则--最优模型--应用
2.处理的问题
分类,标注,预测
3.学习的要素
模型:符合约束条件的模型有哪些?
--假设空间
策略:凭借什么样的准则选择一个模型?
--损失函数,风险函数(期望风险,经验风险,结构风险)
算法:使用什么样的计算方法快速实现策略中的准则?
--最优化
4.模型的评估与选择
奥卡姆剃刀原理
准确率高,简单的模型才是好模型
--训练误差,测试误差,过拟合,泛化能力
5.学习方法和模型的形式
学习方法:
生成模型:由数据学习联合概率分布,再求条件概率分布
判别模型:直接由数据获得决策函数或条件概率
模型形式:
决策函数:由输入变量但输出变量的一个映射关系
条件概率:由输入特征变量到输出变量的条件概率
6.建立一个模型需要考虑的几点
试用的问题:二分类,多分类,回归,标注等
模型的特点:优缺点
模型的类型:生成或判别
学习的策略:极大似然,最大间隔等
损失函数:指数,对数似然函数,距离,合页损失等
学习的算法:随机梯度,EM迭代,前向分步等
算法可能改进的方面: 时间,空间