统计学习方法
1.监督学习 (分类、回归)
- 学习一个模型,使模型能够对任意给定的输入,与其相应的输出做一个好的预测
- 常用算法:Naive Bayes 、KNN、SVM、决策树、提升方法Adaboosting、神经网络等
2.非监督学习 (聚类、关联) - K-means、Apriori
3.半监督学习
4.强化学习
统计学习三要素 :方法+模型+策略
策略:
A: 损失函数L(Y,f(x))--预测值与真实值之间的差异程度
B:风险函数:模型f(x)关于联合分布P(X,Y)的平均意义下的损失
C: 经验风险: 模型关于训练数据集的平均损失
两个基本策略:经验风险最小化ERM+结构风险最小化SRM
模型评估和模型选择
过拟合(overfitting):指模型过度的符合了当前的训练集,导致其在新的测试集上验证效果不好的现象,通常采用正则化和交叉验证降低模型复杂程度
泛化能力:学习到的模型对新数据的预测能力
-
分类问题的评价指标:
精确率、召回率、F1值