到现在为止, 我们介绍了一些分类回归的模型, 当然还有许许多多的模型没有介绍, 同时我们到现在还没有对数据有过任何的加工,真实情况下,数据是需要清洗提炼,特征也是需要挖掘和选...

到现在为止, 我们介绍了一些分类回归的模型, 当然还有许许多多的模型没有介绍, 同时我们到现在还没有对数据有过任何的加工,真实情况下,数据是需要清洗提炼,特征也是需要挖掘和选...
这一篇开始介绍Boosting,我们先介绍Boosting中的第一个模型, AdaBoost, 二分类学习模型 AdaBoost的基本原理,是每次改变样本的权重,增大本次学习...
这一篇继续boosting,介绍一下提升树算法, 提升树以决策树为基模型, 依然是加法模型,优化算法是前向分步算法。 针对分类问题, 决策树是二叉分类树, 回归问题则是二叉回...
这一篇, 我们希望提升模型的性能, 除了更多的数据,更好的EDA等,集成学习可以从模型的角度提升模型的学习性能,即将基模型组合成一个大模型。 在介绍集成学习前, 我们先介绍一...
这一篇开始讲GBDT(梯度提升决策树), 根据上一篇可知,该模型每次学习的是损失函数的负梯度。所以基模型是回归树(因为每次都在拟合一个确定的值, 这和提升树不一样了,提升树中...
这一篇开始介绍XGBoost。 和GBDT不同, XGBoost不仅仅使用了一阶梯度, 还使用了二阶梯度。同时增加了正则化。 第m步的损失函数: 是第m棵树的复杂度,是前m-...
这一讲要开始讲SVM(Support Vector Machine)了,在深度学习流行以前,SVM占据着很重要的位置,它的理论推导是非常优美的。 SVM也是硬分类的一种,因为...
这一篇会接着介绍硬分类模型-线性判别分析(LDA),也称为fisher判别分析 同样以二分类为出发点, 数据集,是列向量,维度为p, 定义, , 表示标签是1的样本集, 同理...
概率问题有两大学派,一个是频率派,另一个是贝叶斯派。 频率派的是统计机器学习方法,本质是优化问题,流程可以简化为1.设计模型 2.定义loss function 3.使用算法...