mse 均方误差
集合学习
Boosting:构建多棵决策树,每棵树与树之间有一定联系,下一棵树是在上一棵树的基础上进行构建的。
Adaboost (正向激励)
默认权重1/n (第一棵树(均分) 多个树的预测值再做加权平均值
后边的树 对的权重减少 错的增加 (权重越高 越接近权重高的)
em误差率判断预测情况好坏 所有预测错的样本权重值之和
am每棵树对最终预测结果的权重 1/2 log((1-em)/em)以e为底数
GBDT(梯度提升决策树) 100棵树的预测结果加起来
残差(真实值与预测值之间的差值)
Bagging: 构建多棵决策树,每棵树与树之间相对独立,没有关联关系、
自助聚合 : 以有放回的方式构建多棵树 降低强势样本的影响
随机森林(经典算法 RF,随机样本、随机特征、最后多棵树求平均值,代表集成学习) 同时降低强势样本和强势特征的影响
Stacking: 构建多棵决策树,由每棵树得到预测值,再将预测值作为样本数据,再去训练一个强学习器
逻辑回归(分类模型)底层是线性回归 使用回归思想做的分类
1、根据样本数据构建一个线性回归的模型,预测值为连续的线性的
2、将连续的现行的预测值带入到逻辑函数
3、逻辑函数(sigmoid)将连续值映射到0-1的范围内 转为非线性
4、找到一个阈值0.5 大于0.5的置为1 小于0.5的置为0
逻辑函数 正无穷无限接近于1
线性函数处理过拟合: 正则化降低拟合度
线性模型的变种模型:
1、lasso回归:在线性回归的损失函数后边加上L1正则化 所有系数的绝对值之和
2、岭回归:在线性回归的损失函数后边加上L2范数正则化
错误率:top5 (前5个里面有答案就算对) top1
精度和错误率 针对整体
查准率(查的准不准,40(对的)/60(查出来的))P
当前类别预测对的个数 / 当钱类别预测出的类别 针对某一个类别单独计算
每个类别都有自己的查准率
召回率( 查全率) R
当前类别预测对的个数 / 当前类别 真实的样本个数
每个类别有自己的召回率
理想状态 查准率高、召回率高 1 1
每个类别都有自己的F1得分 越接近1越好
真:预测对的 假:预测错的
正列:预测对的样本
PR曲线看面积 (AP)ap值越大越好
roc曲线 TP\FP 面积(aoc)aoc越大越好
混淆矩阵:
主对角线的值 / 列的和(预测出来的) = 查准率
主对角线的值 / 行的和(当前类别真实的样本个数)= 召回率
分类的 按类别等比例划分