task 05 集成学习

选用鸢尾花做case

  1. 选择度量模型的指标:
    这个问题是分类问题。
    真阳性TP:预测值和真实值都为正例;
    真阴性TN:预测值与真实值都为正例;
    假阳性FP:预测值为正,实际值为负;
    假阴性FN:预测值为负,实际值为正;

分类模型的指标:

  • 准确率:分类正确的样本数占总样本的比例,即:ACC = \frac{TP+TN}{FP+FN+TP+TN}.
  • 精度:预测为正且分类正确的样本占预测值为正的比例,即:PRE = \frac{TP}{TP+FP}.
  • 召回率:预测为正且分类正确的样本占类别为正的比例,即:REC = \frac{TP}{TP+FN}.
  • F1值:综合衡量精度和召回率,即:F1 = 2\frac{PRE\times REC}{PRE + REC}.
  • ROC曲线:以假阳率为横轴,真阳率为纵轴画出来的曲线,曲线下方面积越大越好。

ROC曲线:接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,roc曲线上每个点反映着对同一信号刺激的感受性。
横坐标:1-Specificity,伪正类率(False positive rate, FPR),预测为正但实际为负的样本占所有负例样本的比例;
纵坐标:Sensitivity,真正类率(True positive rate, TPR),预测为正且实际为正的样本占所有正例样本的比例。

贝叶斯定理,具体的形式是:{P(Y=k|X=x) = \dfrac{{\pi}_kf_k(x)}{\sum\limits_{l=1}^K{\pi}_lf_l(x)}}

决策树分类算法的完整步骤:
a. 选择最优切分特征j以及该特征上的最优点s:
遍历特征j以及固定j后遍历切分点s,选择使得基尼系数或者交叉熵最小的(j,s)
b. 按照(j,s)分裂特征空间,每个区域内的类别为该区域内样本比例最多的类别。
c. 继续调用步骤1,2直到满足停止条件,就是每个区域的样本数小于等于5。
d. 将特征空间划分为J个不同的区域,生成分类树。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容