常见的分类聚类模型及模型评价

只是为了帮助自己理解经典算法，

在每次决策时，都优先找出最能区分这些样本点的要素，用这个要素进行样本的区分，并重复此步骤，直到所有点都决策完成，或者在决策最大深度，进行样本点投票，多数点的标注即为此样本类别的标注。
怎么找：
- Gini系数
- 信息熵增益
- 信息熵增益率
DecisionTreeClassifier 常用参数
- criterion 怎么找：Gini/entropy
- max_depth 最大深度
- min_samples_split 最小样本拆分
- min_samples_leaf 最小叶节点样本数

基于切割的聚类
算法
- 1.随机选择 n 个样本点作为聚类中心，求各个点到这些聚类中心的距离，按照距离远近分类。
- 2.此时将样本分成n类，求这n个聚类的聚类中心，然后按照这三个聚类中心再一次将样本点分成n类，会得到新的n个聚类和聚类中心，循环往复，直到某两次聚类的聚类中心变化不大。认为聚类完成。
受异常点的影响较为明显。

基于密度的聚类
- 1.指定的E邻域内，样本点书大于等于阈值的点称为核心对象，这些E邻域内的点与核心对象直接密度可达。
- 2.核心点- 核心点 - 核心点 - 点，样本点与核心点密度可达。
- 3.点- 核心点- 核心点 - 点点与点之间密度相连
所有密度相连的点归为一类。
离群点不明显
参数
- min_samples 最小点数
- eps E邻域范围

混淆矩阵
- 绘制预测结果与实际分类的矩阵
- 混淆矩阵.png
- TP 正确地识别为正图中共104个样本
- TN 正确地识别为负图中共881个样本
- FP 错误地识别为正（样本点实际属于负类）图中共12个样本
- FN 错误地识别为负图中共3个样本
指标
- 正确率 Accuracy
  - 所有识别正确的比例
- 召回率 Recall
  - 所有实际为正类的样本中，识别为正类的比例。
- 精准率 Precision 也叫TPR
  - 所有识别为正类的样本中，识别正确的比例。
- 错误接收率 FPR
  - 所有识别为负类的样本中，识别错误的比例。
- F分数
  - F分数.png
  - β=1 时即F1分数，precision 和 Recall 同样重要，无论哪个数值很小都会使得F1分数变小。F分数评价避免了样本不均，即样本中正类负类比例相差很大时，准确率高，但模型泛化能力依然较差的情况。
ROC曲线受试者工作模式曲线。
- 横轴为TPR，纵轴为FPR。
- 曲线越接近左上角，曲线下方的面积 AUC 越大，模型的泛化能力越好。
- 虚线为完全随机的二分类预测，虚线附近、虚线右下侧对应的模型没有实际应用意义。
- ROC曲线.png

常见的分类 聚类模型及模型评价