基本概念 聚类:根据信息相似原则将样本划分为若干个类 分类: 根据决策属性给样本区分归类 训练集:一部分类别已知的样本数据(局部代替整体)用于建立预测模型,挖掘数据规律 测试集:另一部分类别已知的样本数据用于评估模型预测能力,从而确定规律是否正确 数据挖掘十大算法 image.png PS:这也是我接下来需要学习的方向。 决策树的基本概念 决策树是一种树形结构,包括:内部节点,分支和叶节点。