场景:
- 1.样本集(模拟):根据水果的(如苹果和橘子)的重量和光滑度(1:光滑,0:粗糙)搭建模型判断水果是苹果还是橘子;
- 2.利用决策树这种分类算法简历模型,训练训练集,用过测试集进行验证模型的准确型。
工具:
python的 Anaconda ,借助 sklearn 库(是一种数据挖掘和数据分析的有效方式,以 pandas 、scipy 以及matplotlib 为基础建模、进行数学运算等,其中包含许多算法模型)
算法:
决策树分类算法(从 sklearn 库中导入已有的模型:DecisionTreeClassifier())
数据集:
序号 | 重量 | 光滑度 | 标签 |
---|---|---|---|
1 | 140g | 光滑 | 苹果 |
2 | 130g | 光滑 | 苹果 |
3 | 150g | 粗糙 | 橘子 |
4 | 170g | 粗糙 | 橘子 |
实现代码:
# 从slearn包中导入tree模块
from sklearn import tree
# 特征:[重量,光滑度:[1:光滑;0:粗糙]]
# 样本数据:训练集
features = [[140,1],[130,1],[150,0],[170,0]]
# 打印样本集的特征值
print(features)
# 标签
label = ['apple','apple','organge','organge']
# 引入决策数模型
clf=tree.DecisionTreeClassifier()
# 训练样本数据,获得模型:clf
clf = clf.fit(features,label)
# 通过模型:clf 预测结果
print(clf.predict([[150,0]]))