ML:DT

决策树的一个小例子:

# -*- coding:utf-8 -*-

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
from sklearn import metrics
from sklearn.ensemble import ExtraTreesClassifier

def iris_type(s):
    it = {'Iris-setosa': 0, 'Iris-versicolor': 1, 'Iris-virginica': 2}
    return it[s]

if __name__ == "__main__":
    # 读取数据
    path = u"4.iris.data"
    data = np.loadtxt(path, dtype=float, delimiter=',', converters={4: iris_type})
    X = data[:,:2]
    y = data[:,4]

    # 数算法通过计算特征的信息量,查看重要性
    import_test_data = data[:,:4]
    model = ExtraTreesClassifier()
    model.fit(import_test_data, y)
    print model.feature_importances_

    # 训练分类器
    clf = DecisionTreeClassifier(criterion='entropy', max_depth=20)
    dt_clf = clf.fit(X,y)

    # 保存
    f = open("iris_tree.dot", 'w')
    tree.export_graphviz(dt_clf, out_file=f)

    # 数据可视化
    M, N = 500, 500
    x1_min, x1_max = np.min(X[:,0]), np.max(X[:,0])
    x2_min, x2_max = np.min(X[:,1]), np.max(X[:,1])
    t1 = np.linspace(x1_min, x1_max, M)
    t2 = np.linspace(x2_min, x2_max, N)
    x1, x2 = np.meshgrid(t1, t2)  #生成网格采样点
    x_test = np.stack((x1.ravel(),x2.flat),axis=1)
    y_hat = clf.predict(x_test)
    y_hat = y_hat.reshape(x1.shape)
    plt.pcolormesh(x1, x2, y_hat, cmap=plt.cm.summer, alpha=0.3)    # 预测值的显示Paired/Spectral/coolwarm/summer/spring/OrRd/Oranges
    plt.scatter(X[:,0], X[:,1], c=y, s=50, edgecolors='k', cmap=plt.cm.prism)    # 样本的显示
    plt.xlim(x1_min, x1_max)
    plt.ylim(x2_min, x2_max)
    plt.grid()
    plt.show()


    # 预测评估
    predict = clf.predict(X)
    accuracy = metrics.accuracy_score(y, predict)
    print "Accuracy: %.2f%%" %(100 * accuracy)


    report = metrics.classification_report(y, predict)
    print report

    result = (predict == y)  # True则预测正确,False则预测错误
    print result
    c = np.count_nonzero(result)  # 统计预测正确的个数
    print c
    print 'Accuracy: %.2f%%' % (100 * float(c) / float(len(result)))

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 翻译自analyticsvidhya 基于树的学习算法被认为是最好的和最常用的监督学习(supervised le...
    珞珈村下山阅读 6,224评论 1 19
  • 莱利:球员来了又走,球队继续前进 摘要:莱利在休赛期应魔术师邀请去欧洲度假。 虎扑体育9月8日讯 莱利最近接受采访...
    prudenceli阅读 263评论 0 0
  • 中距离赛跑 1940年1月3日,未名谷,龙山,中国河南 “我们往这荒山里走了有多远了?”永忠问道。 “很难说,我...
    作家亚山阅读 388评论 0 0
  • 这篇文章本应该写在去年,我工作满十周年的日子。但是越在乎越写不出来,所以宁愿一直写到自己合意。 在时间长河中,区区...
    模模的世界阅读 520评论 4 0
  • 当绚丽的天空中浮云飘动时 我在想 是凉意飕飕的风儿吹散了云朵 还是一往情深的云朵追随着风儿 抑或只是 亘古不变的自...
    昙宓阅读 477评论 0 0