一、案例:鸢尾花种类预测:
1、数据集介绍:
Iris数据集是常用的分类实验数据集,由Fisher,1936收集整理。Iris也称鸢尾花卉数据集,是一类多重分析变量数据集。关于数据集的具体介绍:实例数量:150(三个类各有50个)
属性数量:4(数值型,数值型,帮助预测的属性和类)
Attribute Information:
(1)sepal length 萼片长度,单位:厘米
(2)sepal width 萼片宽,单位:厘米
(3)petal length 花瓣长度,单位:厘米
(4)petal length 花瓣长度,单位:厘米
(5)class: Iris-Setosa 山鸢尾、Iris-Versicolour 变色鸢尾、Iris-Virginica 维吉尼亚鸢尾2、步骤分析:
(1)、获取数据集
(2)、数据基本处理
(3)、特征工程
(4)、机器学习(模型训练)
(5)、模型评估3、用到的工具包:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
二、代码演示:
# coding:utf-8
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
# 1.获取数据
iris = load_iris()
# 2.数据基本处理
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
# 3.特征工程 - 特征预处理
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)
# 4.机器学习 - KNN
# 4.1 实例化一个估计器
estimator = KNeighborsClassifier(n_neighbors=5)
# 4.2 训练模型
estimator.fit(x_train, y_train)
# 5.模型评估
# 5.1 预测值结果输出
y_pre = estimator.predict(x_test)
print("预测值分类结果是:\n", y_pre)
print("预测值和真实值的对比是:\n", y_pre == y_test)
# 5.2 关于准确率计算
score = estimator.score(x_test, y_test)
print("准确率为:\n", score)
三、预测结果:
四、KNN算法总结:
1、K近邻算法优缺点汇总:
优点:
(1)、简单有效。
(2)、重新训练的代价低。
(3)、适合类域交叉样本:KNN方法主要靠周围有限的近邻的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法叫其他方法更为适合。
(4)、适合大样本自动分类:该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分错误。缺点
(1)、惰性学习:KNN算法是懒散学习方法,一些积极学习的算法要快很多。
(2)、类别评分不是规格化:不像一些通过概率评分的分类。
(3)、输出可解释性不强:例如决策树的输出可解释性就较强。
(4)、对不均衡的样本不擅长:当样本不均衡时,如一个类的样本容量很大,而其他样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量的样本占多数。该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响运行结果。可以采用权值的方法来改进(和该样本距离小的邻居权值大)。
(5)、计算量较大:目前常用的解决方法是事先对一直样本点进行剪辑,事先去除对分类作用不大的样本。