1.算法原理:近朱者赤,近墨者黑
K-近邻算法的核心思想是未标记样本的类别,由距离其最近的K个邻居投票来决定。
假设,我们有一个已经标记的数据集,即已经知道了数据集中每个样本所属的类别。此时,有一个未标记的数据样本,我们的任务是预测出这个数据样本所属的类别。K-近邻算法的原理是,计算待标记的数据样本和数据集中每个样本的距离,取距离最近的K个样本。待标记的数据样本所属的类别,就由这K个距离最近的样本投票产生。
2.K最近邻算法的用法:
2.1在分类任务中的应用
1.将数据用图形表示出来::
#导入数据集生成器
from sklearn.datasets import make_blobs
#导入KNN分类器
from sklearn.neighbors import KNeighborsClassifier
# 导入画图工具
import matplotlib.pyplot as plt
# 导入数据集拆分工具
#生成样本数为200,分类为2的数据集
data = make_blobs(n_samples=200,centers=2,random_state=8)
X,y = data
#将生成的数据集进行可视化
plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.spring,edgecolor='k')
plt.show()
2.KNN模型拟合数据:
import numpy as np
clf = KNeighborsClassifier()
clf.fit(X,y)
# 画图
x_min,x_max = X[:,0].min()-1,X[:,0].max()+1
y_min,y_max = X[:,1].min()-1,X[:,1].max()+1
xx,yy = np.meshgrid(np.arange(x_min,x_max,.02),np.arange(y_min,y_max,.02))
z = clf.predict(np.c_[xx.ravel(),yy.ravel()])
z = z.reshape(xx.shape)
plt.pcolormesh(xx,yy,z,cmap=plt.cm.Pastel1)
plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.spring,edgecolor='k')
plt.xlim(xx.min(),xx.max())
plt.ylim(yy.min(),yy.max())
plt.title("Classifier:KNN")
plt.scatter(6.75,4.82,marker='*',c='red',s=200)
plt.show()
3.测试:
3.1画出新数据点
plt.scatter(6.75,4.82,marker='*',c='red',s=200)
3.2预测新数据点所在分类:
print(clf.predict([[6.75,4.82]]))
2.3K最近邻算法处理多元分类任务
1.用散点图进行数据可视化
from sklearn.datasets import make_blobs
data2 = make_blobs(n_samples=500,centers=5,random_state=8)
x2,y2 = data2
plt.scatter(x2[:,0],x2[:,1],c=y2,cmap=plt.cm.spring,edgecolor='k')
plt.show()
2.用K最近邻算法模拟数据
clf = KNeighborsClassifier()
clf.fit(x2,y2)
x_min,x_max = x2[:,0].min()-1,x2[:,0].max()+1
y_min,y_max = x2[:,1].min()-1,x2[:,1].max()+1
xx,yy = np.meshgrid(np.arange(x_min,x_max,.02),np.arange(y_min,y_max,.02))
z = clf.predict(np.c_[xx.ravel(),yy.ravel()])
z = z.reshape(xx.shape)
plt.pcolormesh(xx,yy,z,cmap=plt.cm.Pastel1)
plt.scatter(x2[:,0],x2[:,1],c=y2,cmap=plt.cm.spring,edgecolor='k')
plt.xlim(xx.min(),xx.max())
plt.ylim(yy.min(),yy.max())
plt.title("Classifier:KNN")
plt.show()
3.打印训练数据集代入模型的打分:
print(clf.score(x2,y2))
结果:0.956
2.2K最近邻算法用于回归分析
1.数据可视化:
from sklearn.datasets import make_regression
X, y = make_regression(n_features=1,n_informative=1,noise=50,random_state=8)
plt.scatter(X,y,c='orange',edgecolor='k')
plt.show()
2.拟合数据:
from sklearn.neighbors import KNeighborsRegressor
reg = KNeighborsRegressor()
reg.fit(X,y)
z = np.linspace(-3,3,200).reshape(-1,1)
plt.scatter(X,y,c='orange',edgecolor='k')
plt.plot(z, reg.predict(z),c='k',linewidth=3)
plt.title('KNN Regressor')
plt.show()
打印模型分数
print('模型评分:{:.2f}'.format(reg.score(X,y)))
模型评分:0.77
3.调整n_neighbors默认参数5降低为2重新训练模型拟合数据:
from sklearn.neighbors import KNeighborsRegressor
reg2 = KNeighborsRegressor(n_neighbors=2)
reg2.fit(X,y)
plt.scatter(X,y,c='orange',edgecolor='k')
plt.plot(z, reg2.predict(z),c='k',linewidth=3)
plt.title('KNN Regressor: n_neighbors=2')
plt.show()
打印模型分数:
print('模型评分:{:.2f}'.format(reg2.score(X,y)))
模型评分:0.86
3.项目实战:
1.拆分红酒数据集,用模型拟合红酒训练数据集:
from sklearn.datasets import load_wine
#从sklearn的datasets模块载入红酒数据集
wine_dataset = load_wine()
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
wine_dataset['data'], wine_dataset['target'], random_state=0)
#KNN模型
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 1)
knn.fit(X_train, y_train)
2.打印测试集得分:
print('测试数据集得分:{:.2f}'.format(knn.score(X_test, y_test)))
测试数据集得分:0.76
3.预测新的数据集:
import numpy as np
X_new = np.array([[13.2,2.77,2.51,18.5,96.6,1.04,2.55,0.57,1.47,6.2,1.05,
3.33,820]])
prediction = knn.predict(X_new)
print("预测新红酒的分类为:{}".format(wine_dataset['target_names'][prediction]))
预测新红酒的分类为:['class_2']
print('训练数据集得分:{:.2f}'.format(knn.score(X_train, y_train)))
训练数据集得分:1.00