机器学习——KNN算法(笔记作业)

KNN算法简介

前言

KNN算法,也就是“K-近邻算法”,这个算法相对简单,并不需要任何数学运算的推导,所以作为机器学习的入门算法,是再好不过的了。

KNN算法的思想及其原理。

kNN(k-NearestNeighbor),也就是k最近邻算法。顾名思义,所谓K最近邻,就是k个最近的邻居的意思。也就是在数据集中,认为每个样本可以用离他最距离近的k个邻居来代表。


knn.png

这不也就是近朱者赤近墨者黑,从百度百科上的这张图我们可以看到,如果我们想知道点Xu是什么颜色,我们就取5个离它最近的点,然后看这5个点中哪一种颜色的点最多,我们就认为Xu点的颜色属于这其中最多的那个颜色。图中最近的5个点中红色占的比例最多,所以我们判断Xu属于红色区域。

KNN算法思想

理解了KNN原理之后,在算法的角度上去实现,我们需要下面的流程:
1、计算测试对象到训练集中每个对象的距离(这里我们一般使用欧式距离来计算)


欧式距离公式.jpg

2、对这些距离数据进行排序,选取与当前测试对象最近的k个训练对象,作为该测试对象的邻居
3、统计这k个邻居中的类别频数,其中频数最高的类别,即为测试对象的类别。

KNN算法python代码实现

这里我们使用的是Anaconda的Jupyter Notebook
使用一组肿瘤的大小和时间的数据 对应标签是良性和恶性的例子。

import numpy as np
import matplotlib.pyplot as plt
from matplotlib import font_manager
#选取电脑中的字体格式作为之后可视化输出时的文字的中文格式
my_font=font_manager.FontProperties(fname=r"C:\Windows\Fonts\STKAITI.TTF")
# raw_data_x是特征,第一列是肿瘤大小,第二列是肿瘤时间;raw_data_y是标签,0为良性,1为恶性
raw_data_X = [[3.393533211, 2.331273381],
              [3.110073483, 1.781539638],
              [1.343853454, 3.368312451],
              [3.582294121, 4.679917921],
              [2.280362211, 2.866990212],
              [7.423436752, 4.685324231],
              [5.745231231, 3.532131321],
              [9.172112222, 2.511113104],
              [7.927841231, 3.421455345],
              [7.939831414, 0.791631213]
             ]
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
x=[8.90933607318, 3.365731514]#待测试的肿瘤数据
# 设置训练组
X_train = np.array(raw_data_X)
y_train = np.array(raw_data_y)
print(X_train[y_train==1,0])
# 将数据可视化
#其中X_train[y_train==0,0]代表的意思是肿瘤类别标志为0的第一列的数据,即训练集中良性肿瘤的大小的数据。
plt.scatter(X_train[y_train==0,0],X_train[y_train==0,1], color='g', label = '良性')
plt.scatter(X_train[y_train==1,0],X_train[y_train==1,1], color='r', label = '恶性')
plt.scatter(x[0],x[1],color='black',label = '待测试')
plt.xlabel('Tumor Size')
plt.ylabel('Time')
plt.legend(['良性','恶性','待测试'],loc='best',prop=my_font)
plt.axis([0,10,0,5])
plt.show()

from math import sqrt
distances=[]
#用来记录x到样本数据集中的每个点的距离
for x_train in X_train:
    d = sqrt(np.sum((x_train-x)**2))
    distances.append(d)
distances
#使用argsort()排序的方法,返回的时对应的数组中的索引,这样我们就可以知道对应索引在y_train 中的标签类型了
nearest = np.argsort(distances)
print('nearest==',end='')
print(nearest)
#找出对应k=6个最近的点,得出他们得类型标签
k = 6
topK_y = [y_train[i] for i in nearest[:k]]
print('topK_y==',end='')
print(topK_y)
#Counter()函数可以输出对应标签得频数
from collections import Counter
votes = Counter(topK_y)
print('votes==' ,end='')
print(votes)
#  取出频数最多的一组,并获取其标签值
predict_y = votes.most_common(1)[0][0]
print('预测结果==',end='')
print(predict_y)

输出结果:

image.png
nearest==[7 8 5 9 6 3 0 1 4 2]
topK_y==[1, 1, 1, 1, 1, 0]
votes==Counter({1: 5, 0: 1})
预测结果==1

封装我们手写的KNN算法

我们可以将KNN算法分装到类中,以后使用的时候直接调用即可。
我是在jupyter notebook 打开的文件夹里创建一个myKnn的文件夹,然后新建一个KNN.py文件,在里面键入下面的内容:

import numpy as np
from math import sqrt
from collections import Counter
class kNNClassifier:
    def __init__(self, k):
        """初始化分类器"""
        assert k >= 1, "k must be valid"
        self.k = k
        self._X_train = None
        self._y_train = None

    def fit(self, X_train, y_train):
        """根据训练数据集X_train和y_train训练kNN分类器"""
        assert X_train.shape[0] == y_train.shape[0],             "the size of X_train must be equal to the size of y_train"
        assert self.k <= X_train.shape[0],             "the size of X_train must be at least k"
        self._X_train = X_train
        self._y_train = y_train
        return self    
    def predict(self,X_predict):
        """给定待预测数据集X_predict,返回表示X_predict结果的向量"""
        assert self._X_train is not None and self._y_train is not None,             "must fit before predict!"
        assert X_predict.shape[1] == self._X_train.shape[1],            "the feature number of X_predict must be equal to X_train"
        y_predict = [self._predict(x) for x in X_predict]
        
        return np.array(y_predict)    
    def _predict(self, x):
        
        distances = [sqrt(np.sum((x_train - x) ** 2)) for x_train in self._X_train]
        nearest = np.argsort(distances)
        topK_y = [self._y_train[i] for i in nearest[:self.k]]
        #print(topK_y)
        votes = Counter(topK_y)        
        return votes.most_common(1)[0][0]    
    def __repr__(self):
        return "kNN(k=%d)" % self.k
实现调用

import numpy as np
import matplotlib.pyplot as plt
from matplotlib import font_manager
my_font=font_manager.FontProperties(fname=r"C:\Windows\Fonts\STKAITI.TTF")
# raw_data_x是特征,raw_data_y是标签,0为良性,1为恶性
raw_data_X = [[3.393533211, 2.331273381],
              [3.110073483, 1.781539638],
              [1.343853454, 3.368312451],
              [3.582294121, 4.679917921],
              [2.280362211, 2.866990212],
              [7.423436752, 4.685324231],
              [5.745231231, 3.532131321],
              [9.172112222, 2.511113104],
              [7.927841231, 3.421455345],
              [7.939831414, 0.791631213]
             ]
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
# 设置训练组
X_train = np.array(raw_data_X)
y_train = np.array(raw_data_y)

x=[8.90933607318, 3.365731514]
# 将数据可视化
plt.scatter(X_train[y_train==0,0],X_train[y_train==0,1], color='g', label = '良性')
plt.scatter(X_train[y_train==1,0],X_train[y_train==1,1], color='r', label = '恶性')
plt.scatter(x[0],x[1],color='black')
plt.xlabel('Tumor Size')
plt.ylabel('Time')
plt.legend(['良性','恶性'],loc='best',prop=my_font)
plt.axis([0,10,0,5])
plt.show()
x_pre=np.array(x)
%run myKnn/kNN.py
#from myKnn.kNN import kNNClassifier
knn_clf = kNNClassifier(k=6)
knn_clf.fit(X_train, y_train)
X_predict = x_pre.reshape(1,-1)
y_predict = knn_clf.predict(X_predict)
y_predict

输出的结果:


image.png
array([1])

sklearn中的knn算法

上面我们手动实现了KNN算法,我们来看看sklearn库中的KNN算法的使用:

from sklearn.neighbors import KNeighborsClassifier

# raw_data_x是特征,raw_data_y是标签,0为良性,1为恶性
raw_data_X = [[3.393533211, 2.331273381],
              [3.110073483, 1.781539638],
              [1.343853454, 3.368312451],
              [3.582294121, 4.679917921],
              [2.280362211, 2.866990212],
              [7.423436752, 4.685324231],
              [5.745231231, 3.532131321],
              [9.172112222, 2.511113104],
              [7.927841231, 3.421455345],
              [7.939831414, 0.791631213]
             ]
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
# 设置训练组
X_train = np.array(raw_data_X)
y_train = np.array(raw_data_y)
print(y_train)

x=[8.90933607318, 3.365731514]
x=np.array(x)
# 创建kNN_classifier实例
kNN_classifier = KNeighborsClassifier(n_neighbors=6)
# kNN_classifier做一遍fit(拟合)的过程,没有返回值,模型就存储在kNN_classifier实例中
kNN_classifier.fit(X_train, y_train)
# kNN进行预测predict,需要传入一个矩阵,
#而不能是一个数组。reshape()成一个二维数组,第一个参数是1表示只有一个数据,第二个参数-1,
#numpy自动决定第二维度有多少
y_predict = kNN_classifier.predict(x.reshape(1,-1))
y_predict

输出结果:

array([1])

总结

这次我们了解了KNN的基本原理和手动代码实现了其算法。
但是实际问题中,数据不会像上面的例子都是二维特征这么简单,所以KNN在解决实际问题中的优点和缺点是什么呢?效果如何?并且预测的准不准确呢?
且听下回分解!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352