机器学习算法之：KNN

KNN算法简介

首先介绍一下KNN算法的几个特点：

KNN，全称K-Nearest Neighbor，中文名为K近邻
思想极度简单，最基础的分类算法，非常适合入门
应用数学知识极少，近乎为零
效果却很好
可以解释机器学习算法使用过程中的很多细节问题，更完整的刻画机器学习应用的流程

KNN算法原理

下面我们开始用一个简单的例子来解释KNN的原理：

假设已有了一组关于肿瘤的样本数据，其中X轴为肿瘤大小，Y轴为发现肿瘤的时间，红色的点为良性肿瘤，蓝色的点为恶性肿瘤

假设现在新出现了一个已知大小和发现时间的肿瘤，如何判断该肿瘤属于良性还是恶性呢？

首先需要取一个k值，k值代表了新来的肿瘤需要比对k个样本数据，具体K值怎么取后续会有详细的介绍

这里先假设k=3，意味着新来的肿瘤需要去比对离新肿瘤最近的3个样本数据的距离

而后，这3个样本数据以它们自身的类别进行投票，比如上图中，这3个点的投票结果为蓝色：红色 = 3：0（概率为100%）。所以新来的肿瘤将被KNN算法判定为蓝色，也就是恶性肿瘤。

综上所述，KNN算法的性质就是，在已知数据样本的特征与分类的情况下，新的数据将会比对距离已知样本最近的k个数据，而后根据这k个数据各自分类数量的比例，即每个分类会计算出各自的概率，将新数据将判定给概率最大的那个类别。

关于k值与样本数据的距离

计算ab两点之间的距离的方式有几种，这里我们通常会采用欧拉距离，下图是欧拉距离在平面几何中的计算方式

在立体几何中，欧拉距离变得有些抽象了，由于多了第三个z轴，所以需要在加上z轴方向的值

在真实机器学习中，脱离了几何的概念会变得有些抽象，且样本的特征可能会更多，所以我们需要统计每个特征的距离，其中大X表示样本集，X右下角的数字角标表示是第几个特征值

简洁的表示为

算法实现

import numpy as np
import matplotlib.pyplot as plt

# 定义一组肿瘤的样本的特征
raw_data_X = [[3.39, 2.33],
              [3.11, 1.78],
              [1.34, 3.36],
              [3.58, 4.67],
              [2.28, 2.86],
              [7.42, 4.69],
              [5.75, 3.53],
              [9.17, 2.51],
              [7.79, 3.42],
              [7.93, 0.79]]

# 对应样本已知的类别，0为良性，1为恶性
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

# 用numpy封装为训练集
X_train = np.array(raw_data_X)
y_train = np.array(raw_data_y)

# 绘制已知肿瘤分类为0和1的散点图
plt.scatter(X_train[y_train == 0, 0],
            X_train[y_train == 0, 1], color='g')  # 绿色为良性
plt.scatter(X_train[y_train == 1, 0],
            X_train[y_train == 1, 1], color='r')  # 红色为恶性

# 现在新来的肿瘤
x_new = np.array([8.09, 3.34])

plt.scatter(X_train[y_train == 0, 0],
            X_train[y_train == 0, 1], color='g')  # 绿色为良性
plt.scatter(X_train[y_train == 1, 0],
            X_train[y_train == 1, 1], color='r')  # 红色为恶性

# 单独绘制一下新肿瘤
plt.scatter(x_new[0], x_new[1], color='b')  # 蓝色为新肿瘤

# 手写一遍kNN算法过程
from collections import Counter
from math import sqrt

# 定义一个空的数组，用于保存新数据与已知样本数据的欧氏距离
distances = []

# 这里可以回顾一下欧氏距离的数学公式
for x_train in X_train:
    d = sqrt(np.sum((x_train - x_new)**2))
    distances.append(d)

# 此时的distances中就已经包含了新肿瘤与每一个样本的距离，打印一下看看
distances

# 可以用更简介生成表达式的语法计算
distances = [sqrt(np.sum((x_train-x_new)**2)) for x_train in X_train]

# 再打印一下看看，一样的吧
distances

# 对距离排序看看
np.sort(distances)

# 但是现在我们需要的是：distance数组在排序后所对应排序前的index
np.argsort(distances)

# 我们将这个索引值保存为nearest变量
nearest = np.argsort(distances)

# 现在拍脑袋定义一个k值6，which means我们将比对距离新数据最近的6个样本，让这6个样本vote
k = 6

# 遍历nearest对象，将正确排序的索引引用到已知分类的结果集y，得到距离最近的6个y的结果
topk_y = [y_train[i] for i in nearest[:k]]

# 打印一下6个样本的投票结果，可以看到是分类1 VS 分类0是5：1
topk_y

# 调用一个计数函数，返回一个kv对象，会自动根据value将key从大到小排序，打印一下可以看到分类1有5票，分类0有1票
votes = Counter(topk_y)
votes

# 由于刚才的结果是个对象，我们用most_common函数转换成tuple
votes.most_common()

# 由于我们只关心计数最多的那个key值（即分类结果），所以我们只需要取第一个tuple的key值
predict_y = votes.most_common(1)[0][0]

# 打印一下，新数据属于分类1，也就是恶性肿瘤
predict_y

scikit-learn中的KNN算法

from sklearn.neighbors import KNeighborsClassifier

KNN_classifier = KNeighborsClassifier(n_neighbors=6)
KNN_classifier.fit(X_train, y_train)

# 直接predict会报一个错，原因是x_new是一个一维向量，而X_train是一个二维矩阵，我们需要将x_new也reshape成一个一行的二维矩阵
y_predict = KNN_classifier.predict(x_new)

y_predict = KNN_classifier.predict(x_new.reshape(1, -1))

# 再打印一下，problem solved
y_predict

# 强迫症同学还是取一下具体的值吧，就是1了
y_predict[0]

/** 上述的predict会直接给出具体的分类值，但是我们也可以调用predict_proba看一下是0还是1的概率，可以看到0的概率是0.1666，1的概率是0.8333，也就是1：5啦**/
KNN_classifier.predict_proba(x_new.reshape(1, -1))[0]

小结

KNN似乎不用建模？
KNN算法是非常特殊的，可以认为是没有模型的算法
但是为了和其他算法统一，可以换个角度理解，认为训练的样本集就是模型本身

TBC……