理论
kNN是监督学习里最简单的分类算法。思路就是搜索最匹配的测试数据。
在图片里,有两个家庭,蓝方块和红三角,我们把每一家叫做类。他们的房子显示在他们城市地图里,这个城市图我们叫做特征空间。(你可以认为一个特征空间就是所有数据投射的空间。比如在二维坐标系里,每个数据有两个特征,x坐标和y坐标。你可以吧这个数据表示在你的二维空间里,现在假设有三个特征,你就需要三维空间,如果是N个特征,你就需要N维空间,这个N维空间就是特征空间)
现在一个新的成员进入了城市并建了自己的家,用绿色园来表示。他应该要加入蓝家庭或者红家庭。我们把这个过程称为分类。怎么做呢?由于我们在了解kNN,让我们来使用这个算法。
一个方法是检查谁是他最近的邻居。在这个图里,很显然红三角离得近,所以他就加入了红三角。这个方法被叫做简单最近邻,因为分类是基于最近邻居.
但是这有个问题,红三角可能是最近的,但是如果他周围有很多蓝的呢,那么蓝方块在那个区域比红三角力量更大。所以只看最近的一个是不充分的。所以我们改成检查k个最近的家庭。他们当中谁更主要,新来的就属于那类家庭。在我们的图片里,我们让k=3,也就是找最近的3个家庭,有两个红的和一个蓝的,(其实有两个蓝的差不多距离,但是因为k=3,我们只取其中一个),所以再一次,他还是应该属于红色家庭。但是如果我们取k=7呢,那么他就有5个蓝色家庭和2个红色家庭了。现在他应该属于蓝色家庭,所以完全取决于k的值。更有意思的是,如果k=4呢,有两个红的和两个蓝的邻居,平局!所以最好让k取奇数。这个方法叫做k-近邻也就是由于分类取决于k个最近的邻居。
再一次, 在kNN中,我们考虑了k个邻居,但是我们给了他们同样的权重,比如说在k=4的情况下,是平局,但是2个红的家庭里的比两个蓝的家庭更近。所以更合适加入红色家庭。我们怎么用数学来解释它呢。我们给每个家庭一个权重,根据他们和新来的人的距离。然后我们把每个家庭的权重按类加起来,那个的权重和高,新来的就归那个家庭。这个叫做modified kNN。
所以看到什么重要的事情了么
·你需要得到城里所有房子的信息,因为我们要检查新来的和原来的房子的距离来找最近的邻居。如果有很多房子和家庭,会需要很多内存,以及很多时间来计算。
·几乎不需要时间训练或准备。
现在让我们看看OpenCV里的。
OpenCV里的kNN
我们有个小例子,两个家庭(类),跟上面一样.
我们把红色家庭标为Class-0(用0来表示),蓝色家庭是Class-1(用1表示),我们建立25个家庭,用Class-0或Class-1来标记他们,这些通过Numpy的随机数生成器来完成。
然后我们用Matplotlib来绘制。红色家庭用红三角,蓝色家庭用蓝方块。
import cv2
import numpy as np
import matplotlib.pyplot as plt
# Feature set containing (x,y) values of 25 known/training data
trainData = np.random.randint(0,100,(25,2)).astype(np.float32)
# Labels each one either Red or Blue with numbers 0 and 1
responses = np.random.randint(0,2,(25,1)).astype(np.float32)
# Take Red families and plot them
red = trainData[responses.ravel()==0]
plt.scatter(red[:,0], red[:,1], 80, 'r', '^')
# Take Blue families and plot them
blue = trainData[responses.ravel()==1]
plt.scatter(blue[:,0], blue[:,1], 80, 'b', 's')
plt.show()
你可以从我们第一个图像里得到类似的东西。由于你使用随机数生成器,你会在每次运行代码时得到不同数据。
接着初始化kNN算法并传入trainData和response来训练kNN(它构建了一个搜索树)。
然后我们会拿来一个新来的,通过OpenCV里的kNN的帮助把他分类到一个家庭。在kNN之前,我们需要知道我们的测试数据的一些事。我们的数据应该是大小是 测试数据的数量 * 特征的数量 的浮点数组。然后我们找新来的最近的邻居。我们可以指定我们要多少邻居。它返回:
1.给新来的成员的标签,如果你想用NN算法,只需要指定k=1.
2.k个最近邻居的标签
3.从新来的到每个最近邻居的对应距离。
所以让我们看看怎么做的。新来的被标记为绿色。
newcomer = np.random.randint(0,100,(1,2)).astype(np.float32)
plt.scatter(newcomer[:,0],newcomer[:,1],80,'g','o')knn = cv2.KNearest()
knn.train(trainData,responses)
ret, results, neighbours ,dist = knn.find_nearest(newcomer, 3)print "result: ", results,"\n"
print "neighbours: ", neighbours,"\n"
print "distance: ", distplt.show()
得到的结果:
result: [[ 1.]]
neighbours: [[ 1. 1. 1.]]
distance: [[ 53. 58. 61.]]
我们的新来的有3个邻居,所有的都是蓝色家庭的。所以他被标记为蓝色家庭。
如果你有大量数据,你可以用数组传。对应的结果也是用数组返回。
# 10 new comers
newcomers = np.random.randint(0,100,(10,2)).astype(np.float32)
ret, results, neighbours, dist = knn.find_nearest(newcomer,3)
# The results also will contain 10 labels.