以下内容学习自@jack cui,原文地址:
KNN算法比较简单,其核心思想就是以测试样本与“模板库”当中的其他样本逐个比较,找到与其“距离”最近的K个元素,然后统计这K个样本中相同类别的数目,选取其中数目最多的一个分类作为测试样本的分类
下面我们就采用KNN实现判断新输入数据究竟属于“爱情片”还是“动作片”。
代码实现如下:
import numpy as np
import operator
def createDataSet():
group = np.array([[1,101],[5,89],[108,5],[115,8]])
labels = ['爱情片','爱情片','动作片','动作片']
return group, labels
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]
diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances**0.5
sortedDistIndices = distances.argsort()
classCount = {}
for i in range(k):
voteIlabel = labels[sortedDistIndices[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
return sortedClassCount[0][0]
if __name__ == '__main__':
group, labels = createDataSet()
test = [101,20]
test_class = classify0(test, group, labels, 3)
print(test_class)
结果如下所示:
动作片
其中,计算公式如下所示: