<机器学习实战>笔记---k近邻算法

本文所有代码均可在Pycharm编译运行

Python版本：3.6.2

//kNN.py
from numpy import *
import operator

def createDataSet():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDisIndicies = distances.argsort()    
    classCount = {}
    for i in range(k):
        voteIlabel = lables[sortedDisIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

以下是预测[0, 0]属于哪个分类

//TestkNN.py
import kNN

group, labels = kNN.createDataSet()

result = kNN.classify0([0, 0], group, labels, 3)

print(result)

//输出
B

详细说明：

createDataSet函数用来创建一个训练样本集(group)，以及标签向量(labels)。

classify0函数4个输入参数，从左到右分别是：①用于分类的输入向量，②训练样本集，③标签向量，④用于选择最近邻居的数目。

Numbers作图

该算法的思想是
用于分类的输入向量与训练样本集的所有向量的距离进行计算；
找出与输入向量最近的k个近邻；
统计这k个近邻分别属于哪一个分类，同时统计每个分类的数量，存放在字典中；
逆排序找出最多数量那个分类，逻辑上得出，输入向量与这些近邻同类。

最后编辑于：2018.01.12 16:10:32

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

<机器学习实战>笔记---k近邻算法

<机器学习实战>笔记---k近邻算法

本文所有代码均可在Pycharm编译运行

Python版本：3.6.2

详细说明：

相关阅读更多精彩内容

友情链接更多精彩内容