K-近邻算法(KNN)

内容:

  • K-近邻算法基本理论
  • 如何使用距离测量的方法分类物品
  • 使用Python从文本文件中导入并解析数据
  • 避免计算距离时可能碰到的常见错误
  • 如何使用K-近邻算法改进约会网站和手写数字识别系统

0.1 KNN概述

K-近邻算法采用不同特征值之间的距离方法进行分类。
优点:精度高、对异常值不敏感、无数据输入假定
缺点:计算复杂度高、空间复杂度高
适用数据范围:数值型和标称型

Q:什么是数值型数据?什么是标称型数据?
答:①数值型:数值型目标变量可以从无限的数值中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)
②标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)

KNN工作原理:存在一个训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前K个最相似的数据中出现次数最多的分类,作为新数据的分类。

K-近邻算法的一般流程

  1. 收集数据:可以使用任何方法。
  2. 准备数据:距离计算所需要的数值,最好是结构化的数据格式。
  3. 分析数据:可以使用任何方法。
  4. 训练算法:此步骤不适用于k-近邻算法。
  5. 测试算法:计算错误率。
  6. 使用算法:首先需要输入样本数据和结构化的输出结果,然后运行k-近邻算法判定输入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理。

0.1.1使用Python导入数据

导入两个模块:科学计算包Numpy和运算符模块operator
K-近邻算法执行排序操作时将使用这个模块提供的函数。
使用createDataSet()函数,创建数据集和标签。代码如下:

def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels

group里面有4组数据,每个数据有两个我们已知的属性或者特征值。上面的group矩阵每行包含一个不同的数据,而lables包含了每个数据点的标签信息,lables包含的元素个数等于group矩阵行数。这里我们将数据点(1, 1.1)定义为类A,数据点(0, 0.1)定义为类B。


k-近邻算法:带有4个数据点的简单例子

0.1.2 实施kNN算法

这里的目的是:使用k-近邻算法将每组数据划分到某个类中。对未知类别属性的数据集中的每个点依次执行以下步骤:

  1. 计算已知类别数据集中的点和当前点之间的距离
  2. 按照距离递增次序排序
  3. 选取与当前点距离最小的k个点
  4. 确定前k个点所在类出现的频率
  5. 返回前k个点出现频率最高的类别作为当前点的预测分类
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]  #查看有多少条数据
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()     
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]
e = eye(3) #建立一个单位矩阵
e.shape  #查看矩阵维数:(3,3)

c = array([[1,1],[1,2],[1,3],[1,4]])
c.shape  #查看矩阵c的维数:(4,2)
c.shape[0]  #查看矩阵行数:4
c.shape[1]  #查看矩阵列数:2

0.1.3 如何测试分类器

分类器给出的答案是否符合我们的预期,我们可以使用多种方法检测分类器的正确率,例如:我们使用已知答案的数据,看看分类器给出的结果是否符合预期结果。通过大量的测试数据,我们可以得到分类器的错误率——分类器给出的错误结果次数除以测试执行的总数。
错误率是常用的评估方法:完美分类器的错误率为0,最差分类器错误为1,也即是根本无法找到哪怕一个正确答案!

0.2 示例:使用k-近邻算法改进约会网站的配对效果

海伦使用约会网站,曾交往过3类人:

  1. 不喜欢的人
  2. 魅力一般的人
  3. 极具魅力的人
    她希望周一~周五约会那些魅力一般的人,而周末更喜欢与那些极具魅力的人为伴。海伦收集了一些数据,有助于约会网站匹配对象的归类。
    在约会网站使用k-近邻算法的步骤
  • 收集数据:提供文本文件
  • 准备数据:python解析文本
  • 分析数据:使用Matplotlib画二维扩散图
  • 训练算法:不需要
  • 测试算法:使用海伦提供的部分数据作为测试样本
    测试样本与非测试样本的区别在于:测试样本是已经完成分类的数据,如果预测分类与实际分类不同,则标记为一个错误。
  • 使用算法:产生简单的命令行程序,然后海伦可以输入一些特征数据以判断对方是否是自己喜欢的类型

0.2.1 准备数据:从文本文件中解析数据

海伦的数据有1000行,样本包含3个特征:

  • 每年获得的飞行常客里程数
  • 玩视频游戏所耗时间百分比
  • 每周消费的冰淇淋公升数
    将上述特征数据输入到分类器之前,必须先将数据的格式改为分类器可以接受的格式。为此,创建file2matrix函数,以此来处理输入格式问题。该函数的输入为文件名字符串,输出为训练样本矩阵和类标签向量。
#将文本记录转换为Numpy的解析程序
def file2matrix(filename):
    fr = open(filename)
    numberOfLines = len(fr.readlines())         #得到文件行数
    returnMat = zeros((numberOfLines,3))        #创建返回的numpy矩阵
    classLabelVector = []                       
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index += 1
    return returnMat,classLabelVector

numpy数组和Python数组:
使用numpy数组可以通过from numpy import array将其导入,也可以通过直接导入所有的numpy库将其导入。由于numpy库提供的数组操作并不支持python自带的数据类型,因此在编写代码时注意不要使用错误的数组类型。

0.2.2 分析数据:使用Matplotlib创建散点图

if __name__ == "__main__":
    datingDataMat,datingLables = file2matrix("datingTestSet2.txt")
    import matplotlib
    import matplotlib.pyplot as plt #将函数重命名为简单形式
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(datingDataMat[:,1],datingDataMat[:,2]
    plt.show()
没有样本类别标签的约会数据散点图。难以辨识图中的点究竟属于哪个样本分类

很难从上图中看到任何有用的数据模式信息。我们一般采用色彩或者其他的记号来标记不同样本分类,以便更好地理解数据信息。matplotlib库提供的scatter函数支持个性化标记散点图上的点。如下:

if __name__ == "__main__":
    #注意datingTestSet2.txt和datingTestSet.txt的区别,将lable转换为数字标签
    datingDataMat,datingLables = file2matrix("datingTestSet2.txt")
    #print(datingDataMat)
    datingLables = [int(i) for i in datingLables]  #将字符串列表转换为整型列表
    #print(datingLables[0:20])
    import matplotlib
    import matplotlib.pyplot as plt #将函数重命名为简单形式
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*array(datingLables),15.0*array(datingLables))
    plt.show()

带有样本分类标签的约会数据散点图。虽然能够比较容易地区分数据点从属类别,但依然很难根据这张图得出结论性信息

上图使用了datingDataMax矩阵属性列2和3展示数据,虽然也有区别,但是采用列1和2的属性值却可以得到更好的效果,图中清晰的标识了三个不同的样本分类区域,具有不同爱好的人其类别区域也不同。
每年赢得的飞行常客里程数与玩视频游戏所占百分比的约会数据散点图。约会数据有三个特征,通过图中展示的两个特征更容易区分数据点从属的类别

这是python中matplotlib中scatter函数的用法:
https://www.cnblogs.com/fwl8888/p/9825408.html

0.2.3 准备数据:归一化数值

def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide
    return normDataSet, ranges, minVals
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,099评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,828评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,540评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,848评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,971评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,132评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,193评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,934评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,376评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,687评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,846评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,537评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,175评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,887评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,134评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,674评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,741评论 2 351

推荐阅读更多精彩内容