机器学习实战---KNN算法的应用小例

ok,今天花了一天时间看了小人书(机器学习实战),并且撸到了KNN算法,并完成了一个KNN算法的应用

真的!!!小人书是本特别不错的适合入门ML的书!!!!!

没有繁杂的数学推导过程,先给出概念和实战应用,等对ML有个大致了解后再去啃那些理论书,大量的代码真的很对胃口啊啊啊啊

关与机器学习的这里不废话太多,直接进入正题

KNN算法
那么什么是KNN呢?

K近邻算法(KNN), 首先KNN属于机器学习中监督学习中的一个算法,这里先不说什么是监督学习,很直接的理解,KNN就是一个算法,大家按普通算法的路子学就行了

KNN的用途:

KNN是一个分类算法,当然主要用于各种各样的分类了啊,比如给你一大堆的狗,让你给他们一个个分类(泰迪啊,金毛啊,西伯利亚雪橇犬啊......),这时候就可以用到KNN了

KNN的工作原理:

首先给出官方介绍: 存在一个样本数据集合 ,也称作训练样本集, 并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。 输人没有标签的新数据后, 将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最 近 邻 )的分类标签。一般来说,我们只选择样本数据集中前 K个最相似的数据,这就是 K- 近邻算法中 K 的出处 , 通常 K 是不大于 20 的整数.最后 ,选择 & 个最相似数据中出现次数最多的分类,作为新数据的分类

太繁杂了吧,这里给出通俗的理解:
首先拿出刚刚分类的狗,首先我们要先知道各种各样的狗(样本集)是长什么样子(标签)的,现在从外面跑来一只小野狗,我们 想知道这个小野狗是属于什么狗,然后我们就开始拿这个狗给分好类的狗进行对比,首先先比比身材,比比眼睛,耳朵....(样本特征),最后我们找出了一个跟这个小野狗(k个特征)最像(最近邻)的狗,那么就可以判断出这个小野狗属于什么狗

上面的狗也很麻烦?
再来一个不是很严谨的但是更容易理解的:
给出一个三维坐标,我们给出一堆水果,x轴代表大小,y轴代表颜色,z轴代表形状(0为圆,1为椭圆....)
然后我们分别把苹果,梨,葡萄按特征放在这个三维坐标里,当然这三种水果应该是分成三部分,现在拿出一个不知道是什么的水果,按照它的特征找出它在三维坐标里的位置,然后一个个计算这个未知水果距离每个已知水果的距离,当它与K个最近距离中哪个水果多,那么就判断这个水果是什么水果,
比如: 在离这个水果最近的10个水果中有5个苹果,3个梨,2个葡萄,那么就说这个水果是个苹果

废话太多,重新进入正题:

用到KNN的一般流程

(1) 收集数据:可以使用任何方法。
(2) 准备数据:距离计算所需要的数值,最好是结构化的数据格式。
(3) 分析数据:可以使用任何方法。
(4) 训练算法:此步驟不适用于 K近邻算法。
(5) 测试算法:计算错误率。
(6) 使 用 算法 :首先需要输入样本数据和结构化的输出结果,然后运行女-近邻算法判定输入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理

因此看出,KNN主要在用在整个程序的最后的结果处理


那么,KNN的算法的算法流程是什么?

对未知类别属性的数据集中的每个点依次执行以下操作:
(1) 计算已知类别数据集中的点与当前点之间的距离;
(2) 按照距离递增次序排序;
(3) 选取与当前点距离最小的K个点;
(4) 确定前K个点所在类别的出现频率;
(5) 返回前K个点出现频率最高的类别作为当前点的预测分类。

代码实现就是:

def classify(inx, dataset, labels, k):# inx: 用于分类的输入向量   dataset: 训练样本集  labels: 标签向量  k : k值
    datasetsize = dataset.shape[0]   #: shape用于读取矩阵长度,[参数]为维数
    diffmat = tile(inx, (datasetsize , 1)) - dataset    # 此处使用inx构造一个和样本集一样的矩阵,从而使未知量可以和每一个已知样本进行对比,并且注意,一下进行的运算结果,其运算是单独对每一行进行运算
    sqdiffmat = diffmat**2
    sqdistances = sqdiffmat.sum(axis= 1)
    distances = sqdistances**0.5   # 以上为求距离,即输入向量与样本的距离
    sorteddistindicies = distances.argsort()  # 将距离从小到大排序
    classcount = {}
    for i in range(k):
        voteiabel = labels[sorteddistindicies[i]]
        classcount[voteiabel] = classcount.get(voteiabel, 0) + 1  #统计离各标签最近K个的个数
    sortedclasscount = sorted(classcount.items(), key = operator.itemgetter(1), reverse = True)   # iteritems()返回一个迭代器
    # sorted()用于进行排序,items()将字典以列表的形式返回,key为用于比较的维度,reverse为排序方式,默认false从小到大
    return sortedclasscount[0][0]

解读一下: 注:一下在非具体实例分析时皆以找狗为例

跟宇哥学的

首先:要进行对未知狗的分类,需要拉过来一个未知狗(输入向量),到你的狗圈(样本集),以及定义出什么样的是什么狗(每个狗有每个狗的狗样),以及跟几个狗(K)对比

然后使用欧式距离公式,求出未知狗和狗圈里每个狗的距离,找出最像的K个狗,看哪种狗的数量最高就是属于哪个狗了

欧式距离公式:

就是三角形求第三那边那个公式了啊

1.下面是一个实例:找女朋友
大致了解一下就是在一个交友网站上,根据对方几个特征而预测到底适不适合做女朋友
数据的话之后会上传到给github上

给出找女朋友的策略

(1) 收集数据:提供文本文件。
(2)_ 准备数据 : 使用python解析文本文件。
( 3 ) 分 析 数 据 :使用matplotlib画二维扩散图。
(4) 训练算法:此步驟不适用于K近邻算法。
(5) 测试算法:使用部分数据作为测试样本。 测试样本和非测试样本的区别在于:测试样本是已经完成分类的数据,如果预测分类与实际类别不同,则标记为一个错误。
(6) 使用 算 法 :产生简单的命令行程序,然后输入一些特征数据以判断对方是否为自己喜欢的类型。

首先我们分析一下数据

def file2matrix(filename):
    fr = open(filename)
    arrayolines = fr.readlines() #读取到文件行数
    numberoflines = len(arrayolines)  #得到文件行数
    returnmat = zeros((numberoflines, 3))  # 创建返回的numpy矩阵,以0填充
    classlabelvector = []
    index = 0
    for line in arrayolines:
        line = line.strip() # 去除回车字符
        listfromline = line.split('\t')  # 进行切片 ,切片中是\t,生成一个元素列表
        returnmat[index, : ]= listfromline[0:3]  # 选取3个元素存储到特征矩阵中
        classlabelvector.append(int(listfromline[-1])) # 将最后一列存贮到向量中
        index += 1
    return returnmat, classlabelvector

代码解读: 首先传过来一个文件,打开文件得到文件数量,然后创建一个等大小的0矩阵,由于文件中每个样本数据包含三个特征和一个标签,因此将特征值和标签分开

归一化数值

这里的归一化解释一下,还记得我们计算KNN的时候是按每个样本的特征值差平方和求根的吗?这里的每个特征应该是等价的(以后会有对每个特征的侧重),就拿等价来说的时候,虽然在计划上是等价的,但是由于每个特征值取值范围不同,那么很有可能就不能等价(例如:a特征的值基本都是10000左右,而b特征值都是10左右,如果直接计算的话连个特征就是不平等的,导致出现错误),因此这里要对数据做归一化处理,使数据特征值转化为0到1区间内(如果这里再有特征侧重可添加权重,但应先做归一化处理)
处理方法:


归一化方法

也就是将原数值减去最小值然后除以最大值和最小值的差

上代码:

def autonorm(dataset):
    minvals = dataset.min(0)  # min(0)和max(0)可从数据集中选出最小值和最大值
    maxvals = dataset.max(0)
    ranges = maxvals - minvals
    normdataset = zeros(shape(dataset))  #读取一个和数据集一样的0矩阵
    m = dataset.shape[0]
    normdataset = dataset - tile(minvals, (m, 1))   # 元数据集每行将去一个最小值
    normdataset = normdataset/tile(ranges, (m, 1))
    return normdataset, ranges, minvals

很容易理解,就是按照上面的数学公式对数据进行处理,因为是做矩阵运算,所以要引用同等零型矩阵

测试算法:

经过KNN处理后的数据结果,我们想知道他的处理结果怎么样,这里就要进行测试,也就是评估算法正确率,
通常我们只提供已有数据的 90 %作为训练样本来训练分类器 ,而使用其余的 10% 数据去测试分类器(测试数据占总数据比例不同也会影响到算法的测试结果),且数据划分是随机的
这里我们测试的方法就是对数据进行一系列操作后(读取,归一,分类)然后与标签进行对比算出正确率
上代码:

def datingclasstest():
    horatio = 0.10
    datingdatamat, datinglabels = file2matrix('datingTestSet2.txt')  # 获取数据
    normmat, ranges, minvals = autonorm(datingdatamat)  # 将数据的样本集进行归一化
    m = normmat.shape[0]    # 数据集0维维数
    numtestvecs = int(m*horatio)  # 采取10%做为测试集
    errorcount = 0.0
    for i in range(numtestvecs):
        classifierresult = classify(normmat[i, : ], normmat[numtestvecs:m, :],  # knn分类器
                                    datinglabels[numtestvecs:m], 4)
        print("the classifier came back with: %d, the real answer is : %d" %
              (classifierresult, datinglabels[i]))
        if (classifierresult != datinglabels[i]):
            errorcount += 1.0
    print("the total right rate is : %f" % (1-errorcount/float(numtestvecs)))

最后我们到了最后一步---使用算法:

def classifyperson():
    resultlist = ['not at all', 'in small doses', 'in large deses']
    percenttats = float(input("percentage of time spent playing vider games?\n\t"))
    ffmiles = float(input("frequent flier miles earned per year?\n\t"))
    icecream = float(input("liters of ice cream consumed per year?\n\t"))
    datingdatamat, datinglabels = file2matrix('datingTestSet2.txt')
    normmat, ranges, minvals = autonorm(datingdatamat)
    inarr = np.array([ffmiles, percenttats, icecream])
    classifierresult = classify((inarr- minvals)/ranges, normmat, datinglabels, 3)
    print("you will probably like this person: ", resultlist[classifierresult -1])

这里用到了input()函数进行数值输入从而当做未知数据进行运算,最后得出结果

程序运行截图


image.png

3-NN时


image.png

4-NN时
image.png

5-NN时:



正确率还是不错的


到这里一个应用KNN算法的找女朋友应用就结束了,由于本人为ML初学者,因此很多内容是参考机器学习实战这本书,因此这篇文章也算是学习的一个笔记
学习ML已经快有两个月了,这是第一次真正的去接触ML算法,之前一开始都有在为ML打基础(微积分,线性代数,概率统计,ps,这些只是入门基础,而且真正的学会这些才只是入门基础,毕竟只是学了一遍这些书后的我对很多算法的数学推导还是力不从心的啊),不过,加油就是了!!!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,002评论 6 509
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,777评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,341评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,085评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,110评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,868评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,528评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,422评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,938评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,067评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,199评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,877评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,540评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,079评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,192评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,514评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,190评论 2 357

推荐阅读更多精彩内容