最近规则分类算法(KNN算法)

1、综述

     1.1 Cover和Hart在1968年提出了最初的邻近算法

     1.2 分类(classification)算法

     1.3 输入基于实例的学习(instance-based learning), 懒惰学习(lazy learning)

2、例子

预测电影的类型

3、算法详述

3.1算法流程:

        为了判断未知实例的类别,以所有已知类别的实例作为参照,选择K,计算未知实例与已知实例的距离。

        选择最近K个已知实例,根据少数服从多数的投票法则(majority-voting),让未知实例归类为K个最邻近样本中最多数的类别。

3.2细节,关于距离的衡量公式

    3.2.1Euclidean Distance 定义

其他距离衡量:余弦值(cos), 相关度 (correlation), 曼哈顿距离 (Manhattan distance  )

3.3举例

4、算法的优缺点

 简单、易于理解、容易实现、通过对K的选择可具备丢噪音数据的健壮性

算法的缺点:

            需要大量空间储存所有已知实例 ,算法复杂度高(需要比较所有已知实例与要分类的实例),当其样本分布不平衡时,比如其中一类样本过大(实例数量过多)占主导的时候,新的未知实例容易被归类为这个主导样本,因为这类样本实例的数量过大,但这个新的未知实例实际并木接近目标样本。

5、算法改进:考虑距离,然后加上算法的权重

算法实现(Python)

from sklearnimport neighbors

#临近算法包含在这个类中

from sklearnimport datasets

#导入数据集

knn=neighbors.KNeighborsClassifier()

#调用knn的分类器

iris=datasets.load_iris()#返回一个数据集复制到iris上面

print(iris)

knn.fit(iris.data, iris.target)

#建立模型,传入特征值和目标值

predictedLabel=knn.predict([[0.1,0.2,0.3,0.4]])

print (predictedLabel)


import csv

import random

import operator

import math

#装入数据集

def loadDataset(filename,split,trainset=[],testset=[]):

with open(filename,'rt')as csvfile:

lines=csv.reader(csvfile)

dataset=list(lines)

for xin range(len(dataset)-1):

for yin range(4):

dataset[x][y]=float(dataset[x][y])

if random.random()

trainset.append(dataset[x])

else:

testset.append(dataset[x])

def enclideanDistance(instance1,instance2,length):

distance=0

    for xin range(length):

distance+=pow((instance1[x]-instance2[x]),2)

return math.sqrt(distance)

#测试距离

def getNeighbors(trainset,testInstance,k):

distance=[]

length=len(testInstance)-1

    for xin range(len(trainset)):

dist=enclideanDistance(testInstance, trainset[x], length)

distance.append((trainset[x],dist))

distance.sort(key=operator.itemgetter(1))

neighbors=[]

for xin range(k):

neighbors.append(distance[x][0])

return neighbors

#统计

def getResponse(neighbors):

classVotes={}

for xin range(len(neighbors)):

response=neighbors[x][-1]

if responsein classVotes:

classVotes[response]+=1

        else:

classVotes[response]=1

    sortedVotes=sorted(classVotes.items(),key=operator.itemgetter(1),reverse=True)

return sortedVotes[0][0]

#测试精确度

def getAccuracy(testSet,prediction):

correct=0

    for xin range(len(testSet)):

if testSet[x][-1]==prediction[x]:

correct+=1

    return (correct/float(len(testSet)))*100

def main():

trainSet=[]

testSet=[]

split=0.67

    loadDataset(r'iris.data.txt', split, trainSet, testSet)

print ('Train set:'+repr(len(trainSet)))

print ('Test set:'+repr(len(testSet)))

prediction=[]

k=3

    for xin range(len(testSet)):

neighbors=getNeighbors(trainSet, testSet[x], k)

result=getResponse(neighbors)

prediction.append(result)

accuracy=getAccuracy(testSet, prediction)

print('Accuracy:'+repr(accuracy))

main()

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容

  • Machine Learning in Python (Scikit-learn)-(No.1) 作者:范淼(人人...
    hzyido阅读 6,157评论 2 13
  • 他是别人眼里的“疯子”“笑话”,他已麻木,没有反抗,没有接受,只是他们说他们的,他说他的而已。 在一个破旧的大楼下...
    W晓晓阅读 976评论 2 5
  • 想写一个《青岛之恋》的剧本,用缓慢的独白展开—— 爱一座城,就像爱一个人。爱一个人,我会记得,在316路公交车上,...
    叔本花阅读 174评论 0 0