统计学习方法笔记:3.k近邻法

这是我参加mlhub123组织的书籍共读计划的读书笔记,活动见mlhub第一期读书计划

  • 阅读章节:第三章:k近邻法
  • 开始时间:2018-09-29
  • 结束时间:2018-10-23(比较忙)
  • 目标:读完第三章,掌握基本概念,产出一篇笔记
  • 博客地址

k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法,本书只讨论分类形式:

  • k近邻算法
  • k近邻模型
  • k近邻法的实现:kd树

k近邻算法

什么是k近邻算法?

给定一个训练集:T = \{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\},其中x_i为实例的特征向量,y_i\in \gamma =\\{c_1,c_2,...,c_k\\},输入实例特征向量x,输出该实例特征向量的类别y

关键点在于是如何进行类别的判断,描述如下:

image

思想很简单,就是给定一个训练集,输入一个实例,就在训练集中找出与该实例最邻近的k个实例,然后进行多数表决,这k个实例的多数属于某个类,就把该输入实例分为这个类

上面3.1的公式这里解释一下:随着变量j的递增,c_j代表不同的类别,每次x_i对应的y_i会和c_j进行比较,如果y_i等于c_j,该类别计数加一,直到y_1,y_2,,,y_ic_j比较完毕,累加之和最高的c_j就是输出y(意思就是判断输入实例邻域的实例在此类别占据多少个数目),至此,分类成功

k近邻模型

k近邻法使用的模型实际上对应于对特征空间的划分,模型由三个基本要素——距离 度量、k值的选择和分类决策规则决定

模型

通过上面的叙述,当我们知道:

  • 训练集
  • 距离度量(明可夫斯基距离)
  • k值
  • 分类决策规则(多数表决)

此时对于任何一个新的输入实例,都可以确定其所属的类

什么是单元?

特征空间中,对每个训练实例点i_x,距离该点比其他点更近的所有点组成一个区域,叫作单元(cell),最终会将特征空间划分为下图所示:

image

距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映,k近邻模型的特征空间一般是n维实数向量空间R^n,使用的距离是欧氏距离,但也可以是其他距离,如更一般的L_p距离(L_p distance)或Minkowski距离(Minkowski distance)

image

k值的选择

k值的选择会对k近邻法的结果产生重大影响:

  • 如果较小:k值的减小就意味着整体模型变得复杂,容易发生过拟合
  • 如果较大:k值的增大就意味着整体的模型变得简单

分类决策规则

k近邻法中的分类决策规则往往是多数表决(majority voting rule),即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类,实际上等价于经验风险最小化

k近邻法的实现:kd树

实现k近邻法时,主要考虑的问题是如何对训练数据进行快速k近邻搜索

k近邻法最简单的实现方法是线性扫描(linear scan),这时要计算输入实例与每一个训练实例的距离,当训练集很大时,计算非常耗时,这种方法是不可行的

为了提高k近邻搜索的效率,可以考虑使用特殊的结构存储训练数据,以减少计算距离的次数,具体方法很多,下面介绍其中的kd树(kd tree)方法

构造kd树

k-d树(k-dimensional树的简称),是一种分割k维数据空间的数据结构,主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)

k-d树是二叉树,表示对k维空间的一个划分(partition),其中每个结点对应于一 个k维超矩形区域,且该超平面垂直于当前划分维度的坐标轴,并在该维度上将空间划分为两部分,一部分在其左子树,另一部分在其右子树

image

实际做一道例题有助于对算法的理解:

image
  • 首先对数据集排序:(2,3),(4,7),(5,4),(7,2),(8,1),(9,6),其中值为(7,2)
  • 根结点生成深度为1的左、右子结点,(2,3),(4,7),(5,4)挂在(7,2)节点的左子树,(8,1),(9,6)挂在(7,2)节点的右子树
  • 构建(7,2)节点的左子树,此时切分维度k=2(可以理解为y轴),中值(5,4)作为分割平面,(2,3)挂在其左子树,(4,7)挂在其右子树
  • 构建(7,2)节点的右子树,此时切分维度k=2(可以理解为y轴),中值(6,6)作为分割平面
  • 无法继续划分,k-d tree构建完成
image

搜索kd树

给定一个目标点,搜索其最近邻,首先找到包含目标点的叶结点;然后从该叶结点出发,依次回退到父结点;不断查找与目标点最邻近的结点,当确定不可能存在更近的结点时终止。这样搜索就被限制在空间的局部区域上,效率大为提高

image

说明

有助于理解kd树的博客文章:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容