scikit-learn 估计器 · 距离方法

本节和后面几个章节,将记录scikit-learn估计器。

估计器主要用于分类任务,主要有两个函数:

fit() :  训练算法。2个参数:训练数据集,类别。

predict() : 预测算法,用以预测测试集类别,返回类别数组。 1个参数:测试集。

邻近算法

对新个体分类时,需要查找训练集,找到与该新个体最相似的个体,然后根据该个体所属类别将新个体归类到该类别下。

例如:当我们要预测三角形类别时,先找到与它最近距离的是三个菱形和一个圆形,但是菱形的数量大于圆形,故预测三角形的类别时菱形。


举例-邻近算法

缺点:不适合大数据集,且数据特征值呈离散分布。

距离度量

在讲到邻近算法时,我们说到距离。即,当你要对个体分类时,往往需要知道该个体与其他个体之间的距离。下面分别简要介绍三种距离方法。

欧氏距离

欧式距离,是利用勾股定理测量得到的真实距离,即两个特征向量长度平方和的平方根。

缺点:如果特征值之间存在较大差异时,或者存在稀疏矩阵时,精确度就会明显的降低。

曼哈顿距离

两个特征在标准坐标系中绝对轴距之和。

异常值对曼哈顿距离的影响,小于欧式距离。

但是,如果数据集中某些特征值很大,这些特征会掩盖其他特征间的邻近关系。

余弦距离

指的是特征向量夹角的余弦值。

更适合处理异常值和稀疏数据的问题。

适用于特征向量很多的情况,但其也忽略了向量长度所包含的在某些场景下可能会有用的信息。

所以,距离问题的解决方法的选择,将直接影响到分类的结果。

下一节中,通过我们将讲解如何通过欧式距离进行分类。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,367评论 6 512
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,959评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,750评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,226评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,252评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,975评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,592评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,497评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,027评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,147评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,274评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,953评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,623评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,143评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,260评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,607评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,271评论 2 358

推荐阅读更多精彩内容

  • 概述及标签体系搭建 1 概述 随着信息技术的迅速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,愈发带来很大...
    JinkeyAI阅读 22,808评论 10 241
  • 注:题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主,不涉及代码实现。 前些日子定下了未来三年左右...
    我偏笑_NSNirvana阅读 40,000评论 12 145
  • https://developers.google.com/machine-learning/crash-cour...
    iOSDevLog阅读 2,663评论 1 11
  • 30岁之后,你还敢转行吗 小微,30+,上班狗,俩娃妈,30岁之前一直兢兢业业上班 下班 厨房办公室忙碌,日子紧凑...
    85后的美少女阅读 123评论 1 3
  • 每个人都会有情绪不好的时候,每次在走进课堂先让自己面带微笑,环视每位学生,能建立起良好的师生关系。 微笑是自然里最...
    青云天阅读 191评论 0 0