机器学习笔记E7.0--聚类

缺一节
机器学习笔记E6--支持向量机
留坑,免得乱了顺序


一、聚类

前面讲到,根据训练数据是否拥有标记信息,机器学习的学习任务可大致分为两大类: 监督学习(supervised learning)无监督学习(unsupervised learning) ,分类和回归是监督学习的代表,而聚类则是无监督学习的代表。

”物以类聚,人以群分”,在实际生活中,存在着大量的分类问题。之前讲到的逻辑回归、分类树等等分类算法都可以找到适当的分类边界。但值得注意的是,我们在使用这些分类算法时,用到的带标记的数据集比起不带标记的,往往意味着更大的收集成本。所以实际上,出于节约成本或者碍于没有条件为数据集增加标记,我们面对的不带标记的成本占有很大的比例。

聚类就是针对大量未标注的数据集,按数据集的内在相似性讲数据集划分为多个类别,使得 类别内的数据相似度最大类别间的数据相似度最小 。这两点也是聚类的 划分原则

聚类与分类的不同在于,聚类所要求划分的类是未知的。需要我们将一系列无标签的训练数据,输入到一个算法中,这个算法将寻找这个数据的内在结构。

二、常见的聚类算法

1、K-means

K-means算法 ,也被称为 k-平均k-均值 ,是一种得到最广泛使用的聚类算法,或者成为其他聚类算法的基础。

算法首先随机的选择k个对象,每个对象代表着一个簇的中心(平均值或质心)。对剩余的其他对象,根据其与选定的各个簇中心的距离,将之划分到最近的簇。然后对经过一次划分形成的簇重新计算其簇中心(平均值)。这个过程不断重复,直到准则函数收敛。而K-means所使用的准则函数常常是我们熟悉的 均方误差 MSE (也叫最小平方误差)。

我们来看对于只有两类时候K-means的处理过程。

经过多次迭代后,可以看到,很明显的对红色和蓝色进行了划分。

而在对于有多个类别时,不凑巧,我们选择的初始簇中心有两个比较靠近,那么可能就会出现如下的这种情况:这个时候准则函数依然收敛了,但是,是不是和我们心里预期的四个簇不太一样。这说明了 K-means可以保证收敛,但不保证达到全局最优。 同时,不同的初始簇中心的选取可能会让聚类的结果产生一定差异。即 K-means对初始值很敏感

K-means初值敏感

那这种问题怎么解决呢?

常见方法有两种:

  • 仔细寻找初始值,它不是初值敏感嘛,那我们就在源头上下功夫:
    • 随机确定第一个簇的中心,其他簇中心的位置尽量远离已有类的中心;
    • Scikit learn中K-means实现中参数 (init='k-means++') 将初始化centroids(质心)彼此远离,得到比随机初始化更好的效果。
  • 此外,还可以在结果上做文章,将K-means训练重复多次,每次训练初始值都随机选取,最后选择使目标函数最小的结果。

K-means的优化目标

在了解了K-means的思想后,我们再来看K-means的具体实现。


(Unfinished)需要再推一边补全。


最后再来总结一下。

K-means聚类算法的优缺点

  • 优点
    • 简单、快速,是解决聚类问题的一种经典算法。
    • 对处理大数据集,该算法保持可伸缩性和高效率
    • 当结果簇是密集的,它的效果会较好。
  • 缺点
    • 必须事先给出k值,指定要生成簇的数量,这样会因为人为选择而损失掉数据内在的隐藏联系。
    • 对初值敏感,对于不同的初始值,结果会有差异。
    • 对噪声和孤立数据敏感。这一点很致命,会让在计算均值生成簇中心时,使簇中心朝噪声偏离,从而使其他的对象在划分归属的簇时产生错分。
    • 不适合于发现非凸形状的簇(球状簇)或大小差异较大的簇
    • 在簇的平均值可被定义的情况下才能使用,所以对于一些应用可能会不适合

这些是最表面的优缺点总结。关于更加专业的优缺点分析和改进方法需要进一步学习和阅读来了解。

2、层级聚类

对于K-means对初值敏感的问题,虽然我们介绍了两种解决方法,但仍然有很大几率使得结果很糟糕。而 层次聚类 是一种不需要指定随机的中心点,就可以有效的对数据集进行聚类的算法。

层次聚类 (Hierarchical clustering, 也称系统聚类法 ) 是最经典和常用的聚类方法之一,能找到任意形状的类,而且不需指定别数 K 需要 度量样本点之间的 距离以及类 与距离以及类 与之间的联接 之间的联接 (linkage) 程度。

层次聚类聚合-分裂图解.

几种常见的相似度/距离计算方法

相似度/距离计算方法总结

类间联系程度度量

在合并两个相近的类别时,需要度量两个类别之间的距离。距离度量可选:

1. 最小距离法
2. 最大距离法
3. 类平均距离法
4. 离差平方和法

层次聚类的总结

3、DBSCAN

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容

  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,510评论 0 6
  • 机器学习 经验 数据 数据中产生模型model 的算法 学习算法 learning algorithm 数据集 d...
    时待吾阅读 3,973评论 0 3
  • 聚类算法 前面介绍的集中算法都是属于有监督机器学习方法,这章和前面不同,介绍无监督学习算法,也就是聚类算法。在无监...
    飘涯阅读 41,308评论 3 52
  • 今天的状态似乎是我自己满意的,8点起来到店里开门,工人来维修天花板,我在店里P图,一共出了20+张图。 中午他们走...
    王不干阅读 452评论 0 50
  • 早上去楼下的公园慢跑,顺便捡了些落叶回来当做素材。 怎么样,还可以不?每次画完画都能量满满的。 断断续续画水彩一个...
    小文文呀阅读 246评论 5 6