聚类分析

物以类聚

  • 类中的个体具有相似性,相似性聚类
    无监督学习:使用不知类别的样本集进行分类器设计
  • 基于概率密度函数估计的方法(难点在于 密度函数如何估计)
  • 基于样本集间相似性度量的方法(聚类分析)
    训练前,甚至没有确切的类别数目和类别定义,需要根据待分类样本集的实际特征分布情况与分类活动的应用目的,通过训练样本来学习出类别数目和“类别的操作定义”同时为训练样本分配类别
  • 同类样本间的相似性大于 不同类样本间的相似性
    有效性:来自分类算法与样本特征分布的匹配
    聚类分析没有完整的理论基础

特征设计对聚类分析的影响

  • 特征选取不当,使分类无效
  • 特征选取不足,使分类无效
  • 特征取多类,有多少个样本n取 n-1个特征的话,整个又太大了
    于是,需要降维,主成分分析
  • 另外 量纲选取不同 结果也很可能不同
    后面有个叫单位化处理,当我们选取一侧量纲过大时,在向量二次范数以上处理时
    量纲会有最小识别分别分度,所以 当一侧量纲过大过小 都有影响
  • 相似性(距离)测度不同,聚类结果则不同
  • 因此 特征,多少个特征,量纲,相似性度量(样本距离)
    不知道整个在数学上具体指哪一部分
  • 然而 前三个都是经验性的

相似性测度

  • 衡量模式之间相似性的一种量度
    由n个特征样本组成的n维向量,称为该模式的特征矢量
    距离越小 越相似
  • 欧式距离(Euclidean)


    94DC3167-A35A-4256-A911-CDB3F7AAF965.png

各特征维上应当是相同的物理量
注意同物理量 量纲要一致

  • 马氏距离(Mahalanobis)


    D3AB0B49-26E8-442A-B4E8-17C260A1EB70.png

    协方差各个方向的差别程度

  • 明氏距离
  • 汉明距离


    7FC2B1C1-39D7-43A1-8F94-2FBFE427E4D6.png

    位数值不相同的个数 主要用二值的

  • 角度相似距离


    AB90354B-1E0A-4651-B1C1-886702CF6199.png

    量纲不同 会影响结果,但是角度不会受量纲 放大缩小

  • Tanimoto测度
    BB958CDA-16DF-49CF-8BC4-43D5D913A5C9.png

聚类准则
-根据相似性测度确定的,衡量模式聚类结果中得到的聚类,是否满足某种优化目标的一个判断标准或方法
确定聚类准则的两种方式
1.阀值准则
2.函数准则

  • 近邻聚类算法
    问题:有N个待分类

  • 最大最小聚类法
    都是先验经验作为聚类中心,分类到聚类中心 Z1,Z2对应的类别中
    1.选任意模式样本组作为第一聚类中心
    2.选择离Z1距离最远的样本作为第二聚类中心Z2
    3.逐个计算各模式样本Xi与已确定的所有聚类中心Zi之间的距离,
    并选出其中的最小距离。例如:当目前聚类中心数k=2时,计算Di1=Xi-Zi

  • 最大最小聚类算法 已经做过题了 但是 当聚类中心改变 成三者时,差值就很多。
    然后θ 其实 和 阀值 和 聚类中心密度,个数 都是有直接关系当

  • 层次聚类法
    N个初始样本,各自成一类
    然后得各个类之间的距离矩阵D(n) NxN
    假设已求得距离矩阵D(n) n为逐次聚类合并当次数,两类合并为一类 重新计算
    还真是 自底向上构成一个树

  • 最短距离法

0EE5113E-3CA0-4D99-927A-D29E91E77049.png

K-均值算法 就是不断更新聚类中心,用上一次计算出的z值结果,作为下一次的聚类中心 进行计算。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,367评论 6 512
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,959评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,750评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,226评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,252评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,975评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,592评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,497评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,027评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,147评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,274评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,953评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,623评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,143评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,260评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,607评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,271评论 2 358

推荐阅读更多精彩内容

  • Chapter 10 Cluster Analysis 本篇是第十章,内容是聚类分析。由于之后的几章是典型的分析方...
    G小调的Qing歌阅读 14,649评论 0 29
  • 原理篇 定义 聚类分析也称群分析或点群分析,它是研究多要素事物分类问题的数量方法,是一种新兴的多元统计方法,是当代...
    ux2017阅读 12,305评论 1 25
  • RFM分析只能对客户的行为进行分析,包含的信息量有点少。一般来说,对人群进行分类,要综合考虑其行为、态度、模式以及...
    黄成甲阅读 8,695评论 0 36
  • 今天在折腾tuts+教程的时候,突然有个想法,想把自己学习的过程都记录下来,于是就准备弄个博客。之前在csdn写过...
    y_felix阅读 243评论 0 1
  • 梁实秋在《送行》里说:“我不愿送人,亦不愿人送我,对于自己真正舍不得离开的人,离别的那一刹那像是开刀,凡是开刀的场...
    缈落阅读 1,635评论 0 1