聚类算法小结

  1. 无监督学习
  2. 性能度量-有效性指标--簇内相似度大于簇间相似度
  • 外部指标--给出具体的模型参考C*={C1*,C2*,C3*...}

    • a:两个样本xi,xj在聚类后隶属于相同的簇,在参考模型中也隶属于相同的簇的样本对个数
    • b:两个样本xi,xj在聚类后隶属于相同的簇,在参考模型中不隶属于相同的簇的样本对个数
    • c:两个样本xi,xj在聚类后不隶属于相同的簇,在参考模型中隶属于相同的簇的样本对个数
    • d:两个样本xi,xj在聚类后不隶属于相同的簇,在参考模型中也不隶属于相同的簇的样本对个数

    a+b+c+d=m(m-1)/2 (m样本总个数)

    • Jaccard系数:JC=a/(a+b+c)
    • FM指数:FMI=sqrt(a/(a+b)*a/(a+c))
    • Rand指数:RI=2(a+d)/m(m-1)
  • 内部指标

    • avg(C)=2/(|C|(|C|-1))sum(dist(x1,xj)):计算簇C内样本间平均距离
    • diam(C)=max(dist(xi,xj)):簇C键样本间最大距离
    • dmin(Ci,Cj)=min(dist(xi,xj)):簇Ci与簇Cj最近样本间的距离
    • dcen(Ci,Cj)=dist(ui,uj):簇Ci与Cj中心质点的距离
    • DB指数:参考周志华老师的机器学习
    • Dunn指数
  1. 距离计算
    • 曼哈顿距离
    • 欧氏距离
    • 闵科夫斯基距离
  2. 无序属性距离的计算:VDM距离
  3. 聚类方法
    1. 原型聚类:K-Means及其变形二分k-Means--实例:google地图将地址转化为经纬度并进行聚类分析,实现举起学习实战上的例子,使用python 3.6
    2. 学习向量量化:带有类别标记,目的学到一组原型向量,向量维度和样本一致,向量个数为k:聚类个数,学到之后在将任意样本进行簇划分,划分到与原型向量距离最近的簇中
    3. 高斯混合聚类:没看懂
    4. 密度聚类:核心点、边界点、噪音点--DBSCAN算法,不规定簇的个数,输入参数为MinPts和半径Eps,将密度极低的样本作为异常点、噪音点删除。
    5. 层次聚类:
      • AGNES:自底向上--构成树状图
      • 二分KMeans好像就是自顶向下的层次聚类
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,084评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,623评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,450评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,322评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,370评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,274评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,126评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,980评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,414评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,599评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,773评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,470评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,080评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,713评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,852评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,865评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,689评论 2 354

推荐阅读更多精彩内容

  • 1. 章节主要内容 “聚类”(clustering)算法是“无监督学习”算法中研究最多、应用最广的算法,它试图将数...
    闪电随笔阅读 5,038评论 1 24
  • 一些聚类算法 Birch层次聚类 ,KMeans原形算法 ,AGNES层次算法, DBSCAN密度算法, LVQ原...
    AresAnt阅读 2,586评论 0 2
  • 【概述】 SVM训练分类器的方法是寻找到超平面,使正负样本在超平面的两侧(分类正确性即“分得开”),且样本到超平面...
    sealaes阅读 11,072评论 0 7
  • 缺少安全感,所以不希望你心里有很多人?作为恋人,我觉得这是无可厚非的,但是作为朋友,我认为这就有点道德绑架了。 事...
    十字路口G阅读 265评论 0 1
  • 每天生活在工厂里,听着吵闹的机器声或是,望着窗外连绵不断的细雨,思绪也随之飘向远方。 作为一个即将毕业...
    九八初秋阅读 122评论 0 1