模式识别 第八章 数据聚类 非监督学习方法


title: 模式识别 第八章 数据聚类 非监督学习方法
date: 2017-03-26 18:47:53
categories: ML/卢晓春 模式识别引论
mathjax: true
tags: [Machine Learning]


第八章 数据聚类 非监督学习方法

相似性测度

欧式
马氏
明氏
相似性函数

数据标准化

不是所有情况下标准化处理都是合理的。在使用标准化技术时,要注意应用的环境是否恰当。可能导致数据标准化后交叉了不易划分。

聚类的准则函数:计算完相似性后,根据准则函数来划分

  • 误差平方和准则:一个好的聚类方法应能使集合中的所有向量与这个均值向量的误差的长度平方和最小。
  • 散布准则:不但反映同类样本的聚集程度,而且反映不同类之间的分离程度。
    • 子类散布矩阵
    • 类内散布矩阵
    • 类间散布矩阵
    • 总散布矩阵
    • 迹准则
    • 行列式准则
  • 基于模式与类核间距离的准则函数
    上面两种方法都是用均值向量来表示一类的位置并代替该类,损失了各类在空间中的分布情况。
    为了细致的表征一类,可以定义一个核来表示其模式分布结构。核可以是一个函数,一个属于同一类的模式集合或其它模型;还需要定义一个距离(即测度)以及由此构成的准则函数。

分类聚类算法 即 层次聚类算法

见 网络数据挖掘笔记

  • 聚合法:
    • 聚合算法步骤如下,其中c是事先指定的聚类数,当c达到后,迭代停止;如果c=1,则得到整个分类树。
    • 设c*=n,Di={xi},i=1,2,…,n
    • 若c*<=c,则停止
    • 找最近的两个类Di和Dj【近点距离、远点距离、平均距离】
    • 将Di和Dj合并,删去Di, c*减1
    • 转向步骤2
  • 分解法:从整体开始分

动态聚类法

动态聚类方法是一种普遍采用的聚类方法,主要具有以下3个要点

  • 选定某种距离度量作为样本间的相似性度量

  • 确定某个评价聚类结果质量的准则函数

  • 给定某个初始分类,然后用迭代算法找出使准则函数取极值的最好聚类结果

  • 初始聚类中心的选择方法

    • 任取前c个样本点作为初始聚类中心
    • 凭经验选择
    • 将全部数据随机分为c类,计算各类重心,将重心作为聚类中心
    • 密度法选择代表点(具有统计特性)
    • 从c-1类划分中产生c类划分问题的初始聚类中心
  • 初始聚类中心确定后,有不同的分类方法来确定初始划分,包括如何修正聚类中心

    • 对选定的中心按距离最近原则将样本划归到各聚类中心代表的类别,然后调整聚类中心(批量修正法)
    • 取一样本,将其归入与其距离最近的那一类,并计算该类的样本均值,以此样本均值代替原来的聚类中心作为新的聚类中心,然后再取下一个样本,如此操作,直到所有样本都归属到相应的类别中为止(单步样本修正法)
  • 一般来说,不同的初始划分往往会得到不同的解。

  • K均值算法

    • 给定允许误差ℇ,令t=1
    • 初始化聚类中心wi(t),i=1,2,…,c
    • 修正dij,
    • 修正聚类中心wi(t+1)
    • 计算误差E或者Je
    • 如果E< ℇ ,则算法结束;否则t=t+1,转步骤3
    • 上述K均值算法每次把全部样本都调整完毕后才重新计算一次各类的聚类中心,属于批处理算法;也可以采用逐个样本修正法,每调整一个样本的类别就重新计算一次各类的聚类中心。
    • 这个算法是在类别数c给定的情况下进行的。当类别数未知时,可以假设类别是在不断增加的,准则函数是随c的增加而单调减小的。可以通过Je-c的关系曲线来确定合适的聚类类别数。
  • ISODATA算法

    • 合并发生在某一类样本个数太少,或者两类聚类中心之间距离太小的情况
    • 分裂发生在某一类别的某分量出现类内方差过大的现象
    • 设置若干控制参数
      • K均值算法的迭代次数
      • 控制合并与分裂的参数
      • 最多合并次数
      • 聚类中最少样本数
      • 控制分裂参数
      • 最小类间距离
      • 合并与分裂次数
    • 算法步骤
      • 选择参数
      • 确定初始聚类中心
      • 用K均值算法进行迭代。
      • 合并/分裂
      • 计算各类的新的聚类中心
      • 判断是否满足结束条件,否则转3

第九章 模糊模式识别

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容

  • 聚类算法 前面介绍的集中算法都是属于有监督机器学习方法,这章和前面不同,介绍无监督学习算法,也就是聚类算法。在无监...
    飘涯阅读 41,311评论 3 52
  • 考试说明 注重基础知识和概念的理解,因此解题中的计算过程不会很复杂,但是会有推公式的过程。本课程的重点知识包括:贝...
    艺术叔阅读 2,838评论 0 3
  • 技术领导力是指企业在某个领域或者多个领域拥有领先的技术实力。 说的直白一点,技术领导力就是,你还在用大刀长矛打战的...
    张柳哥阅读 3,115评论 0 1
  • 一位朋友说,她失恋了。 那个跟她在一起四年的人,那个说过要给她未来的人,那个曾经说无论发生什么都不会离开她的人,只...
    拾荒Demo阅读 209评论 0 0
  • 第五章第二节:人际传播 概念:个人与个人之间的信息传播活动,也是由两个个体系统相互连接组成的新的信息传播系统。 与...
    MEHUN阅读 2,471评论 0 2