吴恩达机器学习-Chapter 14 无监督学习

目的:无监督学习 聚类算法

1. Lesson 108 无监督学习

    1. 目的:介绍无监督学习,无标签y,只有特征变量X
    2. 应用场景:市场划分、社交网络人群聚类、服务器集群划分

2. Lesson 109 K-Means 算法

    1. 目的:介绍K-Means定义及原理
    2. K-Means是迭代算法,它做2件事 1)簇分类 2)移动聚类中心
    3. 步骤:
      1. 随机找2个聚类中心,分别叫:μ_a、μ_b(分为2类)
      2. 遍历样本数据中每个点分别与μ_a、μ_b的距离,距离近的便分配到哪个簇中(即:离μ_a近的样本便算到a簇中,否则算到b簇中)
      3. 移动聚类中心,将μ_a移动到a簇中所有样本的均值处,μ_b移动到b簇中所有样本的均值处(相当于重新得到了2个聚类中心)
      4. 重复上面2,3的过程,直到μ_a、μ_b两个聚类中心的值不再变化

      5. 算法:
K-Means算法.png

    6. 几种距离算法
      1. 欧氏距离(Euclidean Distance)
         1. 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离:
二维平面欧式距离.png

        2. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离(两个n维向量)
n维空间欧式距离.png

      2. 曼哈顿距离(Manhattan Distance)
        1. 顾名思义,在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。

        2. 二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离:
二维平面曼哈顿距离.png

        3. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离:
n维空间曼哈顿距离.png

      3. 切比雪夫距离 (Chebyshev Distance)
        1. 国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?这个距离就叫切比雪夫距离。
        2. 二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离
二维平面切比雪夫距离.png

        3. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的切比雪夫距离:
n维空间切比雪夫距离.png

      5. 标准化欧氏距离 (Standardized Euclidean Distance)
        1. 定义: 标准化欧氏距离是针对欧氏距离的缺点而作的一种改进。标准欧氏距离的思路:既然数据各维分量的分布不一样,那先将各个分量都“标准化”到均值、方差相等。假设样本集X的均值(mean)为m,标准差(standard deviation)为s,X的“标准化变量”表示为:
标准化变量.png

        2. 标准化欧氏距离公式:
标准化欧氏距离.png

5. Lesson 110 优化目标

      1. 目的:K-Means算法最小代价函数(优化目标),该函数2个目的,1)调试算法效果;2)找到最好的簇,避免局部最优解

      2. 代价函数:所有样本点到其所在的簇中心的距离平方和最小
image.png

6. Lesson 111 随机初始化

      1. 目的:初始化聚类中心的方法
  2. 在样本数据中随机选择K个点即可(K要小于样本数量m)
      3. 如果担心出现局部最优解,可以进行多次随机初始化,并计算出每次随机初始化的代价函数,取最小值的即可
      4. 如果分类数量K在2-10之间,经过多次随机初始化,效果会比较好,如果K值较大(成百上千),此方法效果不佳

7. Lesson 112 选取聚类数量

    1. 目的:选取聚类数量K的值(无自动化方法)

    2. 肘部法则(效果不一定好)
肘部法则.png

    3. 根据业务场景和需求来定K值
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352