机器学习笔记4: 生成学习算法

生成学习算法

目前为止,我们主要讨论的学习算法基于p(y|x;θ)进行建模,即给定x的情况下y的条件分布。比如在逻辑回归里我们基于p(y|x;θ)推导出hθ(x)=g(θTx),其中g(z)是sigmoid函数。这次我们来介绍另一种类型的学习算法。

考虑这样一个分类问题,根据动物的某些特征用来区分该动物究竟是大象(y=1)还是狗(y=0)。之前的回归算法可能通过梯度上升算法求出一条直线,也就是决策边界(decision boundary),来区分大象和狗。对于一个新的动物,看它落到直线的哪一边就能做出相应的预测。

另一种方法是,我们挑选出大象的数据,单独对大象进行建模;对狗也一样,单独对狗进行建模。对于一个新的动物,分别对大象的模型和狗的模型进行匹配,看哪个匹配得更像,进而做出相应的预测。

像逻辑回归这样对p(y|x)进行建模的算法称为判别学习算法(discriminative learning algorithms)。而这次我们介绍的对p(x|y)进行建模的算法称为生成学习算法(generative learning algorithms)。拿刚才的分类问题举例,如果y=1表示动物是大象,y=0表示动物是狗,那么p(x|y=0)就表示对狗的特征进行建模,p(x|y=1)就表示对大象的特征进行建模。

p(x|y)和p(y|x)的关系可以用贝叶斯规则(Bayes rule)描述:

由于p(x)是一个与y无关的值,所以为了让p(y|x)取最大值,可以忽略分母的值,即:

多元正态分布

在介绍下面的算法之前,我们先简单讨论一些多元正态分布(multivariate normal distribution)的知识。

多元正态分布,又称多元高斯分布,是一元高斯分布的在向量形式的推广。对一个均值(mean vector)为μ,协方差矩阵(covariance matrix)为Σ的n维多元正态分布,其概率密度函数为:

如果一个随机变量X服从多元正态分布N(μ,Σ),它的期望值由μ决定,即:

协方差矩阵Cov(X)=E[(X-E(X))(X-E(X))T]=Σ。下面我们用几张图说明参数μ和Σ对分布的影响。

上图最左面的图形表示一个μ=0,Σ=I(2*2的单位矩阵)的标准正态分布(standard normal distribution)。中间的图形表示的是μ=0,Σ=0.6I的正态分布。右边的图形表示的是μ=0,Σ=2I的正态分布。由此可见,Σ越大,图形更“扩散(spread-out)”,Σ越小,图形更“压缩(compressed)”。

上图的三个图形表示μ=0,Σ分别如下所示的正态分布:

由此可见,增加Σ非对角线(off-diagonal)上的值,图形向45度角方向上变得更“压缩(compressed)”了。

最后我们看下参数μ对图形的影响:

上图的分布参数Σ=I,μ的值分别如下:

综上,μ的值决定了中心的位置,Σ的值决定了分布的幅度。

高斯判别分析

假设在我们的分类问题中,x是连续的随机变量,p(y)服从伯努利分布,p(x|y)服从多元正态分布,这样的模型称为高斯判别分析(Gaussian Discriminant Analysis, GDA)模型。具体来说:

它们对应的概率分布为:

这里我们模型的参数有φ,Σ,μ0,μ1。注意,尽管两个多元正态分布有不同的均值μ0和μ1,但它们有相同的协方差矩阵Σ。这个模型的对数似然函数为:

通过最大化l,我们可以求得各参数如下:

下面我们用图形来更直观地理解一下:

上图给出了训练数据,以及两个高斯分布的等高线图。两个分布的形状相似(因为有相同的协方差矩阵Σ),但位置不同(因为均值μ不同)。图中也给出了一个直线,表示p(y=1|x) = 0.5时的决策边界。在边界的一边我们认为y=1是概率最大的,而另一边我们认为y=0是概率最大的。

高斯判别分析与逻辑回归的关系

GDA模型和逻辑回归之间的关系很有趣。如果我们把p(y=1|x;φ,Σ,μ01)看作是关于x的函数,我们可以将其表示成如下形式:

其中θ可以写成关于φ,Σ,μ01的函数。上式正好是逻辑回归的表达形式。

如果p(x|y)服从多元正态分布,那么p(y|x)可表达成逻辑回归的形式。相反地,如果p(y|x)可表达成逻辑回归的形式,那么不代表p(x|y)服从多元正态分布。这说明GDA比逻辑回归需要更加严格的模型假设。当GDA模型假设成立时,GDA的拟合效果比逻辑回归更好;而当假设不成立时,逻辑回归的拟合效果更好。

另外在补充一点,如果p(x|y)服从指数分布族,那么p(y|x)也可表达成逻辑回归的形式。但是用GDA去拟合非高斯分布的数据,它的预测效果是不可捉摸的,效果可能好也可能不好。

总结

  • 对p(y|x)进行建模的算法称为判别学习算法,例如逻辑回归;对p(x|y)进行建模的算法称为生成学习算法,例如高斯判别分析(GDA)
  • 对一个均值为μ,协方差矩阵为Σ的多元正态分布,μ值决定了中心的位置,Σ值决定了分布的幅度
  • 如果p(x|y)服从多元正态分布,那么p(y|x)可表达成逻辑回归的形式;相反地,如果p(y|x)可表达成逻辑回归的形式,那么不代表p(x|y)服从多元正态分布
  • GDA需要更加严格的模型假设,当假设成立时,GDA的拟合效果比逻辑回归好,否则逻辑回归的拟合效果更好;逻辑回归的模型假设相对弱一点,这使得它在实际应用中更普遍

参考资料

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容