分类(2):k-最近邻、贝叶斯分类器

一、k-最近邻

1、算法

积极学习方法(eager learner):通过训练样本建立模型。
消极学习方法(lazy learner):实例的学习,k-最近邻就属于这种。

k-最近邻算法:
令k是最近邻数目,D是训练样例集合
for z in 样例集合:
  计算 z 和每个样例 (x,y) 的距离 d
  选择离 z 前 k 个近距离的点,为集合 Dt
  z的标记 y 为 Dt 中类较多的

k-最近邻采用多数表决的方法,该算法对 k 敏感:
![](http://www.forkosh.com/mathtex.cgi? y'=argmax_{v}\sum_{(x_{i},y_{i})\in D_{t}} I(v=y_{i}))
所以,需要降低 k 的影响,一种途径就是对距离的不同加权,如下,因为距离远的影响要弱一些,以距离平方的倒数为权值。
![](http://www.forkosh.com/mathtex.cgi? y'=argmax_{v}\sum_{(x_{i},y_{i})\in D_{t}}w_{i}\times I(v=y_{i}),w_{i}=\frac{1}{d(x',x_{i})^{2}})

2、最近邻分类器特征:

(1)实例的学习,不需要建模,但分类测试的开销很大。
(2)当k比较小的时候,对噪声非常敏感。
(3)可以生成任意决策边界。

二、贝叶斯分类器

1、贝叶斯公式

![](http://www.forkosh.com/mathtex.cgi? P(Y_{j}|X)=\frac{P(X|Y_{j})P(Y_{j})}{P(X)}=\frac{P(X|Y_{j})P(Y_{j})}{\sum_{i=1}^{n}P(X|Y_{i})P(Y_{i})})

2、朴素贝叶斯
(1)条件独立性:

给定 Z,X 条件独立于 Y:
![](http://www.forkosh.com/mathtex.cgi? P(X|Y,Z)=P(X|Z))
则有:
![](http://www.forkosh.com/mathtex.cgi? P(X,Y|Z)=\frac{P(Z,Y,X)}{P(Z)}=\frac{P(Z,Y,X)}{P(Y,Z)}\frac{P(Y,Z)}{P(Z)}=P(X|Y,Z)P(Y|Z)=P(X|Z)P(Y|Z))

(2)朴素贝叶斯分类器:

![](http://www.forkosh.com/mathtex.cgi? P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}=\frac{P(X_{1},...,X_{d})P(Y)}{P(X)}=\frac{P(Y)\prod_{i=1}^{d}P(X_{i}|Y)}{P(X)})

(3)连续属性的条件概率:

<1>把每个连续属性离散化,用相应的区间去替代原来的属性,但若某一个区间的样本数目过少,不容易做出可靠的估计。
<2>可以假设连续变量服从正态分布,Xi的概率等于:
![](http://www.forkosh.com/mathtex.cgi? P(X_{i}=x_{i}|Y=y_{j})=\frac{1}{\sqrt{2\pi}\sigma_{ij}}e{-\frac{(x_{i}-\mu_{ij}){2}}{2\sigma_{ij}}})
其中 mu 用样本均值估计, sigma 用样本方差估计。

(4)朴素贝叶斯举例:

拖欠贷款为 Y 变量。


5_01.png

测试记录X=(有房=否,婚姻状况=已婚,年收入=120K),求后验概率P(No|X)、P(Yes|X)。
总的 Y 可以知道,P(Yes)=0.3,P(No)=0.7。则:

P(X | No)=P(有房=否 | No)x P(婚姻状况=已婚 | No)x P(年收入=120K | No)=0.0024
P(X | Yes)= P(有房=否 | Yes)x P(婚姻状况=已婚 | Yes)x P(年收入=120K | Yes)=0

因为P(No|X)>P(Yes|X),所以该测试分类为No,不拖欠贷款。
上例中,P(婚姻状况=已婚 | Yes)=0,可能会出现极端现象,为了防止出现0,朴素贝叶斯没法正确分类,可以使用 m 估计(m-estimate):
![](http://www.forkosh.com/mathtex.cgi? P(x_{i}|y_{j})=\frac{n_{c}+mp}{n+m})
n 为 yi 的实例总数,nc 为 yi 中 xi 的实例数目,p 是用户指定,m 为等价样本大小的参数。上面的计算:P(婚姻状况=已婚 | Yes)=(0+3 x 1/3)/(3+3)=1/6,而不是0。

(4)朴素贝叶斯特征:

对于噪声点,朴素贝叶斯是健壮的。也可以处理属性值遗漏问题。
无关属性,朴素贝叶斯是健壮的。对于相关属性,可能会降低分类性能。

3、贝叶斯置信网络(Bayesian belief networks,BBN)
(1)模型表示:

两个主要成分:

一个有向无环图(DAG),表示变量之间的关系;
一个概率表,把各个结点和它的直接父节点关联起来。

性质1:条件独立
贝叶斯网络中的一个结点,如果它的父母结点已知,则它条件独立于它的所有非后代结点。


5_02.png

如图(b),给定C,A 条件独立于 B 和 D。
除了网络拓扑结构要求的条件独立外,每个结点还关联一个概率表。

(1)如果结点 X 没有父母结点,则表中只包含先验概率P(X);
(2)如果结点 X 只有一个父母结点 Y,则表中包含先验概率P(X | Y);
(3)如果结点 X 有多个父母结点{Y1,Y2...,Yk},则表中只包含先验概率P(X|Y1,Y2...,Yk);

下图是一个贝叶斯置信网络。


5_03.png
(2)建立模型:

贝叶斯网络拓扑结构的生成算法:

设T=(X1,X2,...Xd)表示变量的全序
for j=1 to d do
  令 XTj 表示 T 中第 j 个次序最高的变量
  令A(XTj)={XT1,XT2,...XTj-1} 表示排在 XTj 前面的变量的集合
  从A(XTj)中去掉对 Xj 没有影响的变量(使用先验知识)
  在 XTj 和 A(XTj) 中的剩余变量之间画弧

考虑到图5_03,经过循环后,得到的如下概率:

P(D | E)化简为 P(D)
P(HD | E,D)不能化简
P(Hb | E,D,HD)化简为 P(Hb | D)
P(CP | E,D,HD,Hb)化简为 P(CP | HD,Hb)
P(BP | E,D,HD,Hb,CP)化简为 P(BP | HD)

上面的算法,保证了不会生成环。
不同的变量排序会产生不同的拓扑结构,理论上需要 d!种排序才能找到最优的,开销很大。代替方法是把变量分成原因变量和结果变量,从原因到结果画弧。

(3)使用BNN进行推理:

根据上面的贝叶斯置信网络图,有下面情况:


5_04.png

5_05.png
(4)BNN的特点:

构造网络比较费时,但网络结构一旦确定下来,添加新变量就变得容易。
很适合处理不完整数据,对有属性遗漏的可以通过概率或求积分来加以处理。
数据和先验知识结合起来,该方法对于模型的过拟合问题是非常鲁棒的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,390评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,821评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,632评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,170评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,033评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,098评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,511评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,204评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,479评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,572评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,341评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,893评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,171评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,486评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,676评论 2 335

推荐阅读更多精彩内容