【机器学习】Naive Bayes朴素叶贝斯方法(machine learning)

学习机器学习之前,先来回顾一下统计学的基础知识


在A和B的合集里A跟B同时出现


B的集里出现A


名字死记硬背一下
product rule


很关键

entropy(熵):测量不确定性,entropy越高,不确定性越高(harder to predict)


伯努利分布(Bernoulli distribution):又称为两点分布,试验结果只是两种可能性,比如扔硬币的正反面。

二项分布(binomial distribution):将伯努利试验独立地重复n次称为n重伯努利试验,独立是指每次试验结果互相不影响,二项分布是n重伯努利试验中正例发生次数的离散概率分布,也就是说,抛n次硬币,出现正面的次数的概率分布。 

多项分布(multinomial distribution):多项分布是对二项分布的扩展,二项分布是单变量分布,而多项分布是多变量分布。二项分布的典型例子是抛硬币,每次试验有正反两种对立的可能,多项分布的例子是扔骰子,每次试验有多种可能,进行多次试验,多项分布描述的是每种可能发生次数的联合概率分布。 

朴素贝叶斯方法(Naive Bayes)

朴素贝叶斯分类器(Naïve Bayes classifier)是一种相当简单常见但是又相当有效的分类算法,在监督学习领域有着很重要的应用。这个算法叫做Naïve Bayes,但是它到底naive(朴素)在哪里呢?朴素贝叶斯分类器采用了“属性条件独立假设”(attribute conditional independent assumption),用通俗的话来讲,就是一个属性,或者是我们所说的特征,相互之间是独立的;也正是有了这个假设,朴素贝叶斯分类器才能做这么多事情,在监督学习的世界里有着这么广泛的应用。接下来进入正题,看看朴素贝叶斯分类器究竟是怎么工作的。

先修知识:基本的概率论与数理统计,基本的机器/统计学习概念

什么是分类

要了解朴素贝叶斯分类器,首先要知道什么才是分类(classification)。分类是一种确定数据类别(category)的问题,比如确定西瓜好坏、天气阴晴,或者是某一天潮涨潮落、花开花谢,这样的问题属于分类中的二分类(binary classification)问题;如“赤橙黄绿青蓝紫,谁持彩练当空舞”这样的问题,则是多分类(multi-class classification)问题。如果你是熟悉用回归(regression)这种输出结果为连续的算法来预测数据,那么分类就是就可以当做是回归的离散版本,例如Logistic回归就是一个很经典的回归算法转化为分类算法的案例。分类的思想在人类世界中比比皆是,比如人类就属于生物,生物中的动物,而且是动物中的哺乳类动物。如果还要细分,那么人类则是属于哺乳纲灵长目人科。如果有一天我们发现了一个新的生物,或许不需要生物学家们的努力,我们自己就能训练出一个分类器分类。如果要让机器去给没有类别的茫茫数据分类,那就是类聚(clustering)了。

朴素贝叶斯分类器训练

前面的理论看起来可能很无聊,下面用实际的例子介绍贝叶斯分类器的训练。scikit-learn是Python上一个非常棒的机器学习工具包,其中包含的莺尾花数据集(Iris dataset)非常适合新手练手使用。Iris数据集的输出空间为


,也就是训练的输出只可能是这三个;输入则是一个简单的四维向量,包含了Sepal length、Sepal width、Petal length和Petal width 四个特征。数据分布如下图所示(仅显示两个特征):



拉普拉斯平滑(Laplace smoothing)






这里出现了两个0,需要使用smoothing


注意这里用的不是laplace smoothing,而是把0那个数改成一个玄学数字(接近0的数)


这里是laplace smoothing(+1)


参考:https://blog.csdn.net/jteng/article/details/54632311

作者:Victor

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容

  • 忘光了概率统计的知识还想学朴素贝叶斯算法?这一篇就是为你准备的。虽然如此,作为初学者,别指望 5 分钟就能完全理解...
    kamidox阅读 2,691评论 4 7
  • 朴素贝叶斯 在机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类...
    七八音阅读 20,567评论 0 21
  • 作者:Joel Grus读者:锅巴GG Joel Grus 是 Google 的一位软件工程师,曾于数家创业公司担...
    锅巴GG阅读 2,166评论 3 16
  • 读书笔记(R语言) 作者:曾健明公众号: 生信技能树整理原因:在公众号这篇文章中看到如下一段话,自己最近又在练习用...
    6102阅读 1,688评论 0 5
  • 今天兴致说说一位传奇人物。 昨日手机上被物理学家霍金去世的消息刷屏了,哪里都能看到他去世的这条新闻。...
    历练成圣阅读 167评论 0 0